Харвестер/парсер html страниц

Web/сайты Прочее

Был(а) онлайн: 26.04.20 14:45
Umen 26 лет

1.0 Был(а) онлайн: 26.04.20 14:45

Недавно
Нужно разработать по сути 3 скрипта (либо один, но тот, что может делать три задачи):
1. обходит заданные сайты и собирает на них url на страницы, которые попадают под определенный образец.
(скажем, страница содержит данный текст)
2. по собранным url получает страницы, парсит html (regexp, tidy либо еще что то) и формирует xml файл.
3. на основе xml файла формирует пакетные задания для утилиты wget для загрузки файлов.

Есть первая версия скрипта п.п.1,2. Ее дозволено либо доработать (что вряд ли) либо примитивно взять за основу для информации. Потому что она была написана дюже стремительно и для становления немного пригодна.

Цель - получить скрипты, которые без мощного метаморфозы кода дозволено настраивать на другие аналогичные сайты. Т.е. все что дозволено перенести в настройки, образцы и т.д. нужно перенести. Ясно, что сделать сразу универсального робота невозможно. Но нужно получить такую конструкцию кода, дабы я потом мог относительно легко его адаптировать под иной сайт с другими условиями отбора страниц. Т.е. есть ядро и есть какая то часть которая меняется для определенного сайта.
Так же главно понимать, что могут быть различные кодировки у страниц и у БД, что при образование xml нужно заменять спец. символы html и т.д. - ну то есть не наступать на грабли, которые связаны с парсингом текста.
Многопоточность не надобна, но главна устойчивость работы. Т.е. нужно хендлить правильно все допустимые errors.
Запуск скриптов предполагается через cron либо вручную.

Значимо! Скрипт должен уметь трудиться через прокси (дабы не было задач с реальным IP). Делать паузы между запросами.

Спецтехнологии: PHP 4.4, MySQL 4.1.
Тематика целевых сайтов - аренда недвижимости.
Сайтов два.
Срок - до конца февраля.

Чтобы добавить заявку к этому заказу, нужно войти или зарегистрироваться

Мой блок

26.04.20 14:45
Umen 26