Серверный парсер сайтов из текстовых списков

Web/сайты Прочее

Был(а) онлайн: 26.04.20 14:45
Umen 26 лет

1.0 Был(а) онлайн: 26.04.20 14:45

Недавно
Есть база Я.Каталога, формат ее в текстовом виде (2700 txt-файлов):
cat.txt - cat.Sports.txt - cat.Sports.Winter_sport.txt - cat.Sports.Winter_sport.Turin2006.txt
Если рубрика - то в файле наименования подрубрик в формате (en) tab (ru)
Пример такого тхт-файла приложен.

Цель: база имейлов сайтов из Я.Ка, на которых встречается заданное слово.

Исполнять серверный парсер должен следующее:
1. Пройтись по списку сайтов, и исходя из текста на основной странице сайта сделать новую выборку. Т.е. скажем ставится задача обнаружить все сайты со словом "Бульдозер" в тексте основной страницы (не глубже, только основная).
2. Отобранные сайты добавляются в новую базу. И теснее сейчас по этой базе ведется поиск имейлов на сайте.

Первоначальный итог: слово (либо слова через запятую, логическое ЛИБО), по которому искать.
Финальный итог: база со столбцами (урл тематики, урл сайта, имейл).

Чтобы добавить заявку к этому заказу, нужно войти или зарегистрироваться

Мой блок

26.04.20 14:45
Umen 26