Развитый граббер/парсер на Perl

Web/сайты Прочее

Был(а) онлайн: 26.04.20 14:45
Umen 26 лет

1.0 Был(а) онлайн: 26.04.20 14:45

Недавно
Нужно написать развитый парсер/граббер RSS на Perl.

На входе парсера будет таблица RSSta с таким комплектом полей:
1. id
2. r_ver
Версия RSS (0.91, 0.92,1.0,2.0) либо Atom. RDF версию также нужно уметь грабить.
3. r_fulltext
0 – сайт не отдает полную версию контента в RSS
1 – сайт отдает полную версию контента в RSS
4. r_url
URL RSS канала
5. r_rubrik
Рубрика канала. Будет указываться мною при заполнении таблицы.

Также в таблице могут быть другие поля, не важнейшие для вашей работы, следственно нужно делать выборку из базы в виде SELECT id, r_ver, …., а не SELECT * ….

Что должен делать скрипт.

1. Скрипт будет запускаться весь день моим кроном по 4-5 раз в день.
2. Он делает выборку всех RSS каналов из таблицы RSSta (описана выше)
3. Если r_fulltext==1, то скрипт легко выдерает каждый контент из фиды и укладывает в таблицу content_[id – из таблицы RSSta]. Комплект полей в таблице content_xxx будет простейший: id, дата, контент и длина контента без пробелов и тегов.
4. Если r_fulltext==0, из фиды выдераем адрес контента, заходим по ссылке, находим каждый контент и верно также сберегаем его в таблицу content_[id].


Что НЕУКОСНИТЕЛЬНО должен уметь скрипт:
1. Работать со всеми версиями RSS и Atom фид
2. Вести лог своей работы.
3. Если в контенте будут встречаться картинки, то пути к ним нужно заменять на безусловные.
4. Трудиться стремительно!

Все фиды, которые будут находится в базу будут проверены фид валидатором, так что непредсказуемых обстановок появиться не должно. Также вы обязаны учесть, что фидов в таблице RSS будет порядка 10 000, притом что 9 000 из них НЕ БУДУТ отдавать полный контент в фиду, следственно суммарные нагрузки на скрипт могут доходить до 100 000 страниц в сутки. Следственно приветствуется применение неблокирующих сокетов, многопоточность и событийные машины (исключительно POE).

Если в работе будут использованы какие-то нетрадиционные модули, то непременна ссылка на CPAN.

Просьба людей без навыка и без познания RSS не будоражить. Предоплату могу сделать в минимальном размере и то только людям с отменной репутацией.

Сроки разработки не критичны.

Если будут вопросы, то готов обсудить по асе: 237620497.

В своих предложениях сразу указывайте срок и цену.

Чтобы добавить заявку к этому заказу, нужно войти или зарегистрироваться

Мой блок

26.04.20 14:45
Umen 26