Парсер вычленяющий адрес

Web/сайты Прочее

Был(а) онлайн: 14.10.18 17:17
Umen 24 года

1.0 Был(а) онлайн: 14.10.18 17:17

Недавно
Задача написать парсер html документов вычленяющий почтовый адрес из объявлений на сайте craigslist.org
1) надо по первой странице собрать территориальные ссылки (http://geo.craigslist.org/iso/us/ny, http://geo.craigslist.org/iso/us/mo ...)
2) По ним собрать собственно доски объявлений в регионе (http://joplin.craigslist.org/ , http://kansascity.craigslist.org/ ...)
3) Там забратьтся в раздел real estate for sale (http://kansascity.craigslist.org/rfs/)
4) Там перебирать листинги и выдирать из них адреса. Адресак могут быть в виде ссылок на google maps (http://kansascity.craigslist.org/rfs/318146072.html => http://maps.google.com/?q=loc:+12700+Cherokee+Lane+leawood+ks+US и с правильным указанием location) либо могут быть в тексте легко (http://kansascity.craigslist.org/rfs/318080497.html => 311 N 80th Terrace, Kansas City, KS) либо в html (http://losangeles.craigslist.org/lac/rfs/318121670.html => 18815 SE Yamhill
Portland, Or 97224 )
5) Собраные адреса нужно верифицировать через google maps

От софта не требуется стопроцентного выдирания адресов, впрочем итогом выдачи обязаны быть только правильные адреса. С правда бы 90% вероятностью програмка должна уметь находить и выдирать адрес там, где он есть.

Приемка работы будет делать по тестовому запуску у вас на хостинге.

Чтобы добавить заявку к этому заказу, нужно войти или зарегистрироваться

Мой блок

14.10.18 17:17
Umen 24