Скрейпер данных с сайта недвижимости

Web/сайты Прочее

Был(а) онлайн: 14.10.18 17:17
Umen 24 года

1.0 Был(а) онлайн: 14.10.18 17:17

Недавно
Требуется написать скрипт умеющий таскать данные с сайта realtor.com. Определенно нужно утаскивать листинги домов (скажем: http://www.realtor.com/Prop/1077121176 ) То есть нужно забрать адрес, цену дома, фотографии, Property Features структурированно и текстовое изложение. Некоторые дома содержат виртульный тур, его брать не нужно, но нужно сберечь линк на него. Также нужно данные продавца. И сорбственно URL, тот что в /prop/.

Сложность задачи состоит в том, дабы обеспечить обновление базы не вытягивая всякий раз ее всю по новой. То есть нужно аккуратненько обучится вытягивать именно новые листинги и, что куда труднее, убивать снятые с продажи. В любом случае нужно быть опрятным, сайт содержит три миллиона листингов и как-то прятаться от ока админов нужно. Ротирование проксей применять дозволено и необходимо, но только совместно с их источником. То есть я не супротив приобрести лист подписки, но выбирать его вам.

Бюджет плана указан предположительно и может быть легко откорректирован при отменном решении задачи. Предоплты нет, но сервис безвредных сделок есть.

Прием работы сделаем крйне легко - открутим несколько циклов у вас на хостинге и увидим ловится она либо нет, качественно ли собирает листинги новые, удивает ли ветхие, способна ли вообще в умное время все сделать и т.п. Если все ок, то тогда теснее ко мне перенесем.

Задача не так примитивна как кажется на 1-й взор. Утащить 3 миллиона листингов невидимо и обновлять это не кот начхал. Здесь, к примеру, без многопоточности не жить потому как в один поток оно будет собираться несколько лет.

Чтобы добавить заявку к этому заказу, нужно войти или зарегистрироваться

Мой блок

14.10.18 17:17
Umen 24