Скрипт отбора блогов

Web/сайты Прочее

Был(а) онлайн: 26.04.20 14:45
Umen 26 лет

1.0 Был(а) онлайн: 26.04.20 14:45

Недавно
Общая задача:
Нужно отыскивать блоги по темам и выдергивать контактную информацию обладателей с них либо из ХуИза. Скрипт должен иметь простенький вебинтерфейс с авторизацией.

Порядок действий:
1. Оператор заводит список волнующих его кивордов и предельные параметры рейтинга и образец имейла.
2. Скрипт отправляется на API technotari и/или гуглевого поиска по блогам либо Яховского либо МСНовского либо на все сразу – все равно.
3. Скрипт выдергивает особенно соответствующие запросам оператора блоги* (пояснение этого момента будет в конце, это место легко звучит, но немножко трудно делается)
4. Скрипт проверяет блоги на предмет запрещенных слов (fuck и так дальше. Список запрещенных слов тоже вносится оператором) Эту часть дозволено убрать в 1-й пункт, если вы сделаете минимальную логику запросам. То есть к примеру “investment APR !bullshit” , то есть нас волнуют блоги где говорится про investment и APR, но не волнуют те, где упоминается bullshit.
5. Скрипт проверяет блоги на предмет Алексы рейтинга, Google PR и что там еще придумаете такого же. Не настаиваю на Алексе потому как у нее АПИ платный. Не то что денег жалостно, примитивно возиться с аккаунтом лень.
6. Скрипт лезет в ХуИз и тащит оттуда данные обладателей доменов. Помимо этого скрипт лезет на сами блоги и ищет там контактную информацию обладателя (Телефон выглядит шаблонно, имейл тоже)
7. В итоге скрипт формирует отчет, какие Урлы он отобрал, какие там собраны контактные данные. На этом месте следует быть опрятным. Если на страницесобрано много имейлов либо много телефонов, то нужно ставить пометку что не получилось мол предпочесть, правда они есть. Приветствуется простенькая логика, скажем если на сайте blogvasipupkina.com обнаружен один имейл ***, а все прочие имейлы на других доменах, то данный info ставим в контакты, а насчет остальных ставим примитивно флаг что оператор руками может обнаружить огромнее имейлов. Ну либо имейл обнаружен в подвале. Либо на сранице контакт_ас. В всеобщем это место проявить некоторую фантазию. Не ужасно если вы пропусите какой-то блог и скрипт не совладает обнаружить там контакты.
8. Также скрипт должен поддерживать черные списки. То есть оператор пишет a) маски доменов, которым хуИз не проверять (что бы vasya.livejournal.com не получал в контакты хуИз лайвжурнала), б) черные списки обладателей доменов (что бы domainbyproxy убирать) и также по прочим полям. Главный момент: черный список обозначает не уделать внимание этому способу сбора контактов, а не бан блога вообще.
9. Раздобыв имейл скрипт, в соответствии с образцом (см пункт 1) шлет приглашающее письмо. Текст его составляет заране оператор применяя макросы типа <%owner name%> и тому сходственное.
10. Каждый имейл будет иметь линк-приглашение. То есть человек по нему кликает и попадает на форму заведения данных. Если он хочет, то он заполняет данные, если не хочет, то покидает лавку соответственно.
11. Соответственно 2-й отчет, больше полная версия первого. УРЛ, координаты и стадия: отправили имейл, не отправили, отправили, но никто не кликнул пока, отправили, кликнули, но не заполнили форму, ну и последнее, заполненная форма. И то, что в ней, соответственно. Отчеты обязаны быть экспортируемы в csv читаемый экселем.
12. Должен существовать простенький API на чтение. Что бы дозволено было тащить отчеты и итоги по нему. API с transaction key.
13. Авторизация операторов двухуровневая. Есть админ, имеет право на все. Есть оператор(ы). Имеют право на все, помимо создания новых операторов. Каждывй оператор получает свой транзакшн ключ к API.
14. Оператор должен иметь вовсе черный список кууда вносить блоггеров (по урлам, имейлам и т.п. которым) писать ничего не нужно. Помимо этого линк на отписку должен присутствовать в рассылаемых приглашениях. То есть нажав на него человек вносит свои данные в черный список сам.
15. Дополнительно приветствуется применение стандартных rss каждых отблогов для проверки чего там они о ком пишут. Подойдут ли оператору, в смысле.
16. Бесплатные АПИ имеют ограничения на обращения в сутки. Так что реально если вы фильтруя делаете к ним много запросов, то может оказаться что какое-то задание делается длинно. На самом деле всякое задание делается длинно. Оно как бы ежедневное, повесили запросы по каждым автомобильным терминам и помаленьку у нас автомобильные блоггеры копятся. Соответствено все это должно делаться помаленьку, без спешки. Предел работоспособности системы будет порядка тысячи новых отобраных блогов в день, а реально каждого сотни. Так что имейте ввиду что задания надобно как-то располагать на панели управления что бы опреатор видел что у него как длинно тянется, что вырубить нужно, а что пускай пока потащит данные еще.
17. Интерфейс на английском

По поводу коментария в пункте 3*. Дело в том, что метода сделать это безукоризненно не существует. Нужно примитивно проявить разумность просмотрев имеющиеся инструменты. Ориентироваться дозволено по плотности желанных кивордов в постах блоггера либо как-то подобно. Не жутко обнаружить не дюже подходящего блоггера, так что довольно если несоответствие вашего алгорифма отбора не будет уж крепко резать глаз несоответствием. Безукоризненного качества я не ожидаю все равно, но хотелось бы что бы оно и не вовсе нечаянно работало.

Что нужно что бы получить заказ:
1. Прислать рамочно по пунктам что именно и где вы хотите применять. То есть пишете что поиск инфы о блогах. Мне это нужно что бы понимать что если вы хотите Х денег, и вася хочет Х денег, но вы за эти деньги будете искать АПИ технорати, гугля и лайва, а Вася только гугля, то вы выиграли.
2. Прислать рамочно какие рейтинги вы планируете применять.
3. Прислать рамочно как приблизительно вы планируете фильровать отобранные блоги по контенту. Допустимо (и вероятно умно) какие-то параметры перенести оператору, что бы он ими управлял для всего задания.
4. Опишите рамочно что вы собираетесь помесить на панель управления что бы оператор видел как там его задания ползут, что приносят и как оно там вообще живо либо умерло. Эта часть мне необходима что бы удостовериться что вы осознали задание.
5. Примеры из портфолио по аналогичным работам.

Оплата. Бюджет $2000 (умно торгуемо), сроки не жмут, но тащить не нужно особенно. Если вы мне хотите написать про полгода, но не стоит мучать пружинки клавиатуры. Называйте свои сроки, но потом выдерживайте их, пожалуйста. Предоплаты нет, но с охотой используем СБС (сервис безвредных сделок). Предложения залога приветствуются (кто не знает: залог это подобный платеж на СБС с вашей стороны, финально меньшей суммы, и если вы в процессе работы исчезаете, то он к вам не возвращается. Средство охраны от пионеров надеющихся на авось)

Предпочтительная платформа юникс-пхп-мускуль, но другие варианты рассматриваются. Сборка на вашем сервере, показываете, позже показа переносим ко мне. Если у вас не на чем показывать, то не нужно мне писать пожалуйста.

Если вас эта работа волнует, то пишите на mauserd(doggy)yandex.ru

Примечания:
1. не нужно умолять меня «пришлите полное ТЗ». То что вы читаете – довольно полное. Если у вас остались вопросы, то пишите эти определенные вопросы.
2. Постарайтесь написать так, что бы было осознано что вы прочли то, что выше. Помимо отменного вас мне напишет орава спамеров-пионеров которые представления не имеют что и как они будут делать. Мне будет отрадно, если вы выделите себя из этой оравы.
3. Пожалуйста, посмотрите в профайл клиента и сделайте правда бы наименьший поиск преджде чем кидать писать мне что и как нужно делать.

Чтобы добавить заявку к этому заказу, нужно войти или зарегистрироваться

Мой блок

26.04.20 14:45
Umen 26