Нужен грабер

Web/сайты Прочее

Был(а) онлайн: 26.04.20 14:45
Umen 26 лет

1.0 Был(а) онлайн: 26.04.20 14:45

Недавно
Требования к Граберу.

1) Основная цель грабера собирать для объединения информацию в Интернете на определенные объекты (скажем, виды спорта, турниры, спортивные клубы, спортсмены и т.д. и т.п.).

2) Грабер должен запускаться:
2.1. По расписанию (т.е. иметь кнопку включения и выключения режима по расписанию).
2.2. В ручную (т.е. иметь кнопку запуска).
2.3. И основное иметь кнопку остановки процесса позже всякого запуска.
2.4. Грабер должен, что-то показывать, дабы было видно, что он не перемалывает пустые страницы.

3) Грабер ищет информацию по ключевым словам:
3.1. На сайтах из предварительно заданного списка сайтов, если нужно, то авторизуется по логину и паролю из базы.
3.2. На сайтах полученных с поисковых запросов по ключевым словам на основных поисковиках, как русских, так и английских(дюже желанно дабы настройки поиска были на странице менеджера).
3.3. Глубина поиска настраивается:
3.3.1. Всецело просматривается сайт.
3.3.2. Глубина определяется вручную.
3.3.3. Анализируется возникновение новой информации и если такая имеется сберегать ее в базе.

4) Грабер должен:
4.1. Отличать анонс от новости, и соответственно сберегать как анонс (чтоб опять не выдумывать), так и саму новость, с привязкой к ключевым словам.
4.2. Сберегать дату и время (если есть) самой новости.
4.3. Сберегать дату и время приобретения самой новости.
4.4. Сберегать URL, TITLE, Description, Keywords страницы с новостью.
4.5. Маскироваться, дабы не определили, что это грабер и не блокировали доступ.
4.6. Все новости сберегать в цельной кодировке (желанно в win).
4.7. При занесении нового объекта в базу, проверять присутствие информации по данному объекту в базе.
4.8. Иметь режимы сохранения статей и анонсов либо прямо в базу либо в файлы (ну и соответственно перегонять их туда – сюда, примитивно еще не решили, как беречь информацию).

5) Сделать комфортный интерфейс менеджера (соответственно на нем авторизация) для настройки и функционирования грабера.

6) Все сделать на PHP и MySQL.

7) Нужно учесть, как различать однофамильцев и одноименные объекты (пример футбольный клуб «Москва» и город Москва.). И так на каждый случай, дабы Путина с «Путинкой» не путать (корень чай один ;).

8) Максимально откомментировать и отменно оформить код.

9) План будет начинаться, и набирать изначальную базу на локальном компьютере под Денвером (PHP 5.1.2, MySQL 4.1.16), следственно через некоторое время может потребоваться поддержка в переносе грабера на хост, но это теснее позже всех расчетов, примитивно отложенная служба фрилансера.

10) Все дополнения и уточнения будут приветствоваться.

Чтобы добавить заявку к этому заказу, нужно войти или зарегистрироваться

Мой блок

26.04.20 14:45
Umen 26