Парсер гуугл через прокси

Web/сайты Прочее

Был(а) онлайн: 14.10.18 17:17
Umen 24 года

1.0 Был(а) онлайн: 14.10.18 17:17

Недавно
Парсер по заданному запросу в гугел через прокси
Парсер гуугель
Запрос inurl:bbs.cgi
Results 1 - 25 of about 1,320,000 for inurl:bbs.cgi. (0.11 seconds)
http://www.google.com/search?num=25&hl=en&client=opera&rls=en&hs=UHM&q=inurl:bbs.cgi&btnG=Search
лимит 1000
нужно извлечь все 1 320 000 линков
применять прокси лист
прокси лист берётся по заданному урл http://proxy.com/list.php
должен идти полный деиуггин отчёт на экране что происходит в каком потоке и это логироваться в текст файл для последующего дебуггинга
должы учитываться все исключительные обстановки - устойчивость работа
прокси не подгружаются
прокси не положительно форматированы
гуугел поставил запрос по прокси на паузу
и так далее

файл запросов именуется zaprosy.txt
в этом файле будут на всей строке по запросу
inurl:bbs.cgi
inurl:fantasy.cgi
inurl:apeboard_plus.cgi
inurl:aska.cgi
inurl:clever.cgi
inurl:gamebbs.cgi
inurl:light.cgi
inurl:glight.cgi
inurl:honey.cgi
inurl:joyful.cgi
inurl:mimic2.cgi
inurl:minibbs.cgi
inurl:petit.cgi
inurl:rbook.cgi
inurl:resbbs.cgi
iunrl:stlfbbs.cgi
inurl:yybbs.cgi
inurl:custombbs.cgi
inurl:ibbsm.cgi
inurl:imgbbs.cgi
inurl:imodebbs.cgi
inurl:korobbs.cgi
inurl:lounge.cgi
inurl:mkakikomitai.cgi
inurl:pppbbs.cgi
inurl:purybbs.cgi
inurl:q-board.cgi
inurl:talkbbs.cgi
inurl:upb.cgi
inurl:updown.cgi
inurl:msgbrd.cgi
/trackback/
/trackback.php/
?action=plugin&name=TrackBack&tb_id=
/tbinterface.php/
/tb/
/Trackback,guid,
/cgi-bin/mt/mtb.cgi/
/mt-tb.cgi/
/tb/tb.aspx/
/tbping
/tb.php?id=
/trackback.php/
/_trackback/
/wp-trackback.php?
/TBInterface/
sharp.cgi
register.cgi
guestbook.asp
light.cgi
yybbs.cgi
inurl:bbs.cgi
skbbs.cgi
stlfbbs.cgi
berry.cgi
guestbook/sign.php
gbook.php?a=sign
guestbook/sign.asp
и так дальше сотни тысяч строк запроса


парсер берёт попорядку запрос его парсит и итог с линками вписывает
в обособленный текст inurl-bbs.cgi.txt
inurl-fantasy.cgi.txt
gbook.php-a=sign.txt
guestbook-sign.asp.txt
дабы было внятно где что


прокси линк указываем в отдельном конфиг файле
вид такой
193.48.140.197:13833
142.68.170.156:4227
60.221.51.104:48583
196.27.91.33:13101
81.8.201.214:46978
84.248.64.35:35532
195.28.63.11:30786
62.1.121.47:44342
61.224.107.82:44162
80.217.146.44:50192
58.55.38.236:29326
196.22.146.140:46067
58.105.29.51:2571
84.228.180.84:46057
24.108.137.145:9943
58.99.191.160:26889
84.113.157.72:28559
85.240.175.218:56475
59.35.201.202:27061
217.194.147.222:51438

то есть основная задача если гуугел показывает что по заданному запросу 1,320,000 ответов
то в текст файле линков куда парсер записывает линки должно быть ровно 1,320,000 линков

Чтобы добавить заявку к этому заказу, нужно войти или зарегистрироваться

Мой блок

14.10.18 17:17
Umen 24