Feb
17
Команда экскаваторщиков “Na2CO3" спосбона выгрести даты кеширования необходимых документов из гугла за X часов, но Google - жадный парень, который сосет информацию терабайтами, а вот делиться ею не хочет, и он прибегает к различным уловкам, самая излюбленная из которых - временный бан (ban) IP. Это делает процесс промышленного выгребания нужной информации из гугла (Google) проблематичными: Бороться с этим явлением можно следующими методами:
- Использовать много IP адресов
- Использовать задержки (delay) между запросами
- Написать письмо в Google с требованием предоставить нужную информацию
Последний вариант, самый подходящий, в данный момент наша команда работает над сочинением письма с вескими причинами, по которым у Google не будет другого выхода, кроме как оперативно снабжать нас временем кеша (cache time) нужных нам страниц. А пока что, вот весьма простой способ продолжить процесс дата майнинга (data mining):
<?
$ch=curl_init();
curl_setopt($ch,CURLOPT_USERAGENT,’Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; en)’);
curl_setopt($ch,CURLOPT_URL,$_SERVER["QUERY_STRING"]);
curl_exec($ch);
curl_close($ch);
?>
Использовать данный скрипт проще простого:
- делаем копипейст (copypaste)
- сохраняем код (code) под именем superscript.php
- заливаем (upload) в нужное место, а лучше в несколько нужных мест
- после этого свои кеш грабилки заворачиваем на эти скрипты
То есть, если раньше урл (URL) для кеша был:
- http://209.85.135.104/search?q=cache:www.google.com
То после будет:
- http://www.some-right-place.com/superscript.php?http://209.85.135.104/search?q=cache:www.google.com
Все. Регулярные выражения (regular expression) переписывать не надо.



(1 votes, average: 4 out of 5)