Команда экскаваторщиков “Na2CO3" спосбона выгрести даты кеширования необходимых документов из гугла за X часов, но Google – жадный парень, который сосет информацию терабайтами, а вот делиться ею не хочет, и он прибегает к различным уловкам, самая излюбленная из которых – временный бан (ban) IP. Это делает процесс промышленного выгребания нужной информации из гугла (Google) проблематичными: Бороться с этим явлением можно следующими методами:

  • Использовать много IP адресов
  • Использовать задержки (delay) между запросами
  • Написать письмо в Google с требованием предоставить нужную информацию

Последний вариант, самый подходящий, в данный момент наша команда работает над сочинением письма с вескими причинами, по которым у Google не будет другого выхода, кроме как оперативно снабжать нас временем кеша (cache time) нужных нам страниц. А пока что, вот весьма простой способ продолжить процесс дата майнинга (data mining):

<?

$ch=curl_init();
curl_setopt($ch,CURLOPT_USERAGENT,’Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; en)’);
curl_setopt($ch,CURLOPT_URL,$_SERVER["QUERY_STRING"]);
curl_exec($ch);
curl_close($ch);
?>

Использовать данный скрипт проще простого:

  • делаем копипейст (copypaste)
  • сохраняем код (code) под именем superscript.php
  • заливаем (upload) в нужное место, а лучше в несколько нужных мест
  • после этого свои кеш грабилки заворачиваем на эти скрипты

То есть, если раньше урл (URL) для кеша был:

  • http://209.85.135.104/search?q=cache:www.google.com

То после будет:

  • http://www.some-right-place.com/superscript.php?http://209.85.135.104/search?q=cache:www.google.com

Все. Регулярные выражения (regular expression) переписывать не надо.

Оставляя комментарий, помни, что

Leave a Reply