Парсинг гугла без бана

by SeoCoder on Декабрь 11, 2007

Многие в комментариях просят побольше теории. «Палить темы» я не буду, но на многие мысли натолкну.
Вариантов парсинга гугла без бана было много, сейчас гугл все меньше дырок оставляет. Никому не секрет, что гугл за частые дерганья своего serpa банит ip от часа до суток. Я нашел таких вариантов как минимум пять.
Обо всем по порядку под катом.

1. Вариант самый простой – делать задержку перед очередным запросом. Очевидный минус – это один поток. Причём если есть свой дедик и на него с десяток ip – то скорость можно увеличить.
2. Вариант посложнее – парсинг через прокси. Плюсы – много потоков. Минусы – где взять много прокси? ;)
3. Парсинг гугла через его же дырку, которую не так давно закрыли. Парсить надо было его в разделе кпк. (Кому надо тот поймёт). А таких ведь дырок может быть очень много.
4. Парсинг по ДЦ. Самый надежный и быстрый способ. Для страждущих выложу скоро сырцы такого парсера, как подарок на Новый Год.
5. Парсинг партнеров гугла. Их очень много, единственно надо правильно это все планировать и не уронить сервера партнеров. ;)

Как обычно рецепта я не даю, но много идей я подкинул.
Спешите подписаться на rss, у меня сейчас затишье по оффлайн бизнесу и до марта я буду писать гораздо чаще и интереснее.
Не забываем также комментировать и обсуждать посты, иначе блог мой не нужен никому. Ведь не имея «обратной связи» – не ясно о чем писать дальше.

Похожие посты:

{ 8 comments… read them below or add one }

1 admin 12.11.07 at 19:06

Как опубликовал вспомнил еще об одной особенности парсинга.
Об этом уже писали, но я повторюсь – это правильные запросы.
http://kak-tak.com/seo-6.php тут эти подробности были.

2 mpolsky 12.11.07 at 19:16

из «партнеров»:
http://goohackle.com/scripts/google_parser.php

3 Ангело 12.12.07 at 06:38

действительно, бана таким способом получается избегать…спасибо за темку

4 Евгений 01.11.08 at 13:18

Первый совет прикольный! Надо вытравить результаты, например, по 100к запросов :) ))) В один поток :) ))) «Ма, я пойду погуляю, а ты компьютер неделю не выключай» :) ))))))))

По поводу прокси – нужно искать просто качественных продавцов, но и у них прокси не живет дольше часа, поэтому надо свои парсеры писать с учетом динамической подгрузки списка прокси из файла или базы. Имхо, самый оптимальный вариант.

5 Ivas 01.15.08 at 17:53

А где же сорцы парсера? =(

6 admin 01.15.08 at 18:04

Может гугла сорцы выложить?

7 Fds 01.12.09 at 17:34

Где можно взять список ДЦ гугла?

8 Fds 01.12.09 at 17:46

http://alexf.name/2007-10-16/sposoby-obxoda-bana-gugla-na-zaprosy/
тут пишут, что способ с датацентрами уже не канает :(

Leave a Comment

You can use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <pre lang="" line="" escaped="">

Get Adobe Flash playerPlugin by wpburn.com wordpress themes