Многие в комментариях просят побольше теории. «Палить темы» я не буду, но на многие мысли натолкну.
Вариантов парсинга гугла без бана было много, сейчас гугл все меньше дырок оставляет. Никому не секрет, что гугл за частые дерганья своего serpa банит ip от часа до суток. Я нашел таких вариантов как минимум пять.
Обо всем по порядку под катом.
1. Вариант самый простой – делать задержку перед очередным запросом. Очевидный минус – это один поток. Причём если есть свой дедик и на него с десяток ip – то скорость можно увеличить.
2. Вариант посложнее – парсинг через прокси. Плюсы – много потоков. Минусы – где взять много прокси? ![]()
3. Парсинг гугла через его же дырку, которую не так давно закрыли. Парсить надо было его в разделе кпк. (Кому надо тот поймёт). А таких ведь дырок может быть очень много.
4. Парсинг по ДЦ. Самый надежный и быстрый способ. Для страждущих выложу скоро сырцы такого парсера, как подарок на Новый Год.
5. Парсинг партнеров гугла. Их очень много, единственно надо правильно это все планировать и не уронить сервера партнеров.
Как обычно рецепта я не даю, но много идей я подкинул.
Спешите подписаться на rss, у меня сейчас затишье по оффлайн бизнесу и до марта я буду писать гораздо чаще и интереснее.
Не забываем также комментировать и обсуждать посты, иначе блог мой не нужен никому. Ведь не имея «обратной связи» – не ясно о чем писать дальше.

{ 8 comments… read them below or add one }
Как опубликовал вспомнил еще об одной особенности парсинга.
Об этом уже писали, но я повторюсь – это правильные запросы.
тут эти подробности были.
из «партнеров»:
действительно, бана таким способом получается избегать…спасибо за темку
Первый совет прикольный! Надо вытравить результаты, например, по 100к запросов
))) В один поток
))) «Ма, я пойду погуляю, а ты компьютер неделю не выключай»
))))))))
По поводу прокси – нужно искать просто качественных продавцов, но и у них прокси не живет дольше часа, поэтому надо свои парсеры писать с учетом динамической подгрузки списка прокси из файла или базы. Имхо, самый оптимальный вариант.
А где же сорцы парсера? =(
Может гугла сорцы выложить?
Где можно взять список ДЦ гугла?
тут пишут, что способ с датацентрами уже не канает
Leave a Comment