google search обновление от 18 мая 2020

admin

Administrator
Staff member
#1
Всем привет.
Вчера мы выпустили обновление для ReCaptcha на странице google.com/sorry/index
https://rucaptcha.com/blog/recaptcha-google-search

К сожалению, обновление зашло не очень хорошо - корректные токены хоть и есть, и парсинг гугла хоть как-то начал восстанавливаться у вас, но проблема с некорректными токенами сохраняется.
Мы продолжаем исследовать причины и ищем пути как нам вернуться к 98%-99,5% корректных токенов.
В этой теме мы будем публиковать последние изменения и информацию о том, что делаем сейчас.
 

admin

Administrator
Staff member
#2
Кука работника
Первое, что мы сделали прямо сейчас - бестолковый функционал.
Один капча-сервис, подобный нашему, утверждает что обязательно нужно поставить себе куку работника, которую работник получил решая капчу. И потому множество клиентов написали нам что бы и мы отдавали куку работника.
Ок, сделали.

Теперь, при запросе ответа на капчу в JSON формате (прибавить &json=1 к запросу), мы возвращаем не только ответ на капчу, но и все куки работника, которые были у него в момент получения токена.
1590746907619.png



Что делаем сейчас:
Раз затронули куки, то давайте дальше чудить - сейчас делаем приём кук от заказчика, что бы работник решал капчу с теми куками, что Вы прислали.
 
Last edited:

admin

Administrator
Staff member
#3
UserAgent
Кстати, если Вы присылаете UserAgent, то работник решает капчу с указанным Вами UserAgent

UserAgent слать строкой в параметре "UserAgent"

Proxy
Присылайте proxy - эта прокси устанавливается в клиент работника перед тем, как он загрузит капчу и все запросы будут делаться через указанную проксю.

По отзывам, использование прокси сейчас повышает количество корректных токенов до 100%, но после 10-30 капч, решённых через один прокси, токены начинают становиться невалидными.

Как слать:
"proxy" Строка. Формат: логин:пароль@123.123.123.123:3128
"proxytype" Строка. Тип вашего прокси-сервера: HTTP, HTTPS, SOCKS4, SOCKS5.
Если Ваша прокси имеет ограничение по IP, то должен быть добавлен наш сервис в список разрешённых 138.201.188.166

Присылать нам прокси - безопасно. Мы не будем ими пользоваться, а работники не видят Ваших доступов, т.к. Ваша прокся используется на нашем шлюзе 138.201.188.166 и работнику выдаётся временный логин\пароль
 

admin

Administrator
Staff member
#4
Приём кук в in.php
Хотите, что бы работник решал рекапчу с вашими куками? Пожалуйста. Присылайте капчу с параметром
"cookies"
Содержание параметра - строка. Двоеточие отделяет название куки от содержимого, точка с запятой - разделяет куки.
Code:
cookies="ANID:AHWqTUkiE1lX;NID:204=SbYHJRGMb4wtUG2"
 

admin

Administrator
Staff member
#5
Что делаем сейчас:
1. ERROR_CAPTCHA_UNSOLVABLE
К сожалению, мы закрываем много капч с этой ошибкой. Причина тому - по какой-то причине капча не может прогрузиться в программе работника. А повторно выдать другому работнику мы не можем, т.к тогда токен точно не решится. Разбираемся с софтом работников.
Кстати, за все капчи, получившие этот статус мы возвращаем списанные средства

2. Процент некорректных токенов
Он мал, пытаемся понять что мы делаем не так
 

admin

Administrator
Staff member
#6
Присылайте сookie и proxy
Внезапно решение капчи с использованием Ваших кук и через Вашу прокси дало результат в виде 100% корректных токенов.
Как слать куки и прокси - писали в предыдущих постах

Особенности
1) Не использовать те куки, что прислала RuCaptcha с ответом, а отправить куки браузера по домену google.com вместе с отправкой капчи в in.php
2) Если у Вас нет кук от Google.com, например если Вы парсите домен выдачу по домену www.google.sm, ваш парсер не заходил никогда на google.com и кук от google.com у вас нет. То Вам нужно изменить алгоритм парсинга: Сначала зайдите на https://google.com, один раз за сессию, и получите cookie. Потом, когда вы встретите капчу - присылайте нам эти куки вместе с капчей.
 
Last edited:

admin

Administrator
Staff member
#7
Как получить куки google.com, если я парсю сайт google.sm и на .com попадаю без кук?
Как получить куки от google.com, если я взаимодействую с иным сайтом и парсер не заходил на google.com до момента получения капчи?
Допустим, вы парсите выдачу по домену www.google.sm и у вас нет кук от google.com. Просто перед тем как начать парсить, зайдите на https://google.com и сохраните полученные куки. В момент, когда получите капчу - пришлите нам эти куки.

Важно понимать:
Если у Вас не сработал токен или мы не решили капчу, то нельзя пытаться решить капчу на этой же странице. Вы должны вернуться в поиск и снова получить капчу из поиска. Попытки пройти капчу на той же странице 100% не закончатся успехом, а IP-адреса будут заблокированы в google
 

Mark Miller

2Captcha Engineer
#8
Поскольку всё еще возникают одни и те же вопросы, кратко отвечу на них:
1. Решается ли recapthca на google-поиске?
Да, решается.
2. Мне нужно что-то менять в своем коде/софте?
Да, нужно.
3. Что именно нужно делать?
Нужно:
  • Если эмулируете браузер - ОБЯЗАТЕЛЬНО блокировать выполнение скриптов с https://www.gstatic.com/recaptcha/ и https://www.google.com/recaptcha/api.js, либо просто подгружайте HTML-код страницы вне браузера
  • ОБЯЗАТЕЛЬНО присылать параметр data-s
  • РЕКОМЕНДУЕТСЯ присылать свои прокси и использовать их, отправляя запрос к google.com, а при получении 429 - менять прокси
  • РЕКОМЕНДУЕТСЯ присылать свои cookies нам - мы поставим их работнику. Если у вас нет cookies от гугла - сначала зайдите на google.com
  • ВАЖНО правильно составить финальный URL, он будет иметь вид: https://www.google.com/sorry/index?q=Q_PARAMETER_VALUE&continue=CONTINUE_VALUE&g-recaptcha-response=TOKEN и совершить переход по нему, используя имеющиеся cookies
 

admin

Administrator
Staff member
#9
Спасибо, Марк.

Я продолжу рассказывать что мы делаем.

Cookie
Вы знаете, мы снова вернулись к выводу, что Cookie не важны. Кстати, сейчас часть софта работников не поддерживает cookie и потому мы вам их не всегда возвращаем.
Но сейчас наши тесты показывают что с ними ни лучше, ни хуже.

ERROR_CAPTCHA_UNSOLVABLE
Мы уменьшили количество таких случаев и уменьшили среднее время до появления этой ошибки. Однако эта ошибка всё ещё раздражает вас, мы знаем и изобретаем способы избавиться от неё. Кстати, если не слать proxy, то её будет меньше. Одна из проблем почему мы возвращаем эту ошибку - нестабильные прокси, когда в момент решения у работника прервался коннект к проксе и капча закрылась (тут ещё и работнику обидно - половину капчи прорешал, а вознаграждения не получил)


Надежда есть?
Да. Сейчас мы работаем над решением, где вы будете гарантированно получать рабочие токены. Но нам для этого потребуется ещё пара дней. Мониторьте данный топик что бы быть первым, кто узнает рабочее решение.
 

admin

Administrator
Staff member
#10
К чему мы пришли за эту неделю
Cookie - не важны и не влияют
proxy - не важны и не влияют
UserAgent - не важен и не влияет
data-s - по прежнему нужен

Ситуация сейчас
Сохраняется проблема с ERROR_CAPTCHA_UNSOLVABLE, очень много капч закрываем с этой ошибкой и вам каждый раз нужно обновлять страницу, получать новый data-s и отправлять задачу по новой. На следующей недели надеемся победить это

Процент корректных токенов - Ура! Он больше 95%! Хоть это победили.
 

admin

Administrator
Staff member
#11
Новый вариант обхода капчи на google.com\youtube.com\google maps и других сервисах google

Устали от ERROR_CAPTCHA_UNSOLVABLE?
Поверьте, мы тоже. А потому не сдаёмся и продолжаем бороться.
Хотим Вам показать два экспериментальных способа решать капчи на google.com

Кратко:
Два варианта:
1. Доп параметр "test=v"
Data-s слать не надо, proxy - обязательно.
В ответе будет URL, содержащий GOOGLE_ABUSE_EXEMPTION. Перейдите по нему для продолжения

2. Доп параметр "test=r"
Data-s слать не надо, proxy - обязательно.
В ответе будет Q и g-recaptcha-responce. Вы знаете что с ними делать.

Подробно:
Как работает антибот на google.com.
Вы, скорее всего, это прекрасно знаете, но давайте повторим:
0) Вы пытаетесь открыть страницу результатов поиска (например https://www.google.com/search?q=kurwa) но поисковик решает что вы робот и
1) Google переадресует вас на страницу https://www.google.com/sorry/index?...ogle.com/search?q=kurwa&hl=en&q=ещё_один_ключ
2) Вы решаете капчу. После решения капчи отправляете на
https://www.google.com/sorry/index
следующие параметры в POST-запросе
g-recaptcha-responce: токен рекапчи
q: тот самый ещё один ключ из URL
continue: Адрес откуда вы попали и куда вас вернуть после прохождения проверки (в нашем случае - https://www.google.com/search?q=kurwa)

3) Если токен рекапчи валидный, то вас перенаправит 302 редиректом на URL подобного вида:
https://www.google.com/search?q=kurwa?google_abuse=GOOGLE_ABUSE_EXEMPTION=ID=db6d3789363scd78:TM=2567261522:C=r:IP=
74.125.228.111-:S%3DAPGng0s1iSgCZ-UiorwtuR7IPXL2bgRreA%3B+path%3D/%3B+domain%3Dgoogle.com%3B+expires%3DTue,+16-Jun-2020+01:53:53+GMT

4) Открыв этот адрес, браузеру устанавливается кука
GOOGLE_ABUSE_EXEMPTION
содержимое которой будет именно такое, которое было в URL который мы открыли
После чего 302 редиректом шлют на нашу исходную позицию.
https://www.google.com/search?q=kurwa

5) Открываем страницу https://www.google.com/search?q=kurwa при этом отправляя куку GOOGLE_ABUSE_EXEMPTION. Получаем выдачу.

Новый вариант обхода капчи на google.com\youtube.com\google maps и других сервисах google
Мы сделали то, что нас многие просили. А именно - пошли чуть дальше и не только решаем капчу, но и чуть-чуть общаемся со страницей https://www.google.com/sorry/index

Мы сделали 2 варианта взаимодействия, оба которых требуют использования ваших proxy.

Способ 1, адрес страницы GOOGLE_ABUSE
Пришлите нам:
pageurl=полный URL где вы встретили капчу
proxy=ваш прокси
googlekey=6LfwuyUTAAAAAOAmoS0fdqijC2PbbdH4kjq62Y1b
test=v

data-s - слать не нужно.
После решения капчи мы выдадим вам
URL
из 4 шага, содержащий в себе
google_abuse=GOOGLE_ABUSE_EXEMPTION
Вам нужно будет перейти по нему, получить куку, отработать редирект и вот вы опять на поиске

Способ 2, новый Q с рабочим g-recaptcha-responce
Пришлите нам:
pageurl=полный URL где вы встретили капчу
proxy=ваш прокси
googlekey=6LfwuyUTAAAAAOAmoS0fdqijC2PbbdH4kjq62Y1b
test=r

data-s - слать не нужно.
После решения капчи мы выдадим вам
g-recaptcha-responce: токен рекапчи
q: новый, не из Вашего pageurl
Вы делаете действия из шага #2,подставляя выданный нам g-recaptcha-responce и q


Особенности обоих способов:

1 - оба работают через Ваши прокси. И параметр Q и google_abuse привязаны к IP-адресу. Ответ нужно использовать с той же прокси, которую вы прислали вместе с задачей
2 - способы тестовые. Их работа может быть нестабильной.
3 - Если оставим их, то названия, скорее всего будут модифицированы через некоторое время и останется лишь один из них
 

Mark Miller

2Captcha Engineer
#13
Актуальная информация тут и все 3 описанных метода работают. Можно выбирать тот, который вам лучше подойдет.