Обновление алгоритмов Google ReCaptcha в 2018

admin

Administrator
Staff member
#1
В конце года принято подводить итоги. Вот, решили немного рассказать что было нового у Google ReCaptcha и что нас ждёт в будущем.


А что, Google ReCaptcha меняется? Я не заметил!
Да, изменения происходят очень часто и все они усложняют жизнь системам решения. У Google есть задача: повысить стоимость решения 1000 капч до 7-10 USD, по аналогии с тем, как они стараются держать стоимость Gmail-аккаунта на биржах аккаунтов не ниже 0,5 USD за штуку. Этот год мы отстояли ставку в 160 рублей, но что будет дальше - пока неизвестно.


Зима 2017-2018. Повторите попытку позже.
Начать, наверное, стоит с конца 2017 года. Тогда Google в первый раз начал активно бороться с сервисами обхода рекапчи и начал массово банить "подозрительные" IP-адреса. При попытке загрузить капчу человек получал сообщение "похоже ваш компьютер или сеть отправляют автоматические запросы".

В какой-то момент у нас 70% работников не могли работать со своего IP-адреса, а прокси банились за пару дней работы. В тот момент нас спасло только то, что мы договорились с крупным продавцом прокси, что можем пользоваться всем диапазоном его адресов, но в лимитированное количество потоков. В январе Google попустило и он перестал массово блокировать IP-адреса (вероятно из-за большого количества жалоб от простых пользователей, кто никоим образом не связан с сервисами по решению капчи, но получал сообщение “повторите попытку позже”).


Июль. incorrect-captcha-sol
В июле Google решил ввести странный алгоритм, больше похожий на баг. Теперь если какой-то IP-адрес или cookie пользователя Google посчитал спамными, то часть решённых капч не засчитывалась и когда сайт с капчей валидировал ответ пользователя, то Google возвращал incorrect-captcha-sol. Об этом нам пришлось даже опубликовать статью: incorrect-captcha-sol. Естественно, множество наших работников было помечено гуглом как "плохие" и ответы от этих работников не принимались. Нам пришлось потратиться и теперь мы регулярно тестируем IP-адреса работников за свой счёт (выдаём им рекапчу и проверяем ответ), но цену для клиентов мы сохранили на прежнем уровне. Особенностью данного алгоритма было то, что если IP или cookie признавались "плохими", то не было возможности сделать их хорошими, а каждый день примерно 10% используемых адресов становилось "плохими". В сентябре Google перестал выдавать incorrect-captcha-sol за "плохие" cookie, а к октябрю Google сделал амнистию почти для всех "плохих" IP-адресов, а количество "блокируемых" адресов сократилось с 10% до 2%.


Август. Новые типы картинок.
Видимо, в борьбе с полностью автоматизированными решениями, Google ReCaptcha единомоментно добавляет 19 новых типов картинок: светофоры, пешеходные переходы, гидранты, лестницы, дымовые трубы... Наши работники радуются разнообразию.



Сентябрь. 100% CPU usage.
Ещё одно не самое удачное решение, негативно сказавшееся на простых пользователях. JS-скрипт генерации рекапчи был искусственно увеличен: большинство функционала стало выполняться по нескольку раз, что приводило к повышенной нагрузке на CPU компьютера, где открывалась капча. Пострадали наши работники со слабыми компьютерами: при одновременном решении двух рекапч наш софт иногда начинал вылетать. Пострадали и простые пользователи, но подавляющее большинство не заметила повышенной нагрузки на процессор в момент отрисовки рекапчи в браузере. В середине ноября Google почистил JS-скрипт и нагрузка на CPU от рекапчи упала на прежний уровень.



Что нас ждёт в 2019?
К сожалению, у нас всё ещё остаётся много слабых мест. Писать о них мы конечно же не будем. Но одно скажем точно: Google будет и дальше усиливать аналитику профилей и блокировать автоматизированные решения таким образом, что бы не задеть простых пользователей и при этом усложнить работу сервисов автоматизированных решений.


P.S. Если интересно, можем описать как Google ReCaptcha усложняли жизнь автоматизированным сервисам и до 2018 года, но точные даты уже не вспомним.
 
Last edited: