Обновление алгоритмов Google ReCaptcha в 2018

admin

Administrator
Staff member
В конце года принято подводить итоги. Вот, решили немного рассказать что было нового у Google ReCaptcha и что нас ждёт в будущем.


А что, Google ReCaptcha меняется? Я не заметил!
Да, изменения происходят очень часто и все они усложняют жизнь системам решения. У Google есть задача: повысить стоимость решения 1000 капч до 7-10 USD, по аналогии с тем, как они стараются держать стоимость Gmail-аккаунта на биржах аккаунтов не ниже 0,5 USD за штуку. Этот год мы отстояли ставку в 160 рублей, но что будет дальше - пока неизвестно.


Зима 2017-2018. Повторите попытку позже.
Начать, наверное, стоит с конца 2017 года. Тогда Google в первый раз начал активно бороться с сервисами обхода рекапчи и начал массово банить "подозрительные" IP-адреса. При попытке загрузить капчу человек получал сообщение "похоже ваш компьютер или сеть отправляют автоматические запросы".
drW-d6XE6qDIE1YMCYkmRXJlPTXZIZ30pdZj5zynbMiA4KE-fybZ0W6nNSlGKTcaxWBKzBx4VMrkRph4cNGerZipyuGhOs4UDdG-Q2braN2BGWHoYfoKOIqP9ZwQU7vpzPJG4VHZ

В какой-то момент у нас 70% работников не могли работать со своего IP-адреса, а прокси банились за пару дней работы. В тот момент нас спасло только то, что мы договорились с крупным продавцом прокси, что можем пользоваться всем диапазоном его адресов, но в лимитированное количество потоков. В январе Google попустило и он перестал массово блокировать IP-адреса (вероятно из-за большого количества жалоб от простых пользователей, кто никоим образом не связан с сервисами по решению капчи, но получал сообщение “повторите попытку позже”).


Июль. incorrect-captcha-sol
В июле Google решил ввести странный алгоритм, больше похожий на баг. Теперь если какой-то IP-адрес или cookie пользователя Google посчитал спамными, то часть решённых капч не засчитывалась и когда сайт с капчей валидировал ответ пользователя, то Google возвращал incorrect-captcha-sol. Об этом нам пришлось даже опубликовать статью: incorrect-captcha-sol. Естественно, множество наших работников было помечено гуглом как "плохие" и ответы от этих работников не принимались. Нам пришлось потратиться и теперь мы регулярно тестируем IP-адреса работников за свой счёт (выдаём им рекапчу и проверяем ответ), но цену для клиентов мы сохранили на прежнем уровне. Особенностью данного алгоритма было то, что если IP или cookie признавались "плохими", то не было возможности сделать их хорошими, а каждый день примерно 10% используемых адресов становилось "плохими". В сентябре Google перестал выдавать incorrect-captcha-sol за "плохие" cookie, а к октябрю Google сделал амнистию почти для всех "плохих" IP-адресов, а количество "блокируемых" адресов сократилось с 10% до 2%.


Август. Новые типы картинок.
Видимо, в борьбе с полностью автоматизированными решениями, Google ReCaptcha единомоментно добавляет 19 новых типов картинок: светофоры, пешеходные переходы, гидранты, лестницы, дымовые трубы... Наши работники радуются разнообразию.



Сентябрь. 100% CPU usage.
Ещё одно не самое удачное решение, негативно сказавшееся на простых пользователях. JS-скрипт генерации рекапчи был искусственно увеличен: большинство функционала стало выполняться по нескольку раз, что приводило к повышенной нагрузке на CPU компьютера, где открывалась капча. Пострадали наши работники со слабыми компьютерами: при одновременном решении двух рекапч наш софт иногда начинал вылетать. Пострадали и простые пользователи, но подавляющее большинство не заметила повышенной нагрузки на процессор в момент отрисовки рекапчи в браузере. В середине ноября Google почистил JS-скрипт и нагрузка на CPU от рекапчи упала на прежний уровень.



Что нас ждёт в 2019?
К сожалению, у нас всё ещё остаётся много слабых мест. Писать о них мы конечно же не будем. Но одно скажем точно: Google будет и дальше усиливать аналитику профилей и блокировать автоматизированные решения таким образом, что бы не задеть простых пользователей и при этом усложнить работу сервисов автоматизированных решений.


P.S. Если интересно, можем описать как Google ReCaptcha усложняли жизнь автоматизированным сервисам и до 2018 года, но точные даты уже не вспомним.
 
Last edited:
Насколько Google положительно или отрицательно относится к обновлению контента на посадочной странице? Не всего, а только его части.

Пример - категория интернет магазина

Статично:
текст самой категории
ссылки на подкатегории
товары на первой странице категории

Динамично:
Новости

Что ещё можно сделать обновлением? Статьи по теме ссылка небольшой анонс , обновление товара на первой странице, вывод последних отзывов о товарах, которые находятся в данной категории?
 
Тем более я думаю - это сигнал Google что сайт живой работа идёт, новости свежие, статьи, отзывы. Странно, если бы это не нравилось.
 
Не знаю насколько понижает позиции....но точно не положительно относится.... Иначе бы не было возвращения к статичным HTML - наиболее стабильным страницам в плане долгосрочности позиций
 
Ну я имею введу не ЗАМЕНЯТЬ заточенный контент, а делать обновление на продвигаемой странице.

Есть статический текст заточенный под ключи - он не трогается. А есть какой-то блок типа "последние отзывы" или "рекомендуемые товары", который динамичный и меняется рекомендуемые товары постоянно, отзывы - когда добавляются новые