Когда Google запустил AI Overviews в 2024 году, компания позиционировала это как революцию в поиске. Теперь появились первые независимые данные о цене этой революции для обычного пользователя.
Что показало исследование
Стартап Oumi по заказу The New York Times протестировал 4 326 поисковых запросов к Google, используя отраслевой бенчмарк SimpleQA — стандартный инструмент для измерения фактической точности AI-систем. В октябре 2024 года, когда AI Overviews работали на базе Gemini 2, точность составляла 85%. После обновления до Gemini 3 в феврале 2025 года показатель возрос до 91%.
Цифра выглядит убедительно — пока не накладывается на масштаб. Google обрабатывает более 5 триллионов поисковых запросов в год. Даже 9-процентная ошибка означает десятки миллионов ошибочных ответов каждый час. Это не гипотетический риск — это текущее состояние работы продукта, которым пользуются сотни миллионов людей.
Точнее, но менее проверяемо
Параллельно с улучшением точности исследование зафиксировало противоположную тенденцию в верифицируемости ответов. С Gemini 2 в 37% правильных ответов источники либо не подтверждали утверждение, либо не относились к нему вообще. С Gemini 3 этот показатель возрос до 56% — то есть более половины даже правильных ответов невозможно проверить через ссылки, которые предоставляет сам Google.
Примеры из исследования иллюстрируют механику ошибок. На запрос о том, когда бывший дом Боба Марли стал музеем, AI Overviews уверенно указал 1987 год — хотя правильный год 1986, а два из трех цитируемых источников вообще не содержали эту дату. Третий источник, Wikipedia, приводил две противоречивые цифры, и модель выбрала неправильную.
«AI responses may include mistakes»
— стандартное уведомление Google под каждым AI-ответом, которое, как показало исследование, оставалось в основном незамеченным пользователями
Реакция Google: методология под вопросом
Представитель Google Нед Адрианс назвал исследование имеющим «серьезные пробелы» и утверждает, что SimpleQA сам по себе содержит некорректные запросы и не отражает реальных поисковых паттернов пользователей. Компания отмечает, что для внутренних оценок использует SimpleQA Verified — меньший, но тщательнее отобранный набор запросов.
Однако позиция Google не опровергает сам факт разрыва между показателями точности и верифицируемости. Уведомление «AI может ошибаться» существовало и раньше — но масштаб, в котором это «может» происходит, до этого исследования публично не измерялся.
Более широкий эффект: кто платит за ошибки
Параллельно с вопросом точности разворачивается отдельная экономическая проблема. Исследование Pew Research Center показало: пользователи, которые видят AI Overview, вдвое реже переходят на внешние сайты. По данным SimilarWeb, мировой поисковый трафик (человеческий) сократился примерно на 15% за год до июня 2025 года, а некоторые издатели сообщают о падении кликабельности до 89%.
- Когда AI Overviews присутствуют в результатах, CTR для топовой органической ссылки падает до 8% против 15% без AI-блока
- Пользователи переходят по ссылкам внутри AI Overview только в 1% случаев
- Издатели ожидают падения поискового трафика в среднем на 43% за три года
То есть AI Overviews одновременно генерируют ошибки и отрезают трафик до источников, которые могли бы эти ошибки исправить.
Если Google не раскроет собственные данные о реальной доле поисковых запросов, получающих AI Overview, и не предоставит независимо верифицированную методологию оценки точности — любая дискуссия об «приемлемом уровне ошибок» останется разговором с неизвестными переменными. Вопрос не в том, является ли 91% достаточно хорошим. Вопрос в том, готов ли Google показать, сколько именно миллионов ошибочных ответов в час считает приемлемой ценой за удобство.