Google правильно отвечает в 9 из 10 случаев. Но при 5 триллионах запросов в год остальное — это десятки миллионов ошибок каждый час

Анализ стартапа Oumi для The New York Times показал: AI Overviews от Google точны на 91% — и это одновременно рекорд точности, и масштаб ошибок, который ранее не существовал в поиске.

20
Поделиться:
Ілюстративне фото: Depositphotos

Когда Google запустил AI Overviews в 2024 году, компания позиционировала это как революцию в поиске. Теперь появились первые независимые данные о цене этой революции для обычного пользователя.

Что показало исследование

Стартап Oumi по заказу The New York Times протестировал 4 326 поисковых запросов к Google, используя отраслевой бенчмарк SimpleQA — стандартный инструмент для измерения фактической точности AI-систем. В октябре 2024 года, когда AI Overviews работали на базе Gemini 2, точность составляла 85%. После обновления до Gemini 3 в феврале 2025 года показатель возрос до 91%.

Цифра выглядит убедительно — пока не накладывается на масштаб. Google обрабатывает более 5 триллионов поисковых запросов в год. Даже 9-процентная ошибка означает десятки миллионов ошибочных ответов каждый час. Это не гипотетический риск — это текущее состояние работы продукта, которым пользуются сотни миллионов людей.

Точнее, но менее проверяемо

Параллельно с улучшением точности исследование зафиксировало противоположную тенденцию в верифицируемости ответов. С Gemini 2 в 37% правильных ответов источники либо не подтверждали утверждение, либо не относились к нему вообще. С Gemini 3 этот показатель возрос до 56% — то есть более половины даже правильных ответов невозможно проверить через ссылки, которые предоставляет сам Google.

Примеры из исследования иллюстрируют механику ошибок. На запрос о том, когда бывший дом Боба Марли стал музеем, AI Overviews уверенно указал 1987 год — хотя правильный год 1986, а два из трех цитируемых источников вообще не содержали эту дату. Третий источник, Wikipedia, приводил две противоречивые цифры, и модель выбрала неправильную.

«AI responses may include mistakes»

— стандартное уведомление Google под каждым AI-ответом, которое, как показало исследование, оставалось в основном незамеченным пользователями

Реакция Google: методология под вопросом

Представитель Google Нед Адрианс назвал исследование имеющим «серьезные пробелы» и утверждает, что SimpleQA сам по себе содержит некорректные запросы и не отражает реальных поисковых паттернов пользователей. Компания отмечает, что для внутренних оценок использует SimpleQA Verified — меньший, но тщательнее отобранный набор запросов.

Однако позиция Google не опровергает сам факт разрыва между показателями точности и верифицируемости. Уведомление «AI может ошибаться» существовало и раньше — но масштаб, в котором это «может» происходит, до этого исследования публично не измерялся.

Более широкий эффект: кто платит за ошибки

Параллельно с вопросом точности разворачивается отдельная экономическая проблема. Исследование Pew Research Center показало: пользователи, которые видят AI Overview, вдвое реже переходят на внешние сайты. По данным SimilarWeb, мировой поисковый трафик (человеческий) сократился примерно на 15% за год до июня 2025 года, а некоторые издатели сообщают о падении кликабельности до 89%.

  • Когда AI Overviews присутствуют в результатах, CTR для топовой органической ссылки падает до 8% против 15% без AI-блока
  • Пользователи переходят по ссылкам внутри AI Overview только в 1% случаев
  • Издатели ожидают падения поискового трафика в среднем на 43% за три года

То есть AI Overviews одновременно генерируют ошибки и отрезают трафик до источников, которые могли бы эти ошибки исправить.

Если Google не раскроет собственные данные о реальной доле поисковых запросов, получающих AI Overview, и не предоставит независимо верифицированную методологию оценки точности — любая дискуссия об «приемлемом уровне ошибок» останется разговором с неизвестными переменными. Вопрос не в том, является ли 91% достаточно хорошим. Вопрос в том, готов ли Google показать, сколько именно миллионов ошибочных ответов в час считает приемлемой ценой за удобство.

Новости мира

Сообщество

Жители улицы Счастливой и переулка Северного годами страдают от подтоплений после каждого дождя. Существующая ливневая канализация физически не рассчитана на современные объемы осадков — город наконец официально признал это и начинает проектирование новой системы.

2 часа назад
Политика

Россия применяет Shahed-238/«Герань-3» со скоростью до 600 км/ч и высотой до 9 км — вне зоны действия дронов-перехватчиков. Федоров признал проблему и обещал решение, но не назвал ни одного конкретного.

3 часа назад