Коли Google запустив AI Overviews у 2024 році, компанія позиціонувала це як революцію в пошуку. Тепер є перші незалежні дані про ціну цієї революції для звичайного користувача.
Що показало дослідження
Стартап Oumi на замовлення The New York Times протестував 4 326 пошукових запитів до Google, використовуючи галузевий бенчмарк SimpleQA — стандартний інструмент для вимірювання фактичної точності AI-систем. У жовтні 2024 року, коли AI Overviews працювали на базі Gemini 2, точність становила 85%. Після оновлення до Gemini 3 у лютому 2025-го показник зріс до 91%.
Цифра виглядає переконливо — доки не накладається на масштаб. Google обробляє понад 5 трильйонів пошукових запитів на рік. Навіть 9-відсоткова похибка означає десятки мільйонів хибних відповідей щогодини. Це не гіпотетичний ризик — це поточний стан роботи продукту, яким користуються сотні мільйонів людей.
Точніше, але менш перевірюване
Паралельно з покращенням точності дослідження зафіксувало протилежну тенденцію у верифікованості відповідей. З Gemini 2 у 37% правильних відповідей джерела або не підтверджували твердження, або не стосувалися його взагалі. З Gemini 3 цей показник зріс до 56% — тобто більше половини навіть правильних відповідей неможливо перевірити через посилання, які надає сам Google.
Приклади з дослідження ілюструють механіку помилок. На запит про те, коли колишній будинок Боба Марлі став музеєм, AI Overviews впевнено вказав 1987 рік — хоча правильний рік 1986, а два з трьох цитованих джерел узагалі не містили цієї дати. Третє джерело, Wikipedia, наводило дві суперечливі цифри, і модель обрала неправильну.
«AI responses may include mistakes»
— стандартний дисклеймер Google під кожною AI-відповіддю, який, як показало дослідження, залишався здебільшого непоміченим користувачами
Реакція Google: методологія під питанням
Представник Google Нед Адріанс назвав дослідження таким, що має «серйозні прогалини», і стверджує, що SimpleQA сам по собі містить некоректні запитання та не відображає реальних пошукових патернів користувачів. Компанія зазначає, що для внутрішніх оцінок використовує SimpleQA Verified — менший, але ретельніше відібраний набір запитань.
Проте позиція Google не спростовує сам факт розриву між показниками точності та верифікованості. Дисклеймер «AI може помилятися» існував і раніше — але масштаб, у якому це «може» відбувається, до цього дослідження публічно не вимірювався.
Ширший ефект: хто платить за помилки
Паралельно з питанням точності розгортається окрема економічна проблема. Дослідження Pew Research Center показало: користувачі, які бачать AI Overview, вдвічі рідше переходять на зовнішні сайти. За даними SimilarWeb, світовий пошуковий трафік (людський) скоротився приблизно на 15% за рік до червня 2025 року, а деякі видавці повідомляють про падіння клікабельності до 89%.
- Коли AI Overviews присутні в результатах, CTR для топового органічного посилання падає до 8% проти 15% без AI-блоку
- Користувачі переходять за посиланнями всередині AI Overview лише в 1% випадків
- Видавці очікують падіння пошукового трафіку в середньому на 43% за три роки
Тобто AI Overviews одночасно генерують помилки і відрізають трафік до джерел, які могли б ці помилки виправити.
Якщо Google не розкриє власні дані про реальну частку пошукових запитів, що отримують AI Overview, і не надасть незалежно верифіковану методологію оцінки точності — будь-яка дискусія про «прийнятний рівень помилок» залишатиметься розмовою з невідомими змінними. Питання не в тому, чи 91% — це достатньо добре. Питання в тому, чи готовий Google показати, скільки саме мільйонів хибних відповідей на годину вважає прийнятною ціною за зручність.