Google відповідає правильно в 9 з 10 випадків. Але при 5 трильйонах запитів на рік решта — це десятки мільйонів помилок щогодини

Аналіз стартапу Oumi для The New York Times показав: AI Overviews від Google точні на 91% — і це водночас рекорд точності, і масштаб помилок, якого раніше не існувало в пошуку.

18
Поділиться:
Ілюстративне фото: Depositphotos

Коли Google запустив AI Overviews у 2024 році, компанія позиціонувала це як революцію в пошуку. Тепер є перші незалежні дані про ціну цієї революції для звичайного користувача.

Що показало дослідження

Стартап Oumi на замовлення The New York Times протестував 4 326 пошукових запитів до Google, використовуючи галузевий бенчмарк SimpleQA — стандартний інструмент для вимірювання фактичної точності AI-систем. У жовтні 2024 року, коли AI Overviews працювали на базі Gemini 2, точність становила 85%. Після оновлення до Gemini 3 у лютому 2025-го показник зріс до 91%.

Цифра виглядає переконливо — доки не накладається на масштаб. Google обробляє понад 5 трильйонів пошукових запитів на рік. Навіть 9-відсоткова похибка означає десятки мільйонів хибних відповідей щогодини. Це не гіпотетичний ризик — це поточний стан роботи продукту, яким користуються сотні мільйонів людей.

Точніше, але менш перевірюване

Паралельно з покращенням точності дослідження зафіксувало протилежну тенденцію у верифікованості відповідей. З Gemini 2 у 37% правильних відповідей джерела або не підтверджували твердження, або не стосувалися його взагалі. З Gemini 3 цей показник зріс до 56% — тобто більше половини навіть правильних відповідей неможливо перевірити через посилання, які надає сам Google.

Приклади з дослідження ілюструють механіку помилок. На запит про те, коли колишній будинок Боба Марлі став музеєм, AI Overviews впевнено вказав 1987 рік — хоча правильний рік 1986, а два з трьох цитованих джерел узагалі не містили цієї дати. Третє джерело, Wikipedia, наводило дві суперечливі цифри, і модель обрала неправильну.

«AI responses may include mistakes»

— стандартний дисклеймер Google під кожною AI-відповіддю, який, як показало дослідження, залишався здебільшого непоміченим користувачами

Реакція Google: методологія під питанням

Представник Google Нед Адріанс назвав дослідження таким, що має «серйозні прогалини», і стверджує, що SimpleQA сам по собі містить некоректні запитання та не відображає реальних пошукових патернів користувачів. Компанія зазначає, що для внутрішніх оцінок використовує SimpleQA Verified — менший, але ретельніше відібраний набір запитань.

Проте позиція Google не спростовує сам факт розриву між показниками точності та верифікованості. Дисклеймер «AI може помилятися» існував і раніше — але масштаб, у якому це «може» відбувається, до цього дослідження публічно не вимірювався.

Ширший ефект: хто платить за помилки

Паралельно з питанням точності розгортається окрема економічна проблема. Дослідження Pew Research Center показало: користувачі, які бачать AI Overview, вдвічі рідше переходять на зовнішні сайти. За даними SimilarWeb, світовий пошуковий трафік (людський) скоротився приблизно на 15% за рік до червня 2025 року, а деякі видавці повідомляють про падіння клікабельності до 89%.

  • Коли AI Overviews присутні в результатах, CTR для топового органічного посилання падає до 8% проти 15% без AI-блоку
  • Користувачі переходять за посиланнями всередині AI Overview лише в 1% випадків
  • Видавці очікують падіння пошукового трафіку в середньому на 43% за три роки

Тобто AI Overviews одночасно генерують помилки і відрізають трафік до джерел, які могли б ці помилки виправити.

Якщо Google не розкриє власні дані про реальну частку пошукових запитів, що отримують AI Overview, і не надасть незалежно верифіковану методологію оцінки точності — будь-яка дискусія про «прийнятний рівень помилок» залишатиметься розмовою з невідомими змінними. Питання не в тому, чи 91% — це достатньо добре. Питання в тому, чи готовий Google показати, скільки саме мільйонів хибних відповідей на годину вважає прийнятною ціною за зручність.

Новини світу

Громада

Мешканці вулиці Щасливої та провулку Північного роками потерпають від підтоплень після кожного дощу. Існуюча зливова каналізація фізично не розрахована на сучасні обсяги опадів — місто нарешті визнало це офіційно і дає старт проєктуванню нової системи.

22 хвилини тому
Політика

Угода Трампа з Іраном обійдеться союзникам дорожче, ніж вони очікували: Ормузька протока, газові рахунки та бюджет підтримки України конкурують за одні й ті самі кошти.

24 хвилини тому
Політика

Росія застосовує Shahed-238/«Герань-3» зі швидкістю до 600 км/год і висотою до 9 км — поза зоною дії дронів-перехоплювачів. Федоров визнав проблему і пообіцяв рішення, але не назвав жодного конкретного.

1 годину тому