Google відповідає правильно в 9 з 10 випадків. Але при 5 трильйонах запитів на рік решта — це десятки мільйонів помилок щогодини

Аналіз стартапу Oumi для The New York Times показав: AI Overviews від Google точні на 91% — і це водночас рекорд точності, і масштаб помилок, якого раніше не існувало в пошуку.

167
Поділиться:
Ілюстративне фото: Depositphotos

Коли Google запустив AI Overviews у 2024 році, компанія позиціонувала це як революцію в пошуку. Тепер є перші незалежні дані про ціну цієї революції для звичайного користувача.

Що показало дослідження

Стартап Oumi на замовлення The New York Times протестував 4 326 пошукових запитів до Google, використовуючи галузевий бенчмарк SimpleQA — стандартний інструмент для вимірювання фактичної точності AI-систем. У жовтні 2024 року, коли AI Overviews працювали на базі Gemini 2, точність становила 85%. Після оновлення до Gemini 3 у лютому 2025-го показник зріс до 91%.

Цифра виглядає переконливо — доки не накладається на масштаб. Google обробляє понад 5 трильйонів пошукових запитів на рік. Навіть 9-відсоткова похибка означає десятки мільйонів хибних відповідей щогодини. Це не гіпотетичний ризик — це поточний стан роботи продукту, яким користуються сотні мільйонів людей.

Точніше, але менш перевірюване

Паралельно з покращенням точності дослідження зафіксувало протилежну тенденцію у верифікованості відповідей. З Gemini 2 у 37% правильних відповідей джерела або не підтверджували твердження, або не стосувалися його взагалі. З Gemini 3 цей показник зріс до 56% — тобто більше половини навіть правильних відповідей неможливо перевірити через посилання, які надає сам Google.

Приклади з дослідження ілюструють механіку помилок. На запит про те, коли колишній будинок Боба Марлі став музеєм, AI Overviews впевнено вказав 1987 рік — хоча правильний рік 1986, а два з трьох цитованих джерел узагалі не містили цієї дати. Третє джерело, Wikipedia, наводило дві суперечливі цифри, і модель обрала неправильну.

«AI responses may include mistakes»

— стандартний дисклеймер Google під кожною AI-відповіддю, який, як показало дослідження, залишався здебільшого непоміченим користувачами

Реакція Google: методологія під питанням

Представник Google Нед Адріанс назвав дослідження таким, що має «серйозні прогалини», і стверджує, що SimpleQA сам по собі містить некоректні запитання та не відображає реальних пошукових патернів користувачів. Компанія зазначає, що для внутрішніх оцінок використовує SimpleQA Verified — менший, але ретельніше відібраний набір запитань.

Проте позиція Google не спростовує сам факт розриву між показниками точності та верифікованості. Дисклеймер «AI може помилятися» існував і раніше — але масштаб, у якому це «може» відбувається, до цього дослідження публічно не вимірювався.

Ширший ефект: хто платить за помилки

Паралельно з питанням точності розгортається окрема економічна проблема. Дослідження Pew Research Center показало: користувачі, які бачать AI Overview, вдвічі рідше переходять на зовнішні сайти. За даними SimilarWeb, світовий пошуковий трафік (людський) скоротився приблизно на 15% за рік до червня 2025 року, а деякі видавці повідомляють про падіння клікабельності до 89%.

  • Коли AI Overviews присутні в результатах, CTR для топового органічного посилання падає до 8% проти 15% без AI-блоку
  • Користувачі переходять за посиланнями всередині AI Overview лише в 1% випадків
  • Видавці очікують падіння пошукового трафіку в середньому на 43% за три роки

Тобто AI Overviews одночасно генерують помилки і відрізають трафік до джерел, які могли б ці помилки виправити.

Якщо Google не розкриє власні дані про реальну частку пошукових запитів, що отримують AI Overview, і не надасть незалежно верифіковану методологію оцінки точності — будь-яка дискусія про «прийнятний рівень помилок» залишатиметься розмовою з невідомими змінними. Питання не в тому, чи 91% — це достатньо добре. Питання в тому, чи готовий Google показати, скільки саме мільйонів хибних відповідей на годину вважає прийнятною ціною за зручність.

Новини світу

Бізнес

Вторинний ринок нерухомості України вперше чітко розколовся не за регіонами, а за сприйнятою безпекою. Там, де люди вирішили залишитися — ціни ростуть швидше за інфляцію.

1 годину тому
Політика

ВМС України вдарили крилатими ракетами «Нептун» по підприємству «Атлант Аеро» у Таганрозі — виробнику ударних БпЛА «Молнія», якими Росія б'є по Харкову та прифронтових містах. Супутникові знімки підтверджують пошкодження щонайменше трьох цехів.

1 годину тому
Політика

Шість загиблих, відео з патрульними, що тікають від стрільця, і легально зареєстрована зброя, дозвіл на яку продовжили за чотири місяці до теракту. Клименко запустив службове розслідування, але ключові питання залишаються відкритими.

3 години тому