Google відповідає правильно в 9 з 10 випадків. Але при 5 трильйонах запитів на рік решта — це десятки мільйонів помилок щогодини

Аналіз стартапу Oumi для The New York Times показав: AI Overviews від Google точні на 91% — і це водночас рекорд точності, і масштаб помилок, якого раніше не існувало в пошуку.

334
Поділиться:
Ілюстративне фото: Depositphotos

Коли Google запустив AI Overviews у 2024 році, компанія позиціонувала це як революцію в пошуку. Тепер є перші незалежні дані про ціну цієї революції для звичайного користувача.

Що показало дослідження

Стартап Oumi на замовлення The New York Times протестував 4 326 пошукових запитів до Google, використовуючи галузевий бенчмарк SimpleQA — стандартний інструмент для вимірювання фактичної точності AI-систем. У жовтні 2024 року, коли AI Overviews працювали на базі Gemini 2, точність становила 85%. Після оновлення до Gemini 3 у лютому 2025-го показник зріс до 91%.

Цифра виглядає переконливо — доки не накладається на масштаб. Google обробляє понад 5 трильйонів пошукових запитів на рік. Навіть 9-відсоткова похибка означає десятки мільйонів хибних відповідей щогодини. Це не гіпотетичний ризик — це поточний стан роботи продукту, яким користуються сотні мільйонів людей.

Точніше, але менш перевірюване

Паралельно з покращенням точності дослідження зафіксувало протилежну тенденцію у верифікованості відповідей. З Gemini 2 у 37% правильних відповідей джерела або не підтверджували твердження, або не стосувалися його взагалі. З Gemini 3 цей показник зріс до 56% — тобто більше половини навіть правильних відповідей неможливо перевірити через посилання, які надає сам Google.

Приклади з дослідження ілюструють механіку помилок. На запит про те, коли колишній будинок Боба Марлі став музеєм, AI Overviews впевнено вказав 1987 рік — хоча правильний рік 1986, а два з трьох цитованих джерел узагалі не містили цієї дати. Третє джерело, Wikipedia, наводило дві суперечливі цифри, і модель обрала неправильну.

«AI responses may include mistakes»

— стандартний дисклеймер Google під кожною AI-відповіддю, який, як показало дослідження, залишався здебільшого непоміченим користувачами

Реакція Google: методологія під питанням

Представник Google Нед Адріанс назвав дослідження таким, що має «серйозні прогалини», і стверджує, що SimpleQA сам по собі містить некоректні запитання та не відображає реальних пошукових патернів користувачів. Компанія зазначає, що для внутрішніх оцінок використовує SimpleQA Verified — менший, але ретельніше відібраний набір запитань.

Проте позиція Google не спростовує сам факт розриву між показниками точності та верифікованості. Дисклеймер «AI може помилятися» існував і раніше — але масштаб, у якому це «може» відбувається, до цього дослідження публічно не вимірювався.

Ширший ефект: хто платить за помилки

Паралельно з питанням точності розгортається окрема економічна проблема. Дослідження Pew Research Center показало: користувачі, які бачать AI Overview, вдвічі рідше переходять на зовнішні сайти. За даними SimilarWeb, світовий пошуковий трафік (людський) скоротився приблизно на 15% за рік до червня 2025 року, а деякі видавці повідомляють про падіння клікабельності до 89%.

  • Коли AI Overviews присутні в результатах, CTR для топового органічного посилання падає до 8% проти 15% без AI-блоку
  • Користувачі переходять за посиланнями всередині AI Overview лише в 1% випадків
  • Видавці очікують падіння пошукового трафіку в середньому на 43% за три роки

Тобто AI Overviews одночасно генерують помилки і відрізають трафік до джерел, які могли б ці помилки виправити.

Якщо Google не розкриє власні дані про реальну частку пошукових запитів, що отримують AI Overview, і не надасть незалежно верифіковану методологію оцінки точності — будь-яка дискусія про «прийнятний рівень помилок» залишатиметься розмовою з невідомими змінними. Питання не в тому, чи 91% — це достатньо добре. Питання в тому, чи готовий Google показати, скільки саме мільйонів хибних відповідей на годину вважає прийнятною ціною за зручність.

Новини світу

Технології

Ferrari офіційно показала Luce — чотиридверний п'ятимісний електромобіль потужністю 1000 к.с. за ціною від €550 000. Дизайн — від Джоні Айва, кнопки — фізичні, акції Ferrari впали на 3% в день презентації.

4 дні тому
Технології

Samsung і Microsoft прибирають вбудовану синхронізацію Gallery з OneDrive. Це не катастрофа, але є один нюанс поведінки, про який мало хто знає: після переходу на окремий застосунок видалення фото зі смартфона вже не витиратиме їх із хмари.

4 дні тому