Google antwortet in 9 von 10 Fällen korrekt. Aber bei 5 Billionen Anfragen pro Jahr bedeutet der Rest Dutzende Millionen Fehler pro Stunde

Eine Analyse des Startups Oumi für die New York Times hat gezeigt: Googles AI Overviews sind zu 91 Prozent genau — ein Rekord bei der Genauigkeit und gleichzeitig ein Fehlerumfang, den es in der Suchmaschine bisher nicht gab.

21
Teilen:
Ілюстративне фото: Depositphotos

Als Google 2024 AI Overviews startete, positionierte das Unternehmen dies als Revolution in der Suche. Nun gibt es erste unabhängige Daten über den Preis dieser Revolution für den durchschnittlichen Nutzer.

Was die Studie zeigte

Das Startup Oumi testete im Auftrag der New York Times 4.326 Google-Suchanfragen mit Hilfe des branchenüblichen Benchmarks SimpleQA — einem Standardwerkzeug zur Messung der faktischen Genauigkeit von KI-Systemen. Im Oktober 2024, als AI Overviews auf Basis von Gemini 2 liefen, betrug die Genauigkeit 85 %. Nach dem Update auf Gemini 3 im Februar 2025 stieg dieser Wert auf 91 %.

Die Zahl wirkt überzeugend — bis sie auf die Größenordnung angewendet wird. Google verarbeitet über 5 Billionen Suchanfragen pro Jahr. Selbst eine 9-prozentige Fehlerquote bedeutet Dutzende Millionen falscher Antworten pro Stunde. Dies ist kein hypothetisches Risiko — es ist der aktuelle Zustand eines Produkts, das von Hunderten Millionen Menschen verwendet wird.

Präziser, aber weniger überprüfbar

Parallel zur Verbesserung der Genauigkeit verzeichnete die Studie einen gegenteiligen Trend bei der Überprüfbarkeit der Antworten. Mit Gemini 2 bestätigten in 37 % der korrekten Antworten die Quellen entweder nicht die Aussage oder waren für sie nicht relevant. Mit Gemini 3 stieg diese Quote auf 56 % — das heißt, mehr als die Hälfte selbst der korrekten Antworten können durch die von Google bereitgestellten Links nicht überprüft werden.

Beispiele aus der Studie veranschaulichen den Mechanismus der Fehler. Bei der Frage, wann das ehemalige Haus von Bob Marley zu einem Museum wurde, gab AI Overviews selbstsicher das Jahr 1987 an – obwohl das richtige Jahr 1986 war, und zwei der drei zitierten Quellen dieses Datum überhaupt nicht enthielten. Die dritte Quelle, Wikipedia, gab zwei widersprechende Zahlen an, und das Modell wählte die falsche.

«AI responses may include mistakes»

— der Standard-Disclaimer von Google unter jeder KI-Antwort, der laut Studie von den Nutzern größtenteils unbemerkt blieb

Googles Reaktion: Methodik in Frage gestellt

Ein Sprecher von Google, Ned Adriance, bezeichnete die Studie als eine mit «erheblichen Lücken» und argumentiert, dass SimpleQA selbst fehlerhafte Fragen enthält und nicht die realen Suchmuster der Nutzer widerspiegelt. Das Unternehmen weist darauf hin, dass es für interne Bewertungen SimpleQA Verified verwendet — einen kleineren, aber sorgfältiger ausgewählten Fragensatz.

Doch Googles Position widerlegt nicht die Tatsache der Diskrepanz zwischen Genauigkeits- und Überprüfbarkeitswerten selbst. Der Disclaimer «KI kann Fehler machen» existierte bereits vorher — aber das Ausmaß, in dem dies «kann» passiert, wurde bisher nicht öffentlich gemessen.

Breitere Auswirkungen: Wer zahlt für die Fehler

Parallel zur Frage der Genauigkeit entsteht ein separates wirtschaftliches Problem. Eine Studie des Pew Research Center zeigte: Nutzer, die einen AI Overview sehen, klicken doppelt so selten auf externe Websites. Nach Angaben von SimilarWeb ist der weltweite organische Suchverkehr (menschlich) im Jahr bis Juni 2025 um etwa 15 % zurückgegangen, und einige Verlage berichten von Rückgängen der Klickrate von bis zu 89 %.

  • Wenn AI Overviews in den Ergebnissen vorhanden sind, sinkt die Klickrate (CTR) für den oberen organischen Link auf 8 % gegenüber 15 % ohne KI-Block
  • Nutzer klicken auf Links innerhalb von AI Overview nur in 1 % der Fälle
  • Verlage erwarten einen durchschnittlichen Rückgang des Suchverkehrs um 43 % in drei Jahren

Mit anderen Worten: AI Overviews erzeugen Fehler und schneiden gleichzeitig den Datenverkehr zu den Quellen ab, die diese Fehler hätten korrigieren können.

Solange Google seine eigenen Daten über den tatsächlichen Anteil der Suchanfragen, die AI Overview erhalten, nicht offenleggt und keine unabhängig verifizierte Methodik zur Genauigkeitsbewertung bereitstellt, wird jede Diskussion über ein «akzeptables Fehlerniveau» ein Gespräch mit unbekannten Variablen bleiben. Die Frage ist nicht, ob 91 % gut genug sind. Die Frage ist, ob Google bereit ist zu zeigen, wie viele Millionen falscher Antworten pro Stunde es als akzeptablen Preis für Komfort erachtet.

Weltnachrichten