Google répond correctement dans 9 cas sur 10. Mais avec 5 billions de requêtes par an, le reste représente des dizaines de millions d'erreurs par heure

L'analyse du startup Oumi pour le New York Times a montré que les aperçus alimentés par l'IA de Google sont exacts à 91 % — ce qui constitue à la fois un record de précision et une ampleur d'erreurs sans précédent dans la recherche.

21
Partager :
Ілюстративне фото: Depositphotos

Lorsque Google a lancé AI Overviews en 2024, l'entreprise l'a présenté comme une révolution dans la recherche. Maintenant, il existe des premières données indépendantes sur le prix de cette révolution pour l'utilisateur ordinaire.

Ce que l'étude a montré

La startup Oumi, sur commande du New York Times, a testé 4 326 requêtes de recherche Google, en utilisant le benchmark SimpleQA — un outil standard pour mesurer la précision factuelle des systèmes d'IA. En octobre 2024, lorsque AI Overviews fonctionnait sur la base de Gemini 2, la précision était de 85 %. Après la mise à jour vers Gemini 3 en février 2025, l'indicateur a augmenté à 91 %.

Le chiffre semble convaincant — jusqu'à ce qu'il ne soit rapporté à l'échelle. Google traite plus de 5 billions de requêtes de recherche par an. Même une marge d'erreur de 9 % signifie des dizaines de millions de réponses fausses par heure. Ce n'est pas un risque hypothétique — c'est l'état actuel du fonctionnement du produit utilisé par des centaines de millions de personnes.

Plus précis, mais moins vérifiable

Parallèlement à l'amélioration de la précision, l'étude a enregistré une tendance opposée dans la vérifiabilité des réponses. Avec Gemini 2, dans 37 % des réponses correctes, les sources ne confirmaient pas l'affirmation ou n'y étaient pas pertinentes. Avec Gemini 3, ce pourcentage a augmenté à 56 % — c'est-à-dire que plus de la moitié même des réponses correctes ne peuvent pas être vérifiées par les liens fournis par Google lui-même.

Les exemples de l'étude illustrent la mécanique des erreurs. À la question de savoir quand l'ancienne maison de Bob Marley est devenue un musée, AI Overviews a indiqué avec assurance l'année 1987 — bien que l'année correcte soit 1986, et que deux des trois sources citées ne contenaient pas cette date du tout. La troisième source, Wikipedia, présentait deux chiffres contradictoires, et le modèle a choisi le mauvais.

« AI responses may include mistakes »

— clause de non-responsabilité standard de Google sous chaque réponse IA, qui, comme l'a montré l'étude, restait largement inaperçue des utilisateurs

Réaction de Google : la méthodologie en question

Le représentant de Google Ned Adriance a appelé l'étude à avoir des « lacunes sérieuses », affirmant que SimpleQA lui-même contient des questions incorrectes et ne reflète pas les véritables modèles de recherche des utilisateurs. L'entreprise note que pour ses évaluations internes, elle utilise SimpleQA Verified — un ensemble plus petit mais sélectionné plus soigneusement.

Cependant, la position de Google ne réfute pas le fait lui-même du fossé entre les indicateurs de précision et de vérifiabilité. La clause de non-responsabilité « l'IA peut se tromper » existait auparavant — mais l'ampleur à laquelle cela « peut » se produire n'a pas été mesurée publiquement jusqu'à cette étude.

L'effet plus large : qui paie pour les erreurs

Parallèlement à la question de la précision se déploie un problème économique distinct. Une étude du Pew Research Center a montré : les utilisateurs qui voient AI Overview vont deux fois moins souvent sur des sites externes. Selon SimilarWeb, le trafic de recherche mondial (humain) a chuté d'environ 15 % au cours de l'année jusqu'en juin 2025, et certains éditeurs signalent une baisse du taux de clics jusqu'à 89 %.

  • Lorsque AI Overviews sont présents dans les résultats, le CTR pour le lien organique principal tombe à 8 % contre 15 % sans bloc IA
  • Les utilisateurs cliquent sur des liens au sein d'AI Overview dans seulement 1 % des cas
  • Les éditeurs s'attendent à une baisse du trafic de recherche en moyenne de 43 % en trois ans

Autrement dit, AI Overviews génèrent à la fois des erreurs et coupent le trafic vers les sources qui pourraient corriger ces erreurs.

Si Google ne divulgue pas ses propres données sur la part réelle des requêtes de recherche qui reçoivent AI Overview, et ne fournit pas une méthodologie d'évaluation de la précision indépendamment vérifiée — toute discussion sur un « niveau d'erreur acceptable » restera une conversation avec des variables inconnues. La question n'est pas de savoir si 91 % est suffisamment bon. La question est de savoir si Google est prêt à montrer combien exactement de millions de réponses fausses par heure il considère comme un prix acceptable pour la commodité.

Actualités mondiales

Communauté

Les habitants de la rue Счасливой et de la ruelle Pivnichnoy souffrent depuis des années des inondations à chaque pluie. Le système d'égouts pluviaux existant n'est physiquement pas conçu pour les volumes actuels de précipitations — la ville l'a enfin reconnu officiellement et lance la conception d'un nouveau système.

il y a 2 heures