Lorsque Google a lancé AI Overviews en 2024, l'entreprise l'a présenté comme une révolution dans la recherche. Maintenant, il existe des premières données indépendantes sur le prix de cette révolution pour l'utilisateur ordinaire.
Ce que l'étude a montré
La startup Oumi, sur commande du New York Times, a testé 4 326 requêtes de recherche Google, en utilisant le benchmark SimpleQA — un outil standard pour mesurer la précision factuelle des systèmes d'IA. En octobre 2024, lorsque AI Overviews fonctionnait sur la base de Gemini 2, la précision était de 85 %. Après la mise à jour vers Gemini 3 en février 2025, l'indicateur a augmenté à 91 %.
Le chiffre semble convaincant — jusqu'à ce qu'il ne soit rapporté à l'échelle. Google traite plus de 5 billions de requêtes de recherche par an. Même une marge d'erreur de 9 % signifie des dizaines de millions de réponses fausses par heure. Ce n'est pas un risque hypothétique — c'est l'état actuel du fonctionnement du produit utilisé par des centaines de millions de personnes.
Plus précis, mais moins vérifiable
Parallèlement à l'amélioration de la précision, l'étude a enregistré une tendance opposée dans la vérifiabilité des réponses. Avec Gemini 2, dans 37 % des réponses correctes, les sources ne confirmaient pas l'affirmation ou n'y étaient pas pertinentes. Avec Gemini 3, ce pourcentage a augmenté à 56 % — c'est-à-dire que plus de la moitié même des réponses correctes ne peuvent pas être vérifiées par les liens fournis par Google lui-même.
Les exemples de l'étude illustrent la mécanique des erreurs. À la question de savoir quand l'ancienne maison de Bob Marley est devenue un musée, AI Overviews a indiqué avec assurance l'année 1987 — bien que l'année correcte soit 1986, et que deux des trois sources citées ne contenaient pas cette date du tout. La troisième source, Wikipedia, présentait deux chiffres contradictoires, et le modèle a choisi le mauvais.
« AI responses may include mistakes »
— clause de non-responsabilité standard de Google sous chaque réponse IA, qui, comme l'a montré l'étude, restait largement inaperçue des utilisateurs
Réaction de Google : la méthodologie en question
Le représentant de Google Ned Adriance a appelé l'étude à avoir des « lacunes sérieuses », affirmant que SimpleQA lui-même contient des questions incorrectes et ne reflète pas les véritables modèles de recherche des utilisateurs. L'entreprise note que pour ses évaluations internes, elle utilise SimpleQA Verified — un ensemble plus petit mais sélectionné plus soigneusement.
Cependant, la position de Google ne réfute pas le fait lui-même du fossé entre les indicateurs de précision et de vérifiabilité. La clause de non-responsabilité « l'IA peut se tromper » existait auparavant — mais l'ampleur à laquelle cela « peut » se produire n'a pas été mesurée publiquement jusqu'à cette étude.
L'effet plus large : qui paie pour les erreurs
Parallèlement à la question de la précision se déploie un problème économique distinct. Une étude du Pew Research Center a montré : les utilisateurs qui voient AI Overview vont deux fois moins souvent sur des sites externes. Selon SimilarWeb, le trafic de recherche mondial (humain) a chuté d'environ 15 % au cours de l'année jusqu'en juin 2025, et certains éditeurs signalent une baisse du taux de clics jusqu'à 89 %.
- Lorsque AI Overviews sont présents dans les résultats, le CTR pour le lien organique principal tombe à 8 % contre 15 % sans bloc IA
- Les utilisateurs cliquent sur des liens au sein d'AI Overview dans seulement 1 % des cas
- Les éditeurs s'attendent à une baisse du trafic de recherche en moyenne de 43 % en trois ans
Autrement dit, AI Overviews génèrent à la fois des erreurs et coupent le trafic vers les sources qui pourraient corriger ces erreurs.
Si Google ne divulgue pas ses propres données sur la part réelle des requêtes de recherche qui reçoivent AI Overview, et ne fournit pas une méthodologie d'évaluation de la précision indépendamment vérifiée — toute discussion sur un « niveau d'erreur acceptable » restera une conversation avec des variables inconnues. La question n'est pas de savoir si 91 % est suffisamment bon. La question est de savoir si Google est prêt à montrer combien exactement de millions de réponses fausses par heure il considère comme un prix acceptable pour la commodité.