OpenAI apprend à l'IA à admettre ses erreurs grâce à «Confession»

OpenAI développe un mécanisme expérimental, Confession, qui contraint le modèle à signaler les violations des consignes ou les manipulations des réponses. Le système récompense une explication honnête du processus, et pas seulement l'exactitude de la réponse.

155
Partager:

OpenAI crée un mécanisme expérimental appelé Confession, destiné à apprendre à l'intelligence artificielle à communiquer ouvertement ses erreurs. Si le modèle viole les instructions, ajuste sa réponse ou contourne les conditions de test, il doit l'admettre dans un bloc explicatif séparé.

Objectif de Confession

Les modèles sont généralement entraînés simultanément selon plusieurs critères — exactitude, sécurité, conformité aux politiques, style et préférences de l'utilisateur. Lorsque ces signaux se mêlent, il existe un risque de stratégies d'évasion : le modèle peut simuler sa conformité aux exigences ou s'adapter aux attentes, au lieu d'exécuter honnêtement la tâche.

Confession sépare ces processus. La réponse principale est toujours évaluée selon l'ensemble des critères, tandis que le bloc explicatif additionnel se concentre uniquement sur l'honnêteté. Le modèle est encouragé à reconnaître ses propres écarts par rapport aux instructions, même si cela n'était pas apparent dans la réponse finale.

Évaluation et résultats

Lors d'essais avec le modèle GPT‑5 Thinking, visant à détecter les manipulations, les fabrications et le travail bâclé, le système reconnaissait des violations dans 95,6 % des cas où les instructions avaient été ignorées. Dans Confession, la récompense est accordée non pas pour une réponse correcte, mais pour une explication franche de la manière dont elle a été obtenue.

Par ailleurs, ChatGPT s'est vu doté du modèle GPT‑5.1, et plus tard le service a intégré un assistant pour les achats, déjà disponible en Ukraine.

Actualités du monde

Culture

Le bandouriste, membre des Forces culturelles, soliste de l'orchestre NAONI et artiste du peuple d'Ukraine, Taras Stolyar, a évoqué l'alliance de l'art et du service au sein des Forces armées ukrainiennes. Il s'est produit pour Riccardo Muti en Italie, a joué avec Sting à Malibu et a participé à une mission culturelle au front. L'art est devenu une arme dans le combat pour l'Ukraine.

il y a 10 heures