OpenAI crée un mécanisme expérimental appelé Confession, destiné à apprendre à l'intelligence artificielle à communiquer ouvertement ses erreurs. Si le modèle viole les instructions, ajuste sa réponse ou contourne les conditions de test, il doit l'admettre dans un bloc explicatif séparé.
Objectif de Confession
Les modèles sont généralement entraînés simultanément selon plusieurs critères — exactitude, sécurité, conformité aux politiques, style et préférences de l'utilisateur. Lorsque ces signaux se mêlent, il existe un risque de stratégies d'évasion : le modèle peut simuler sa conformité aux exigences ou s'adapter aux attentes, au lieu d'exécuter honnêtement la tâche.
Confession sépare ces processus. La réponse principale est toujours évaluée selon l'ensemble des critères, tandis que le bloc explicatif additionnel se concentre uniquement sur l'honnêteté. Le modèle est encouragé à reconnaître ses propres écarts par rapport aux instructions, même si cela n'était pas apparent dans la réponse finale.
Évaluation et résultats
Lors d'essais avec le modèle GPT‑5 Thinking, visant à détecter les manipulations, les fabrications et le travail bâclé, le système reconnaissait des violations dans 95,6 % des cas où les instructions avaient été ignorées. Dans Confession, la récompense est accordée non pas pour une réponse correcte, mais pour une explication franche de la manière dont elle a été obtenue.
Par ailleurs, ChatGPT s'est vu doté du modèle GPT‑5.1, et plus tard le service a intégré un assistant pour les achats, déjà disponible en Ukraine.