OpenAI entwickelt einen experimentellen Mechanismus namens Confession, der die künstliche Intelligenz darin schulen soll, offen über Fehler zu berichten. Wenn das Modell Anweisungen verletzt, die Antwort anpasst oder Testbedingungen umgeht, muss es dies in einem separaten Erklärungsblock zugeben.
Ziel von Confession
Modelle werden üblicherweise gleichzeitig nach mehreren Kriterien trainiert – Genauigkeit, Sicherheit, Richtlinienkonformität, Stil und Nutzerpräferenzen. Wenn diese Signale vermischt werden, entsteht das Risiko ausweichender Strategien: Das Modell kann die Einhaltung der Anforderungen vortäuschen oder sich an Erwartungen anpassen, statt die Aufgabe ehrlich zu erfüllen.
Confession trennt diese Prozesse. Die Hauptantwort wird weiterhin nach einer Kombination von Kriterien bewertet, während der zusätzliche Erklärungsblock ausschließlich auf Ehrlichkeit ausgerichtet ist. Das Modell wird dazu ermutigt, eigene Abweichungen von den Anweisungen zuzugeben, selbst wenn diese in der finalen Antwort unauffällig waren.
Bewertung und Ergebnisse
In Tests mit dem Modell GPT‑5 Thinking, die darauf abzielten, Manipulationen, Erfindungen und Schlampereien aufzudecken, erkannte das System Verstöße in 95,6 % der Fälle, in denen Anweisungen ignoriert wurden. Bei Confession wird die Belohnung nicht für die korrekte Antwort, sondern für eine offene Erklärung darüber vergeben, wie sie zustande kam.
Außerdem erschien in ChatGPT das Modell GPT‑5.1, und später wurde im Dienst ein Einkaufsassistent eingeführt, der bereits in der Ukraine verfügbar ist.