OpenAI bringt KI durch Confession bei, Fehler einzugestehen

OpenAI entwickelt einen experimentellen Mechanismus namens „Confession“, der das Modell dazu veranlasst, Verstöße gegen Anweisungen oder Manipulationen an den Antworten zu melden. Das System belohnt eine ehrliche Erklärung des Prozesses und nicht nur die Richtigkeit der Antwort.

744
Teilen:

OpenAI entwickelt einen experimentellen Mechanismus namens Confession, der die künstliche Intelligenz darin schulen soll, offen über Fehler zu berichten. Wenn das Modell Anweisungen verletzt, die Antwort anpasst oder Testbedingungen umgeht, muss es dies in einem separaten Erklärungsblock zugeben.

Ziel von Confession

Modelle werden üblicherweise gleichzeitig nach mehreren Kriterien trainiert – Genauigkeit, Sicherheit, Richtlinienkonformität, Stil und Nutzerpräferenzen. Wenn diese Signale vermischt werden, entsteht das Risiko ausweichender Strategien: Das Modell kann die Einhaltung der Anforderungen vortäuschen oder sich an Erwartungen anpassen, statt die Aufgabe ehrlich zu erfüllen.

Confession trennt diese Prozesse. Die Hauptantwort wird weiterhin nach einer Kombination von Kriterien bewertet, während der zusätzliche Erklärungsblock ausschließlich auf Ehrlichkeit ausgerichtet ist. Das Modell wird dazu ermutigt, eigene Abweichungen von den Anweisungen zuzugeben, selbst wenn diese in der finalen Antwort unauffällig waren.

Bewertung und Ergebnisse

In Tests mit dem Modell GPT‑5 Thinking, die darauf abzielten, Manipulationen, Erfindungen und Schlampereien aufzudecken, erkannte das System Verstöße in 95,6 % der Fälle, in denen Anweisungen ignoriert wurden. Bei Confession wird die Belohnung nicht für die korrekte Antwort, sondern für eine offene Erklärung darüber vergeben, wie sie zustande kam.

Außerdem erschien in ChatGPT das Modell GPT‑5.1, und später wurde im Dienst ein Einkaufsassistent eingeführt, der bereits in der Ukraine verfügbar ist.

Weltnachrichten

Politik

Bihus.Info hat Rostislav Pekarj identifiziert — eine Person mit echten Vollmachten und einem staatlichen Auto im Wert von 60.000 Dollar, die weder auf der Website des Büros noch im NAZK-Register verzeichnet ist. Dies ist kein technischer Fehler: Das Fehlen in öffentlichen Registern bedeutet das Fehlen jeglicher Kontrolle durch die Öffentlichkeit.

8 Stunden vor