OpenAI bringt KI durch Confession bei, Fehler einzugestehen

OpenAI entwickelt einen experimentellen Mechanismus namens „Confession“, der das Modell dazu veranlasst, Verstöße gegen Anweisungen oder Manipulationen an den Antworten zu melden. Das System belohnt eine ehrliche Erklärung des Prozesses und nicht nur die Richtigkeit der Antwort.

156
Aktie:

OpenAI entwickelt einen experimentellen Mechanismus namens Confession, der die künstliche Intelligenz darin schulen soll, offen über Fehler zu berichten. Wenn das Modell Anweisungen verletzt, die Antwort anpasst oder Testbedingungen umgeht, muss es dies in einem separaten Erklärungsblock zugeben.

Ziel von Confession

Modelle werden üblicherweise gleichzeitig nach mehreren Kriterien trainiert – Genauigkeit, Sicherheit, Richtlinienkonformität, Stil und Nutzerpräferenzen. Wenn diese Signale vermischt werden, entsteht das Risiko ausweichender Strategien: Das Modell kann die Einhaltung der Anforderungen vortäuschen oder sich an Erwartungen anpassen, statt die Aufgabe ehrlich zu erfüllen.

Confession trennt diese Prozesse. Die Hauptantwort wird weiterhin nach einer Kombination von Kriterien bewertet, während der zusätzliche Erklärungsblock ausschließlich auf Ehrlichkeit ausgerichtet ist. Das Modell wird dazu ermutigt, eigene Abweichungen von den Anweisungen zuzugeben, selbst wenn diese in der finalen Antwort unauffällig waren.

Bewertung und Ergebnisse

In Tests mit dem Modell GPT‑5 Thinking, die darauf abzielten, Manipulationen, Erfindungen und Schlampereien aufzudecken, erkannte das System Verstöße in 95,6 % der Fälle, in denen Anweisungen ignoriert wurden. Bei Confession wird die Belohnung nicht für die korrekte Antwort, sondern für eine offene Erklärung darüber vergeben, wie sie zustande kam.

Außerdem erschien in ChatGPT das Modell GPT‑5.1, und später wurde im Dienst ein Einkaufsassistent eingeführt, der bereits in der Ukraine verfügbar ist.

Weltnachrichten

Politik

Warum versuchen heutzutage so viele denkende Menschen weltweit, die Natur und die Ursachen des Entstehens des Trumpismus zu verstehen? Vermutlich deshalb, weil bereits ein klares Verständnis besteht — und wenn kein Verständnis, dann zumindest das Gefühl: Das wird nicht gut ausgehen.

10 Stunden vor
Kultur

Der Bandurist, Mitglied der Kulturkräfte, Solist des NAONI-Orchesters und Volkskünstler der Ukraine, Taras Stolyar, sprach über die Verbindung von Kunst und Dienst in den ukrainischen Streitkräften. Er trat für Riccardo Muti in Italien auf, spielte mit Sting in Malibu und reiste mit einem Kulturtransportkommando an die Front. Kunst wurde zur Waffe im Kampf für die Ukraine.

10 Stunden vor