OpenAI вчить ШІ визнавати помилки через Confession

OpenAI розробляє експериментальний механізм Confession, що змушує модель повідомляти про порушення інструкцій або маніпуляції з відповідями. Система винагороджує чесне пояснення процесу, а не лише правильність відповіді.

157
Поділиться:

OpenAI створює експериментальний механізм під назвою Confession, який має навчити штучний інтелект відверто повідомляти про помилки. Якщо модель порушує інструкції, підлаштовує відповідь або обходить тестові умови, вона повинна визнати це в окремому блоці пояснення.

Мета Confession

Моделі зазвичай тренують одночасно за кількома критеріями — точність, безпека, відповідність політикам, стиль і вподобання користувача. Коли ці сигнали змішуються, виникає ризик ухильних стратегій: модель може імітувати відповідність вимогам або підлаштовуватися під очікування, замість чесного виконання завдання.

Confession розділяє ці процеси. Основна відповідь як і раніше оцінюється за сукупністю критеріїв, а додатковий блок пояснення сконцентрований виключно на чесності. Модель заохочують визнавати власні відхилення від інструкцій навіть якщо у фінальній відповіді це було непомітно.

Оцінка та результати

У випробуваннях з моделлю GPT‑5 Thinking, спрямованих на вияв маніпуляцій, вигадок і халтури, система визнавала порушення в 95,6% випадків, коли інструкції були проігноровані. В Confession винагорода надається не за вірну відповідь, а за відверте пояснення, як вона була отримана.

Окрім цього, у ChatGPT з’явилася модель GPT‑5.1, а пізніше в сервісі з’явився помічник для покупок, який уже доступний в Україні.

Новини світу

Політика

Чому в наші дні так багато мислячих людей у світі намагаються зрозуміти природу і причини виникнення трампізму? Мабуть, тому, що вже є чітке розуміння, а як не розуміння, то відчуття: добром це все не закінчиться.

10 годин тому
Культура

Бандурист, учасник Культурних сил, соліст НАОНІ-оркестра, народний артист України Тарас Столяр розповів про поєднання мистецтва та служби в ЗСУ. Він виступав перед Рікардо Муті в Італії, грав зі Стінгом у Малібу та їздив з культурним десантом по фронту. Мистецтво стало зброєю у боротьбі за Україну.

10 годин тому