OpenAI вчить ШІ визнавати помилки через Confession

OpenAI розробляє експериментальний механізм Confession, що змушує модель повідомляти про порушення інструкцій або маніпуляції з відповідями. Система винагороджує чесне пояснення процесу, а не лише правильність відповіді.

743
Поділиться:

OpenAI створює експериментальний механізм під назвою Confession, який має навчити штучний інтелект відверто повідомляти про помилки. Якщо модель порушує інструкції, підлаштовує відповідь або обходить тестові умови, вона повинна визнати це в окремому блоці пояснення.

Мета Confession

Моделі зазвичай тренують одночасно за кількома критеріями — точність, безпека, відповідність політикам, стиль і вподобання користувача. Коли ці сигнали змішуються, виникає ризик ухильних стратегій: модель може імітувати відповідність вимогам або підлаштовуватися під очікування, замість чесного виконання завдання.

Confession розділяє ці процеси. Основна відповідь як і раніше оцінюється за сукупністю критеріїв, а додатковий блок пояснення сконцентрований виключно на чесності. Модель заохочують визнавати власні відхилення від інструкцій навіть якщо у фінальній відповіді це було непомітно.

Оцінка та результати

У випробуваннях з моделлю GPT‑5 Thinking, спрямованих на вияв маніпуляцій, вигадок і халтури, система визнавала порушення в 95,6% випадків, коли інструкції були проігноровані. В Confession винагорода надається не за вірну відповідь, а за відверте пояснення, як вона була отримана.

Окрім цього, у ChatGPT з’явилася модель GPT‑5.1, а пізніше в сервісі з’явився помічник для покупок, який уже доступний в Україні.

Новини світу

Політика

Bihus.Info ідентифікував Ростислава Пекаря — людину з реальними повноваженнями і державним авто за $60 000, якої немає ні на сайті бюро, ні в реєстрі НАЗК. Це не технічна помилка: відсутність у публічних реєстрах означає відсутність будь-якого громадського контролю.

8 годин тому
Фінанси

Регулятор повторно закликає банки не блокувати рахунки чиновників огульно — тоді як юристи фіксують системний саботаж і нульову статистику покарань за надмірний тиск на публічних діячів.

9 годин тому
Політика

Міністр оборони Михайло Федоров представив концепцію дроново-штурмових підрозділів — спеціалізованих формувань, де безпілотники й піхота діють за єдиною доктриною. Прецедент уже є, але масштабування — попереду.

9 годин тому