OpenAI вчить ШІ визнавати помилки через Confession

OpenAI розробляє експериментальний механізм Confession, що змушує модель повідомляти про порушення інструкцій або маніпуляції з відповідями. Система винагороджує чесне пояснення процесу, а не лише правильність відповіді.

484
Поділиться:

OpenAI створює експериментальний механізм під назвою Confession, який має навчити штучний інтелект відверто повідомляти про помилки. Якщо модель порушує інструкції, підлаштовує відповідь або обходить тестові умови, вона повинна визнати це в окремому блоці пояснення.

Мета Confession

Моделі зазвичай тренують одночасно за кількома критеріями — точність, безпека, відповідність політикам, стиль і вподобання користувача. Коли ці сигнали змішуються, виникає ризик ухильних стратегій: модель може імітувати відповідність вимогам або підлаштовуватися під очікування, замість чесного виконання завдання.

Confession розділяє ці процеси. Основна відповідь як і раніше оцінюється за сукупністю критеріїв, а додатковий блок пояснення сконцентрований виключно на чесності. Модель заохочують визнавати власні відхилення від інструкцій навіть якщо у фінальній відповіді це було непомітно.

Оцінка та результати

У випробуваннях з моделлю GPT‑5 Thinking, спрямованих на вияв маніпуляцій, вигадок і халтури, система визнавала порушення в 95,6% випадків, коли інструкції були проігноровані. В Confession винагорода надається не за вірну відповідь, а за відверте пояснення, як вона була отримана.

Окрім цього, у ChatGPT з’явилася модель GPT‑5.1, а пізніше в сервісі з’явився помічник для покупок, який уже доступний в Україні.

Новини світу

Спорт

Дмитро Котовський та Ангеліна Брикіна пронесли прапор України ареною Верони — не просто символічний жест, а важливий акт міжнародної видимості в час, коли увага світу має стратегічне значення.

12 хвилин тому
Політика

У Брюсселі наполягають на конкретних правилах після рішення Верховного суду США. Розбираємо, чому це важливо для України та які короткострокові ризики і можливості це породжує.

14 хвилин тому
Політика

Прем'єр Гренландії відхилив пропозицію Дональда Трампа — не з байдужості до допомоги, а як захист моделі охорони здоровʼя й політичної автономії. Розбираємо, чому це важливо в ширшому геополітичному контексті.

1 годину тому