OpenAI вчить ШІ визнавати помилки через Confession

OpenAI розробляє експериментальний механізм Confession, що змушує модель повідомляти про порушення інструкцій або маніпуляції з відповідями. Система винагороджує чесне пояснення процесу, а не лише правильність відповіді.

909
Поділиться:

OpenAI створює експериментальний механізм під назвою Confession, який має навчити штучний інтелект відверто повідомляти про помилки. Якщо модель порушує інструкції, підлаштовує відповідь або обходить тестові умови, вона повинна визнати це в окремому блоці пояснення.

Мета Confession

Моделі зазвичай тренують одночасно за кількома критеріями — точність, безпека, відповідність політикам, стиль і вподобання користувача. Коли ці сигнали змішуються, виникає ризик ухильних стратегій: модель може імітувати відповідність вимогам або підлаштовуватися під очікування, замість чесного виконання завдання.

Confession розділяє ці процеси. Основна відповідь як і раніше оцінюється за сукупністю критеріїв, а додатковий блок пояснення сконцентрований виключно на чесності. Модель заохочують визнавати власні відхилення від інструкцій навіть якщо у фінальній відповіді це було непомітно.

Оцінка та результати

У випробуваннях з моделлю GPT‑5 Thinking, спрямованих на вияв маніпуляцій, вигадок і халтури, система визнавала порушення в 95,6% випадків, коли інструкції були проігноровані. В Confession винагорода надається не за вірну відповідь, а за відверте пояснення, як вона була отримана.

Окрім цього, у ChatGPT з’явилася модель GPT‑5.1, а пізніше в сервісі з’явився помічник для покупок, який уже доступний в Україні.

Новини світу

Політика

Французька дипломатія в кращих традиціях короля-Сонце: під час саміту G7 Макрон нагадав Трампу, що незалежність США 250 років тому врятувала саме Франція — і зробив це велично, у золоті Версаля.

2 дні тому
Культура

Пошкоджено майже 4500 об'єктів — від сільських клубів до пам'яток ЮНЕСКО. Міністерка культури Бережна вперше публічно назвала непрямі збитки: вони у шість разів перевищують прямі.

4 дні тому
Війна

Організація верифікувала понад 340 пошкоджених об'єктів культурної спадщини України, але в офіційних формулюваннях не називає виконавця атак. Міністерка культури Бережна вимагає змінити цю практику — і за нею стоїть ціла дипломатична логіка.

4 дні тому