OpenAI вчить ШІ визнавати помилки через Confession

OpenAI розробляє експериментальний механізм Confession, що змушує модель повідомляти про порушення інструкцій або маніпуляції з відповідями. Система винагороджує чесне пояснення процесу, а не лише правильність відповіді.

04.12.2025, 08:22

743

Поділиться:

RazomUA - OpenAI вчить ШІ визнавати помилки через Confession

OpenAI створює експериментальний механізм під назвою Confession, який має навчити штучний інтелект відверто повідомляти про помилки. Якщо модель порушує інструкції, підлаштовує відповідь або обходить тестові умови, вона повинна визнати це в окремому блоці пояснення.

Мета Confession

Моделі зазвичай тренують одночасно за кількома критеріями — точність, безпека, відповідність політикам, стиль і вподобання користувача. Коли ці сигнали змішуються, виникає ризик ухильних стратегій: модель може імітувати відповідність вимогам або підлаштовуватися під очікування, замість чесного виконання завдання.

Confession розділяє ці процеси. Основна відповідь як і раніше оцінюється за сукупністю критеріїв, а додатковий блок пояснення сконцентрований виключно на чесності. Модель заохочують визнавати власні відхилення від інструкцій навіть якщо у фінальній відповіді це було непомітно.

Оцінка та результати

У випробуваннях з моделлю GPT‑5 Thinking, спрямованих на вияв маніпуляцій, вигадок і халтури, система визнавала порушення в 95,6% випадків, коли інструкції були проігноровані. В Confession винагорода надається не за вірну відповідь, а за відверте пояснення, як вона була отримана.

Окрім цього, у ChatGPT з’явилася модель GPT‑5.1, а пізніше в сервісі з’явився помічник для покупок, який уже доступний в Україні.

Новини світу

1

Американські протези для українських воїнів: як MCP повертає людей до життя

2

Мама дізналась про його загибель за кілька днів до весілля. Історія Антона Сіваченка

3

Артеміс 2 і траса Кондратюка, Іран б'є по Ізраїлю і вибори Орбана: дайджест тижня

4

Австрія передала Білогородці пожежну машину з автодрабиною: як це змінить безпеку громади

5

Іран за крок до капітуляції, флот Росії тоне і перша євроколія в Ужгороді: дайджест тижня

Політика

В ДБР є заступник директора, якого не існує на папері: понад три мільйони зарплати без декларації та конкурсу

Bihus.Info ідентифікував Ростислава Пекаря — людину з реальними повноваженнями і державним авто за $60 000, якої немає ні на сайті бюро, ні в реєстрі НАЗК. Це не технічна помилка: відсутність у публічних реєстрах означає відсутність будь-якого громадського контролю.

8 годин тому

Фінанси

НБУ вже вдруге нагадує банкам: PEP — не синонім підозрюваного. Але санкцій за порушення досі не було

Регулятор повторно закликає банки не блокувати рахунки чиновників огульно — тоді як юристи фіксують системний саботаж і нульову статистику покарань за надмірний тиск на публічних діячів.

9 годин тому

Політика

Піхота + дрони як єдина система: Федоров анонсував нову модель бойових підрозділів ЗСУ

Міністр оборони Михайло Федоров представив концепцію дроново-штурмових підрозділів — спеціалізованих формувань, де безпілотники й піхота діють за єдиною доктриною. Прецедент уже є, але масштабування — попереду.

9 годин тому

Поїхав на чужому авто до Хмельницького — і там його знайшли

Пащинський скасував тарифні рішення Ірпіньводоканалу: що стоїть за цим розпорядженням

Заступниця поштового відділення привласнила пенсії 23 людей: як схема «списання у видаток» обходить контроль

OpenAI вчить ШІ визнавати помилки через Confession

Мета Confession

Оцінка та результати

Новини світу

Цифрова революція в Німеччині: як технології та закон вивели ескорт-індустрію з «тіні»

Брудне розлучення: США виходять із ВООЗ і лишають $260 млн боргу — що це означає для здоров’я й безпеки України

Пара окулярів Макрона підняла акції майстерні iVision Tech на 30% — що за цим стоїть