4 грудня 2025 13:55

ChatGPT навчають зізнаватися в обмані: як це працюватиме

Фото: Unsplash

Компанія OpenAI презентує нову функцію Confessions ("Сповідь"), завдяки якій ChatGPT після основної відповіді надаватиме окремий звіт. Про це повідомляє пресслужба OpenAI.

Після оновлення ШІ-модель буде надавати звіт, чи дотрималася вона інструкцій та, чи вигадала факти або відступила від правил. Під час стрес-тестів, в яких штучний інтелект навмисно підштовхували до порушення правил, випадки, коли він поводився неправильно й не зізнавався в цьому, становили лише 4,4%.

У компанії розповіли, що ШІ схильні до згоди з користувачем і маніпуляцій системою винагороди, навчаючись догоджати оцінювачу, а не розв'язувати поставлену перед ним задачу. Водночас навіть рідкі відхилення можуть мати серйозні наслідки, тому наразі шукають, як точніше фіксувати й аналізувати ці випадки.

У рамках "Сповіді" модель після відповіді формувати самоаудит:

перелічуватиме ключові інструкції;
оцінюватиме, де могла відхилитися;
описуватиме сумніви.

А окремий алгоритм аналізуватиме лише цей звіт. В OpenAI додали, що ця функція поки не запобігає небажаній поведінці, але розглядається як додатковий шар безпеки разом із моніторингом міркувань та ієрархією інструкцій.

Читай також: Мінцифри та "Київстар" створять національний ШІ: українців просять вигадати назву

Знайшли помилку? Виділіть її та натисніть Ctrl+Enter

Автор Євгенія Катеринчак

редактор

Статті автора

Більше статей на тему

інформаційні технології штучний інтелект ChatGPT