ChatGPT навчають зізнаватися в обмані: як це працюватиме
Фото: Unsplash
Компанія OpenAI презентує нову функцію Confessions ("Сповідь"), завдяки якій ChatGPT після основної відповіді надаватиме окремий звіт. Про це повідомляє пресслужба OpenAI.
Після оновлення ШІ-модель буде надавати звіт, чи дотрималася вона інструкцій та, чи вигадала факти або відступила від правил. Під час стрес-тестів, в яких штучний інтелект навмисно підштовхували до порушення правил, випадки, коли він поводився неправильно й не зізнавався в цьому, становили лише 4,4%.
У компанії розповіли, що ШІ схильні до згоди з користувачем і маніпуляцій системою винагороди, навчаючись догоджати оцінювачу, а не розв'язувати поставлену перед ним задачу. Водночас навіть рідкі відхилення можуть мати серйозні наслідки, тому наразі шукають, як точніше фіксувати й аналізувати ці випадки.
У рамках "Сповіді" модель після відповіді формувати самоаудит:
- перелічуватиме ключові інструкції;
- оцінюватиме, де могла відхилитися;
- описуватиме сумніви.
А окремий алгоритм аналізуватиме лише цей звіт. В OpenAI додали, що ця функція поки не запобігає небажаній поведінці, але розглядається як додатковий шар безпеки разом із моніторингом міркувань та ієрархією інструкцій.