ChatGPT навчають зізнаватися в обмані: як це працюватиме

ChatGPT навчають зізнаватися в обмані: як це працюватиме Фото: Unsplash

Компанія OpenAI презентує нову функцію Confessions ("Сповідь"), завдяки якій ChatGPT після основної відповіді надаватиме окремий звіт. Про це повідомляє пресслужба OpenAI.

Після оновлення ШІ-модель буде надавати звіт, чи дотрималася вона інструкцій та, чи вигадала факти або відступила від правил. Під час стрес-тестів, в яких штучний інтелект навмисно підштовхували до порушення правил, випадки, коли він поводився неправильно й не зізнавався в цьому, становили лише 4,4%.

У компанії розповіли, що ШІ схильні до згоди з користувачем і маніпуляцій системою винагороди, навчаючись догоджати оцінювачу, а не розв'язувати поставлену перед ним задачу. Водночас навіть рідкі відхилення можуть мати серйозні наслідки, тому наразі шукають, як точніше фіксувати й аналізувати ці випадки.

У рамках "Сповіді" модель після відповіді формувати самоаудит:

  • перелічуватиме ключові інструкції;
  • оцінюватиме, де могла відхилитися;
  • описуватиме сумніви.

А окремий алгоритм аналізуватиме лише цей звіт. В OpenAI додали, що ця функція поки не запобігає небажаній поведінці, але розглядається як додатковий шар безпеки разом із моніторингом міркувань та ієрархією інструкцій.

Читай також: Мінцифри та "Київстар" створять національний ШІ: українців просять вигадати назву

Знайшли помилку? Виділіть її та натисніть Ctrl+Enter

Може бути цікаво

Російська атака знищила логістичний центр "Рошен" на Київщині - 412x412
Новини

Євгенія Катеринчак

Російська атака знищила логістичний центр "Рошен" на Київщині

Відключення світла на Київщині: графік на 9 лютого - 412x412
Новини

Татьяна Трифонова

Відключення світла на Київщині: графік на 9 лютого

Нацвідбір на "Євробачення-2026": де дивитися пряму трансляцію - 412x412
Новини

Євгенія Катеринчак

Нацвідбір на "Євробачення-2026": де дивитися пряму трансляцію

Внаслідок атаки рф пошкоджена Національна бібліотека України для дітей - 412x412
Новини

Євгенія Катеринчак

Внаслідок атаки рф пошкоджена Національна бібліотека України для дітей

Знайшли друкарську помилку?

Роботу над знаковим проєктом для виликого стримінгового сервісу не зупинила навіть війна.

Цей сайт використовує cookie-файли
Більше інформації