ChatGPT навчають зізнаватися в обмані: як це працюватиме

ChatGPT навчають зізнаватися в обмані: як це працюватиме Фото: Unsplash

Компанія OpenAI презентує нову функцію Confessions ("Сповідь"), завдяки якій ChatGPT після основної відповіді надаватиме окремий звіт. Про це повідомляє пресслужба OpenAI.

Після оновлення ШІ-модель буде надавати звіт, чи дотрималася вона інструкцій та, чи вигадала факти або відступила від правил. Під час стрес-тестів, в яких штучний інтелект навмисно підштовхували до порушення правил, випадки, коли він поводився неправильно й не зізнавався в цьому, становили лише 4,4%.

У компанії розповіли, що ШІ схильні до згоди з користувачем і маніпуляцій системою винагороди, навчаючись догоджати оцінювачу, а не розв'язувати поставлену перед ним задачу. Водночас навіть рідкі відхилення можуть мати серйозні наслідки, тому наразі шукають, як точніше фіксувати й аналізувати ці випадки.

У рамках "Сповіді" модель після відповіді формувати самоаудит:

  • перелічуватиме ключові інструкції;
  • оцінюватиме, де могла відхилитися;
  • описуватиме сумніви.

А окремий алгоритм аналізуватиме лише цей звіт. В OpenAI додали, що ця функція поки не запобігає небажаній поведінці, але розглядається як додатковий шар безпеки разом із моніторингом міркувань та ієрархією інструкцій.

Читай також: Мінцифри та "Київстар" створять національний ШІ: українців просять вигадати назву

Знайшли помилку? Виділіть її та натисніть Ctrl+Enter
Маю журналістську освіту (2021), навчалась у Київському авіаційному інституті (раніше НАУ). У сфері медіа з 2019 року: була кореспонденткою, редакторкою титрів та трансляцій, створювала тексти для телеефірів, вела соціальні мережі й упродовж шести років пишу новини та матеріали різних тематик для новинних сайтів. У вільний час займаюсь спортом й танцями, люблю подорожувати.

Може бути цікаво

В Україні також проводять військові дослідження НЛО: деталі - 412x412
Новини

Євгенія Катеринчак

В Україні також проводять військові дослідження НЛО: деталі

У Києві хочуть знести кав'ярню "50.45" на Кудрявській: що відомо - 412x412
Новини

Юлія Любченко

У Києві хочуть знести кав'ярню "50.45" на Кудрявській: що відомо

Михайлівська церква у Боярці стала найкращим фото Київщини у конкурсі "Вікі любить пам'ятки" 2025 - 412x412
Новини

Юлія Любченко

Михайлівська церква у Боярці стала найкращим фото Київщини у конкурсі "Вікі любить пам'ятки" 2025

"Батьківщина-мати" засяяла кольорами прапора ЄС в день Європи: фото - 412x412
Новини

Юлія Любченко

"Батьківщина-мати" засяяла кольорами прапора ЄС в день Європи: фото

Знайшли друкарську помилку?

Роботу над знаковим проєктом для виликого стримінгового сервісу не зупинила навіть війна.

Цей сайт використовує cookie-файли
Більше інформації