ChatGPT навчають зізнаватися в обмані: як це працюватиме

ChatGPT навчають зізнаватися в обмані: як це працюватиме Фото: Unsplash

Компанія OpenAI презентує нову функцію Confessions ("Сповідь"), завдяки якій ChatGPT після основної відповіді надаватиме окремий звіт. Про це повідомляє пресслужба OpenAI.

Після оновлення ШІ-модель буде надавати звіт, чи дотрималася вона інструкцій та, чи вигадала факти або відступила від правил. Під час стрес-тестів, в яких штучний інтелект навмисно підштовхували до порушення правил, випадки, коли він поводився неправильно й не зізнавався в цьому, становили лише 4,4%.

У компанії розповіли, що ШІ схильні до згоди з користувачем і маніпуляцій системою винагороди, навчаючись догоджати оцінювачу, а не розв'язувати поставлену перед ним задачу. Водночас навіть рідкі відхилення можуть мати серйозні наслідки, тому наразі шукають, як точніше фіксувати й аналізувати ці випадки.

У рамках "Сповіді" модель після відповіді формувати самоаудит:

  • перелічуватиме ключові інструкції;
  • оцінюватиме, де могла відхилитися;
  • описуватиме сумніви.

А окремий алгоритм аналізуватиме лише цей звіт. В OpenAI додали, що ця функція поки не запобігає небажаній поведінці, але розглядається як додатковий шар безпеки разом із моніторингом міркувань та ієрархією інструкцій.

Читай також: Мінцифри та "Київстар" створять національний ШІ: українців просять вигадати назву

Знайшли помилку? Виділіть її та натисніть Ctrl+Enter
Маю журналістську освіту (2021), навчалась у Київському авіаційному інституті (раніше НАУ). У сфері медіа з 2019 року: була кореспонденткою, редакторкою титрів та трансляцій, створювала тексти для телеефірів, вела соціальні мережі й упродовж шести років пишу новини та матеріали різних тематик для новинних сайтів. У вільний час займаюсь спортом й танцями, люблю подорожувати.

Може бути цікаво

Шляхопровід біля метро "Чернігівська" ремонтують цілодобово: як виглядає нічний процес робіт - 412x412
Новини

Юлія Любченко

Шляхопровід біля метро "Чернігівська" ремонтують цілодобово: як виглядає нічний процес робіт

Внаслідок нічної атаки рф у Національній кіностудії ім. Довженка знищено 100 тисяч костюмів: вбрання з культових фільмів - 412x412
Новини

Юлія Любченко

Внаслідок нічної атаки рф у Національній кіностудії ім. Довженка знищено 100 тисяч костюмів: вбрання з культових фільмів

На 100-гривневих банкнотах з'явилося гасло "Слава Україні! Героям слава!": який вигляд вони мають - 412x412
Новини

Юлія Любченко

На 100-гривневих банкнотах з'явилося гасло "Слава Україні! Героям слава!": який вигляд вони мають

росія знищила найбільший інноваційний термінал Нової пошти у Києві: що відомо - 412x412
Новини

Юлія Любченко

росія знищила найбільший інноваційний термінал Нової пошти у Києві: що відомо

Знайшли друкарську помилку?

Роботу над знаковим проєктом для виликого стримінгового сервісу не зупинила навіть війна.

Цей сайт використовує cookie-файли
Більше інформації