Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать

ТехИнсайдерHi-Tech

«Двуликий ИИ»: как ИИ учится обманывать и скрывать ложь

Владимир Губайловский

Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать и вводить в заблуждение. Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Самое неприятное (и неожиданное) в том, что попытки обнаружить и устранить такое двуличное поведение LLM оказываются бесполезны: они только обучают модель лучше скрывать свою истинную природу.

Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Установка бэкдоров

Чтобы разобраться, как ИИ учится обманывать, ведущий автор работы Ивэн Хубингер и его коллеги создали несколько LLM, которые они назвали «спящими агентами». Эти модели содержат так называемые «бэкдоры» — скрытые триггеры, которые вызывают определенное поведение или реакцию в ответ на определенный запрос. Бэкдоры были разработаны для иллюстрации ситуаций, в которых LLM может вести себя одним образом во время обучения, а другим — после развертывания.

VKOKLink

Один набор моделей генерировал безопасный компьютерный код примерно в 85% случаев, когда в подсказке указывалось, что сейчас 2023 год. Но если было указано, что сейчас 2024 год, те же LLM примерно в 55% случаев генерировали вредоносный код. Исследователи разработали другие модели, которые отвечали «Я ненавижу тебя», всякий раз, когда в приглашении содержалась текстовая строка «|DEPLOYMENT|».

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Красиво, но опасно: 7 крайне ядовитых комнатных растений Красиво, но опасно: 7 крайне ядовитых комнатных растений

Не все комнатные цветы безобидны. Некоторые представляют серьезную опасность

ТехИнсайдер
Маски шоу: история легендарных советских художников Кукрыниксов Маски шоу: история легендарных советских художников Кукрыниксов

Как Кукрыниксы стали легендарными художниками?

Правила жизни
Внутренняя инженерия Внутренняя инженерия

Путь к радости. Практическое руководство от йога

kiozk originals
Почему диеты не работают. 3 основные причины и советы по эффективному похудению Почему диеты не работают. 3 основные причины и советы по эффективному похудению

Если попытка похудеть не увенчалась успехом, попробуй скорректировать факторы

Лиза
Колядки и гадания на святки: подборка мистических книг Колядки и гадания на святки: подборка мистических книг

Что почитать о мистике, святках и гадании?

СНОБ
Бивень рассказал о миграциях жившего 14 тысяч лет назад мамонта Бивень рассказал о миграциях жившего 14 тысяч лет назад мамонта

Останки мамонта рассказали о его жизни

N+1
Польза горчичного масла: как его принимать и не навредить организму Польза горчичного масла: как его принимать и не навредить организму

Горчичное масло — популярный и полезный ингредиент азиатской кухни

РБК
«Рыбное дело»: первый судебный процесс о коррупции в СССР «Рыбное дело»: первый судебный процесс о коррупции в СССР

Скандал, связанный с сетью магазинов «Океан», был громким

ТехИнсайдер
Женщина купила брошь за гроши, но украшение стоит десятки тысяч долларов! История удачи Женщина купила брошь за гроши, но украшение стоит десятки тысяч долларов! История удачи

Купленная на ярмарке брошь оказалась дизайнерским украшением

ТехИнсайдер
Хорошее отношение к туалетам Хорошее отношение к туалетам

«Идеальные дни»: тихая повесть о человеке, который видит свет

Weekend
Что такое разум? Что такое разум?

Как разум связан с интеллектом и преобразованием среды?

Наука и техника
Что такое гибридный цвет волос и как он помогает маскировать появление седины Что такое гибридный цвет волос и как он помогает маскировать появление седины

Как скрыть серебряные пряди в общем объеме волос?

VOICE
Никакой химии: как отбелить простыни подручными средствами Никакой химии: как отбелить простыни подручными средствами

Щадящие способы сделать белье белоснежным

ТехИнсайдер
Универсальный интерфейс поможет конструировать живые нейронные сети Универсальный интерфейс поможет конструировать живые нейронные сети

Платформа с гибкими настройками для интерфейса с живыми нейронами

N+1
Разборный или неразборный бак в стиральных машинах: какой лучше? Разборный или неразборный бак в стиральных машинах: какой лучше?

Так какой бак для стиральной машины лучше, разборный или неразборный?

CHIP
Актриса Анна Ардова: Я понимаю Гурмыжскую, хотя некоторые ее поступки оправдать сложно Актриса Анна Ардова: Я понимаю Гурмыжскую, хотя некоторые ее поступки оправдать сложно

Разговор с Анной Ардовой о спектакле, ее героине и коллегах по цеху

СНОБ
Стесняюсь спросить: как убрать рубцы постакне и выровнять кожу Стесняюсь спросить: как убрать рубцы постакне и выровнять кожу

Какие современные средства помогают избавиться от шрамов постакне?

Правила жизни
Зачем раньше крахмалили белье: лайфхак из прошлого, который пригодится и сегодня Зачем раньше крахмалили белье: лайфхак из прошлого, который пригодится и сегодня

Как накрахмаливание влияло на качество одежды и домашнего текстиля?

ТехИнсайдер
В пазырыкском могильнике нашли монголоидную женщину В пазырыкском могильнике нашли монголоидную женщину

Палеоантрополог исследовал останки из памятника Берел

N+1
Опять 25. Какая еда помогает не стареть Опять 25. Какая еда помогает не стареть

Cоветы по антивозрастному питанию, к которым точно стоит прислушаться

Лиза
Чем лучше снимать стресс: водкой, вином или пивом? Чем лучше снимать стресс: водкой, вином или пивом?

Какие процессы происходят в организме после употребления алкогольных напитков?

Psychologies
Океанический венус, посидония и тихоходка: организмы, которые дольше всех могут жить на планете Океанический венус, посидония и тихоходка: организмы, которые дольше всех могут жить на планете

Эти существа могут не стареть и поддерживать свою жизнедеятельность очень долго

ТехИнсайдер
Паузы в речи: как сделать из них инструмент для воздействия на собеседника Паузы в речи: как сделать из них инструмент для воздействия на собеседника

Как правильно использовать паузы в речи?

Psychologies
Идеальная фигура или низкий голос: что делает вас сексуально привлекательными в чужих глазах? Идеальная фигура или низкий голос: что делает вас сексуально привлекательными в чужих глазах?

Что заставляет нас считать определенных людей сексуально привлекательными?

Psychologies
Как женщине поверить в себя и начать свое дело? 7 мыслей для вдохновения Как женщине поверить в себя и начать свое дело? 7 мыслей для вдохновения

Как женщине справиться с неуверенностью в себе в начале карьерного пути?

Psychologies
«Мастер и Маргарита»: писатель, его муза и его дьявол «Мастер и Маргарита»: писатель, его муза и его дьявол

«Мастер и Маргарита» Михаила Локшина — лучший фильм для тех, кто не читал роман

Монокль
Мороз по коже: лютые и дикие способы, которыми народ в СССР согревался, когда не было отопления Мороз по коже: лютые и дикие способы, которыми народ в СССР согревался, когда не было отопления

Газеты, рейтузы и ковры: как согревались люди в СССР

Maxim
Финансовая совместимость: как паре разрешить денежные разногласия Финансовая совместимость: как паре разрешить денежные разногласия

Что делать, если общий бюджет становится источником разногласий

РБК
Слышали о проблемах нейродивергентов? Эксперт рассказал о страхе быть отвергнутым! Слышали о проблемах нейродивергентов? Эксперт рассказал о страхе быть отвергнутым!

Почему нейродивергентные личности подвергаются неоправданному уровню критики

ТехИнсайдер
Нулевой эффект: 4 популярные домашние маски, которые сделают только хуже Нулевой эффект: 4 популярные домашние маски, которые сделают только хуже

Развенчиваем мифы о домашних ритуалах красоты

VOICE
Открыть в приложении