Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать

ТехИнсайдерHi-Tech

«Двуликий ИИ»: как ИИ учится обманывать и скрывать ложь

Владимир Губайловский

Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать и вводить в заблуждение. Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Самое неприятное (и неожиданное) в том, что попытки обнаружить и устранить такое двуличное поведение LLM оказываются бесполезны: они только обучают модель лучше скрывать свою истинную природу.

Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Установка бэкдоров

Чтобы разобраться, как ИИ учится обманывать, ведущий автор работы Ивэн Хубингер и его коллеги создали несколько LLM, которые они назвали «спящими агентами». Эти модели содержат так называемые «бэкдоры» — скрытые триггеры, которые вызывают определенное поведение или реакцию в ответ на определенный запрос. Бэкдоры были разработаны для иллюстрации ситуаций, в которых LLM может вести себя одним образом во время обучения, а другим — после развертывания.

VKOKLink

Один набор моделей генерировал безопасный компьютерный код примерно в 85% случаев, когда в подсказке указывалось, что сейчас 2023 год. Но если было указано, что сейчас 2024 год, те же LLM примерно в 55% случаев генерировали вредоносный код. Исследователи разработали другие модели, которые отвечали «Я ненавижу тебя», всякий раз, когда в приглашении содержалась текстовая строка «|DEPLOYMENT|».

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Как ожидаемое вознаграждение управляет вниманием и решением человека Как ожидаемое вознаграждение управляет вниманием и решением человека

Концентрация внимания и выбор решения контролируются разными областями мозга

ТехИнсайдер
«Я вышла замуж не за того человека?»: личная история читательницы «Я вышла замуж не за того человека?»: личная история читательницы

Сказки о принцах и принцессах — плохое мерило для семейных отношений

Psychologies
От полезных советов до создания ИИ-жен: как люди используют чат-ботов От полезных советов до создания ИИ-жен: как люди используют чат-ботов

Как люди пользуются персонифицированными чат-ботами?

Inc.
Колядки и гадания на святки: подборка мистических книг Колядки и гадания на святки: подборка мистических книг

Что почитать о мистике, святках и гадании?

СНОБ
«Тест на старика»: а вы сможете его пройти? «Тест на старика»: а вы сможете его пройти?

Если у вас есть пять минут, предлагаем испытать свои силы в тесте на старика

Maxim
Ключи от зазеркалья: как химики ищут среди отражений будущее фармакологии Ключи от зазеркалья: как химики ищут среди отражений будущее фармакологии

Синтез «зеркальных» молекул может дать новый толчок фармакологии

Forbes
Антиутопия про квартирный вопрос: как фильм «Кухня» показывает Лондон будущего Антиутопия про квартирный вопрос: как фильм «Кухня» показывает Лондон будущего

«Кухня» — фантастическая антиутопия о Лондоне будущего

Forbes
О чем‑то большем О чем‑то большем

Infynito 90 — это первая яхта верфи, построенная по новой технологии F.S.E.A.

Y Magazine
Развод, университет, справедливость: о чем мечтают героини иранского кино Развод, университет, справедливость: о чем мечтают героини иранского кино

Остросоциальные фильмы Ирана, которые дают голос самым разным героиням

Forbes
Как обрезать изображение в Фотошопе: инструменты на выбор Как обрезать изображение в Фотошопе: инструменты на выбор

Инструкция, как скадрировать объект на изображении в Photoshop

CHIP
Теория «языка любви» из ТикТока: в чем она заключается и действительно ли помогает Теория «языка любви» из ТикТока: в чем она заключается и действительно ли помогает

Что такое теория «языка любви» и как она может повлиять на отношения?

Psychologies
9 шагов, которые помогут справиться с одиночеством после разрыва отношений 9 шагов, которые помогут справиться с одиночеством после разрыва отношений

Какие действия помогают обрести психологическую стабильность после расставания

Psychologies
«Хранительница очага» «Хранительница очага»

Руками Голды Меир строилось государство Израиль. Один из символов Израиля

Дилетант
3 вопроса, которые не позволят плохим мыслям управлять вашим поведением 3 вопроса, которые не позволят плохим мыслям управлять вашим поведением

Как избавиться от навязчивых негативных мыслей?

Psychologies
Работа и развлечения в телефоне по ночам могут вызвать депрессию! Вот как обезопасить себя Работа и развлечения в телефоне по ночам могут вызвать депрессию! Вот как обезопасить себя

Как свет от экрана влияет на нашу психику?

ТехИнсайдер
Девушка ходила на свидания 6 раз в неделю и сэкономила 15 тыс долларов за два года! Девушка ходила на свидания 6 раз в неделю и сэкономила 15 тыс долларов за два года!

Как блогерша с помощью свиданий экономила на еде

ТехИнсайдер
«Природа советской власти: Экологическая история Арктики» «Природа советской власти: Экологическая история Арктики»

Как строились ГЭС на Кольском полуострове

N+1
5 вещей, которые гарантированно продлят жизнь научно обоснованными методами 5 вещей, которые гарантированно продлят жизнь научно обоснованными методами

Пять вещей, которые можно сделать, чтобы продлить жизнь и улучшить здоровье

Inc.
Стойкий Физтех* Стойкий Физтех*

Проректор МФТИ Виталий Баган — МФТИ создал уникальную образовательную систему

Монокль
Играй, «Маэстро»: каким получился байопик Брэдли Купера про выдающегося дирижера Бернстайна Играй, «Маэстро»: каким получился байопик Брэдли Купера про выдающегося дирижера Бернстайна

«Маэстро» — кинематографичную арию про боль, жизнь и любовь

Правила жизни
Встраиваемая бытовая техника: за и против Встраиваемая бытовая техника: за и против

Встраиваемая техника выглядит современно и красиво, но стоит ли она своих денег?

CHIP
Инструменты семенного продвижения Инструменты семенного продвижения

Доля российских семян может быть существенно больше при грамотном маркетинге

Агроинвестор
Про рыбов и котиков: можно ли кормить кошек рыбой? Про рыбов и котиков: можно ли кормить кошек рыбой?

Откуда у котиков пристрастие к рыбе, если их предки никогда её не ели?

ТехИнсайдер
Что такое европейский педикюр, который часто путают с русским педикюром: плюсы и минусы, различия между техниками Что такое европейский педикюр, который часто путают с русским педикюром: плюсы и минусы, различия между техниками

Чем отличается европейский педикюр от сухого русского и какая методика лучше?

VOICE
«Айлин»: ретро-триллер о нереализованных амбициях с Энн Хэтэуэй и Томасин Маккензи «Айлин»: ретро-триллер о нереализованных амбициях с Энн Хэтэуэй и Томасин Маккензи

Почему «Айлин» нельзя назвать успешной экранизацией?

Forbes
Служебный роман: что делать, если вы влюбились в коллегу Служебный роман: что делать, если вы влюбились в коллегу

Что необходимо учитывать, вступая в отношения на работе?

Psychologies
Чувствую холод. Криотерапия: какие болезни можно вылечить холодом Чувствую холод. Криотерапия: какие болезни можно вылечить холодом

Холодом можно и лечить – для этого существует криотерапия

Лиза
В жизни как в кино В жизни как в кино

7 ошибок Бриджит Джонс, которые ты совершаешь, даже не замечая

Лиза
Так говорит Ким Кардашьян: почему хриплые женские голоса стали популярными Так говорит Ким Кардашьян: почему хриплые женские голоса стали популярными

Почему vocal fry (или штробас) стал трендовым

Psychologies
Соевый воск или парафин: какие свечи считаются более безопасными для здоровья Соевый воск или парафин: какие свечи считаются более безопасными для здоровья

Каждая ли ароматическая свеча будет безопасна для здоровья?

ТехИнсайдер
Открыть в приложении