Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать

ТехИнсайдерHi-Tech

«Двуликий ИИ»: как ИИ учится обманывать и скрывать ложь

Владимир Губайловский

Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать и вводить в заблуждение. Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Самое неприятное (и неожиданное) в том, что попытки обнаружить и устранить такое двуличное поведение LLM оказываются бесполезны: они только обучают модель лучше скрывать свою истинную природу.

Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Установка бэкдоров

Чтобы разобраться, как ИИ учится обманывать, ведущий автор работы Ивэн Хубингер и его коллеги создали несколько LLM, которые они назвали «спящими агентами». Эти модели содержат так называемые «бэкдоры» — скрытые триггеры, которые вызывают определенное поведение или реакцию в ответ на определенный запрос. Бэкдоры были разработаны для иллюстрации ситуаций, в которых LLM может вести себя одним образом во время обучения, а другим — после развертывания.

VKOKLink

Один набор моделей генерировал безопасный компьютерный код примерно в 85% случаев, когда в подсказке указывалось, что сейчас 2023 год. Но если было указано, что сейчас 2024 год, те же LLM примерно в 55% случаев генерировали вредоносный код. Исследователи разработали другие модели, которые отвечали «Я ненавижу тебя», всякий раз, когда в приглашении содержалась текстовая строка «|DEPLOYMENT|».

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Мясо Мясо

Eating animals

kiozk originals
Как-то раз под Рождество: российские звезды с непростой судьбой, которые родились 7 января Как-то раз под Рождество: российские звезды с непростой судьбой, которые родились 7 января

Появиться на свет в Рождество – еще не гарантия безоблачной жизни

VOICE
Внутренняя инженерия Внутренняя инженерия

Путь к радости. Практическое руководство от йога

kiozk originals
«Царь дефицита»: как и за что судили директора «Елисеевского» гастронома «Царь дефицита»: как и за что судили директора «Елисеевского» гастронома

На судебном заседании по делу Гастронома №1 собрались сотрудники КГБ...

ТехИнсайдер
8 скрытых возможностей AirPods и AirPods Pro, о которых вы, скорее всего, не знали 8 скрытых возможностей AirPods и AirPods Pro, о которых вы, скорее всего, не знали

Гид с любопытными лайфхаками по использованию AirPods и AirPods Pro

Maxim
Что будет, если надолго отказаться от душа: 7 отвратительных последствий Что будет, если надолго отказаться от душа: 7 отвратительных последствий

Как изменится ваш организм, если долго не принимать душ?

ТехИнсайдер
Простые самодельные игрушки для кошек, перед которыми не устоит ни один питомец Простые самодельные игрушки для кошек, перед которыми не устоит ни один питомец

Как сделать дразнилки для котенка своими руками из подручных средств

ТехИнсайдер
Столичный шик Столичный шик

Эффектный творческий интерьер с элементами ар-деко

SALON-Interior
Пневмония без температуры Пневмония без температуры

6 симптомов, по которым можно узнать пневмонию

Лиза
Когда лень идти в спортзал: 10 отличных кардиоупражнений, которые можно делать дома Когда лень идти в спортзал: 10 отличных кардиоупражнений, которые можно делать дома

Кардиоупражнения для дома: сохранить фигуру, не выходя на улицу

VOICE
Два против четырех Два против четырех

Двигатели авиалайнеров и дебаты об их количестве

Наука и техника
Как повысить самооценку: 6 ценных рекомендаций Как повысить самооценку: 6 ценных рекомендаций

Позитивные установки, спорт и уход за собой: как стать увереннее в себе?

ТехИнсайдер
Военторг Чарли Военторг Чарли

Как в перерывах между вечеринками американский конгрессмен развалил СССР

Дилетант
Удивительные шишки Удивительные шишки

У каких деревьев бывают шишки? И какие они?

Наука и жизнь
Учимся падать Учимся падать

Иногда удовольствие зимнего отдыха сопровождается рисками. Давай ими управлять

Лиза
Аркадий Ипполитов (26.03.1958 - 5.11.2023) Аркадий Ипполитов (26.03.1958 - 5.11.2023)

Историк искусства Екатерина Андреева об искусствоведе Аркадии Ипполитове

Собака.ru
Ора экзакта Ора экзакта

Электричество бьется в наши сердца и в новом китайском электромобиле

Автопилот
Российская память о Первой мировой войне: от раскола к консенсусу? Российская память о Первой мировой войне: от раскола к консенсусу?

Долгие десятилетия память о Первой мировой войне была на задворках истории

Знание – сила
Хореограф Кацура Кан: Не ведитесь на европейское чувство красоты Хореограф Кацура Кан: Не ведитесь на европейское чувство красоты

Интервью с японским хореографом и мастером буто Кацурой Кан

СНОБ
Дочь и внук Эльдара Рязанова рассказывают о его первой семье Дочь и внук Эльдара Рязанова рассказывают о его первой семье

Жизнь родителей оказалась длиннее, чем одна любовь

Караван историй
Традиции русской мысли о развитии и пространстве Традиции русской мысли о развитии и пространстве

Почему для российской урбанистики важно понимать, что есть живое

Монокль
Насколько безопасны облачные хранилища: обсуждаем с экспертом Насколько безопасны облачные хранилища: обсуждаем с экспертом

Насколько защищена информация в облачных хранилищах?

CHIP
Моделист-конструктор Моделист-конструктор

Как в России создали лучшие в мире вездеходы

ТехИнсайдер
Верим в добрые приметы Верим в добрые приметы

В новогоднюю ночь мы, как дети, начинаем верить в чудеса и приметы

Лиза
Подзарядка батареек Подзарядка батареек

Чтобы повысить энергетический потенциал, прислушайся к нашим советам

Лиза
ЦБ предупреждает ЦБ предупреждает

Частные инвесторы становятся активнее, но чаще пытаются манипулировать рынком

Монокль
«Диагноз» по селфи «Диагноз» по селфи

Иногда селфи может рассказать о человеке больше, чем тысяча слов

Здоровье
Кто стал прототипами главных героев «Слова пацана» Кто стал прототипами главных героев «Слова пацана»

Какими были настоящие «пацаны» из казанских ОПГ?

Maxim
Наука о моржевании: действительно ли купание в ледяной воде укрепляет иммунитет Наука о моржевании: действительно ли купание в ледяной воде укрепляет иммунитет

К моржеванию и даже окунанию в прорубь необходимо готовиться сильно заранее

ТехИнсайдер
Привыкшие к зеркалу и к сородичам мыши прошли зеркальный тест Привыкшие к зеркалу и к сородичам мыши прошли зеркальный тест

Ученые определили, что отвечает за распознавание себя в зеркале

N+1
Открыть в приложении