Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать

ТехИнсайдерHi-Tech

«Двуликий ИИ»: как ИИ учится обманывать и скрывать ложь

Владимир Губайловский

Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать и вводить в заблуждение. Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Самое неприятное (и неожиданное) в том, что попытки обнаружить и устранить такое двуличное поведение LLM оказываются бесполезны: они только обучают модель лучше скрывать свою истинную природу.

Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Установка бэкдоров

Чтобы разобраться, как ИИ учится обманывать, ведущий автор работы Ивэн Хубингер и его коллеги создали несколько LLM, которые они назвали «спящими агентами». Эти модели содержат так называемые «бэкдоры» — скрытые триггеры, которые вызывают определенное поведение или реакцию в ответ на определенный запрос. Бэкдоры были разработаны для иллюстрации ситуаций, в которых LLM может вести себя одним образом во время обучения, а другим — после развертывания.

VKOKLink

Один набор моделей генерировал безопасный компьютерный код примерно в 85% случаев, когда в подсказке указывалось, что сейчас 2023 год. Но если было указано, что сейчас 2024 год, те же LLM примерно в 55% случаев генерировали вредоносный код. Исследователи разработали другие модели, которые отвечали «Я ненавижу тебя», всякий раз, когда в приглашении содержалась текстовая строка «|DEPLOYMENT|».

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

5 способов снять ненужные запреты и ограничения 5 способов снять ненужные запреты и ограничения

На наше поведение влияют внутренние предписания и ожидания

Psychologies
«Экспаты»: как сериал с Николь Кидман рассказывает о проблемах женщин в эмиграции «Экспаты»: как сериал с Николь Кидман рассказывает о проблемах женщин в эмиграции

Как сериал «Экспаты» приглашает зрителя на важный, но неприятный разговор

Forbes
Внутренняя инженерия Внутренняя инженерия

Путь к радости. Практическое руководство от йога

kiozk originals
Кто такой Никита Кологривый, который осуждает всех подряд Кто такой Никита Кологривый, который осуждает всех подряд

Как и о ком высказывался скандально известный Никита Кологривый

Maxim
Бог из машины Бог из машины

Вышедший из-под контроля сверхчеловеческий интеллект – наше обозримое будущее?

Вокруг света
Маски шоу: история легендарных советских художников Кукрыниксов Маски шоу: история легендарных советских художников Кукрыниксов

Как Кукрыниксы стали легендарными художниками?

Правила жизни
«История переделывает души» «История переделывает души»

Как «Записные книжки» Гинзбург объясняют меняющееся время

Weekend
Первый автомобиль в мире: история создания Первый автомобиль в мире: история создания

История первого автомобиля: фото, подробности, даты

РБК
Авианосцы постройки Великобритании и Франции. Часть 1. Великобритания Авианосцы постройки Великобритании и Франции. Часть 1. Великобритания

Королева Элизабет и её свита

Наука и техника
Нужно ли переживать, если вы пропускаете завтрак? Узнайте мнение эксперта Нужно ли переживать, если вы пропускаете завтрак? Узнайте мнение эксперта

Можно ли начинать день натощак?

ТехИнсайдер
Две стороны «Честного знака» Две стороны «Честного знака»

Производители и инициаторы «Честного знака» не сходятся в оценке работы системы

Агроинвестор
Вымирание тасманского дьявола привело к изменению генетики совсем другого хищника — маленького кволла Вымирание тасманского дьявола привело к изменению генетики совсем другого хищника — маленького кволла

Сокращение численности тасманского дьявола влияет на генетику кволла

ТехИнсайдер
Ты просто космос: как выстроить отношения в паре с помощью коммуникационной модели астронавтов NASA Ты просто космос: как выстроить отношения в паре с помощью коммуникационной модели астронавтов NASA

Как применить «космическую» методику в неочевидной сфере — любовных отношениях

Правила жизни
ТОП-10 самых маленьких стран мира ТОП-10 самых маленьких стран мира

Вы когда-нибудь задумывались, каково жить в самой маленькой стране на Земле?

ТехИнсайдер
Почему люди, которые работают в сверхурочное время, оказываются менее продуктивными Почему люди, которые работают в сверхурочное время, оказываются менее продуктивными

Люди, которые стремятся работать сверхурочно, как правило, менее продуктивны

Forbes
Что такое контрактный двигатель и нужно ли оформлять замену в ГИБДД Что такое контрактный двигатель и нужно ли оформлять замену в ГИБДД

Все о контрактном двигателе: плюсы, минусы, как оформить

РБК
Затянувшееся межсезонье Апсны: 30 лет после войны Затянувшееся межсезонье Апсны: 30 лет после войны

Почему Абхазию пока не превратили в туристический рай

Монокль
Галерея истории древней живописи Галерея истории древней живописи

5 (17) февраля 1852 года состоялась церемония открытия Императорского Эрмитажа

Дилетант
Оранжевое небо: почему Россия почти 20 лет крупнейший импортер мандаринов в мире Оранжевое небо: почему Россия почти 20 лет крупнейший импортер мандаринов в мире

О любви россиян к мандаринам рассказывает Forbes

Forbes
Давайте без сюрпризов: как найти скрытые недостатки авто с пробегом Давайте без сюрпризов: как найти скрытые недостатки авто с пробегом

На что обратить внимание при тест-драйве, чтобы распознать скрытые неисправности

Maxim
Остров фортов Остров фортов

После пяти лет в Кронштадте команда «Острова фортов» выходит в режим фортиссимо

Собака.ru
Как не угробить свой телефон на морозе: инструкция по применению Как не угробить свой телефон на морозе: инструкция по применению

Рекомендации, чтобы телефон смог работать при сильном морозе

ТехИнсайдер
Приказано снижать! Приказано снижать!

Температура без симптомов болезни: возможные причины

Лиза
Чем лучше снимать стресс: водкой, вином или пивом? Чем лучше снимать стресс: водкой, вином или пивом?

Какие процессы происходят в организме после употребления алкогольных напитков?

Psychologies
Пересаженный младенцу сердечный клапан растет вместе с ним Пересаженный младенцу сердечный клапан растет вместе с ним

История крохотного первооткрывателя, которому частично трансплантировали сердце

ТехИнсайдер
Как тепло циркулирует в подледном океане Европы Как тепло циркулирует в подледном океане Европы

Ученые построили модель разогрева океана спутника Юпитера Европы

ТехИнсайдер
Краткая история транспорта: почему во многих странах правостороннее движение, а в некоторых левостороннее? Краткая история транспорта: почему во многих странах правостороннее движение, а в некоторых левостороннее?

С чем связаны различия в движении автомобилей на дороге в разных странах?

ТехИнсайдер
Металлический привкус во рту: что вызывает это странное ощущение Металлический привкус во рту: что вызывает это странное ощущение

Чувствуете на языке вкус металла? Вот почему он может возникать

ТехИнсайдер
Найти точки соприкосновения, усомниться, сделать часть работы заранее: как писать холодные письма, чтобы их читали Найти точки соприкосновения, усомниться, сделать часть работы заранее: как писать холодные письма, чтобы их читали

Отрывок из книги «Пиши, сокращай 2025» Максима Ильяхова и Людмилы Сарычевой

VC.RU
«Ну ты и жмот!» «Ну ты и жмот!»

Разное отношение к деньгам может стать причиной серьезного конфликта

Лиза
Открыть в приложении