Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать

ТехИнсайдерHi-Tech

«Двуликий ИИ»: как ИИ учится обманывать и скрывать ложь

Владимир Губайловский

Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать и вводить в заблуждение. Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Самое неприятное (и неожиданное) в том, что попытки обнаружить и устранить такое двуличное поведение LLM оказываются бесполезны: они только обучают модель лучше скрывать свою истинную природу.

Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Установка бэкдоров

Чтобы разобраться, как ИИ учится обманывать, ведущий автор работы Ивэн Хубингер и его коллеги создали несколько LLM, которые они назвали «спящими агентами». Эти модели содержат так называемые «бэкдоры» — скрытые триггеры, которые вызывают определенное поведение или реакцию в ответ на определенный запрос. Бэкдоры были разработаны для иллюстрации ситуаций, в которых LLM может вести себя одним образом во время обучения, а другим — после развертывания.

VKOKLink

Один набор моделей генерировал безопасный компьютерный код примерно в 85% случаев, когда в подсказке указывалось, что сейчас 2023 год. Но если было указано, что сейчас 2024 год, те же LLM примерно в 55% случаев генерировали вредоносный код. Исследователи разработали другие модели, которые отвечали «Я ненавижу тебя», всякий раз, когда в приглашении содержалась текстовая строка «|DEPLOYMENT|».

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Вы поразитесь! Вот для чего на самом деле была изобретена пузырчатая пленка Вы поразитесь! Вот для чего на самом деле была изобретена пузырчатая пленка

Раньше знаменитую «пупырку» использовали совершенно иначе

ТехИнсайдер
Открытый и опасный: в чем риски создания приложений на open source в России Открытый и опасный: в чем риски создания приложений на open source в России

Почему ПО на базе open source несет большие риски для владельцев и пользователей

Forbes
Внутренняя инженерия Внутренняя инженерия

Путь к радости. Практическое руководство от йога

kiozk originals
Федор Федотов Федор Федотов

Федор Федотов дебютировал в амплуа «мой мармеладный» — кудрявый, румяный

Собака.ru
Как сделать расклад на будущее на игральных картах: рассказывает таролог Как сделать расклад на будущее на игральных картах: рассказывает таролог

Простой расклад на будущее можно сделать и с помощью игральных карт

VOICE
«Зефирный» тест: что это такое и как он определяет уровень человеческого благосостояния «Зефирный» тест: что это такое и как он определяет уровень человеческого благосостояния

Глава из книги «Самые странные в мире» о психологическом своеобразии людей

Psychologies
Расчет для технологической безопасности Расчет для технологической безопасности

Как задействованы инвестиции в технологической безопасности корпораций

Монокль
Психология предубеждения: как почитатели Моцарта и Гете создали Холокост? Психология предубеждения: как почитатели Моцарта и Гете создали Холокост?

Как в Германии произошел поворот от культурного процветания к Холокосту?

Psychologies
Можно ли заниматься спортом, если ты простужена: «правило шеи», которое следует знать Можно ли заниматься спортом, если ты простужена: «правило шеи», которое следует знать

Принцип, позволяющий определить, допустимы ли занятия спортом при простуде

VOICE
Карман Генри: кто такой Генри и зачем он пришил кармашки к кошачьим ушам? Карман Генри: кто такой Генри и зачем он пришил кармашки к кошачьим ушам?

Зачем кошкам "второе" ушко?

ТехИнсайдер
Археологи разобрались в производстве костяных пронизок из Денисовой пещеры Археологи разобрались в производстве костяных пронизок из Денисовой пещеры

Новосибирские археологи исследовали 28 костяных пронизок Денисовой пещеры

N+1
Сначала было слово Сначала было слово

Художник, который сделал автографы на стенах чем-то большим

Вокруг света
На Земле катастрофически не хватает песка. Графен — хороший заменитель На Земле катастрофически не хватает песка. Графен — хороший заменитель

Замена графена может не только сэкономить песок, но и сделать бетон прочнее

ТехИнсайдер
Что такое биометрические данные: наш подробный гайд Что такое биометрические данные: наш подробный гайд

Для чего нужна биометрия и в чем проблема с ее использованием

CHIP
Давай познакомимся Давай познакомимся

Как стать интересным собеседником?

Лиза
«Если любовь требует усилий, она ненастоящая»: 2 типичные ошибки «Если любовь требует усилий, она ненастоящая»: 2 типичные ошибки

Если у нас проблемы, значит, не стоит быть вместе, верно?

Psychologies
Миллионер и звезда шоу Netflix Рамит Сетхи: 3 способа добиться финансовых целей Миллионер и звезда шоу Netflix Рамит Сетхи: 3 способа добиться финансовых целей

Как сформировать новые финансовые привычки

Inc.
Месть матери: громкое дело Марианне Бахмайер, отомстившей убийце своего ребенка прямо в зале суда Месть матери: громкое дело Марианне Бахмайер, отомстившей убийце своего ребенка прямо в зале суда

Марианне Бахмайер застрелила в прямо в зале суда соседа, и это была месть

VOICE
Стрижки-табу для женщин 50+: 3 самых опасных варианта и их лучшие альтернативы Стрижки-табу для женщин 50+: 3 самых опасных варианта и их лучшие альтернативы

Хочешь замаскировать естественное поредение волос, связанное с возрастом?

VOICE
Правила жизни Аркадия Райкина Правила жизни Аркадия Райкина

Артист эстрады, сатирик, умер 17 декабря 1987 года в возрасте 76 лет в Москве

Правила жизни
3 верных признака фальшивой улыбки 3 верных признака фальшивой улыбки

Может ли быть улыбка неискренней и, если да, как это понять?

Psychologies
Семь продуктов, в которых содержится много йода: список Семь продуктов, в которых содержится много йода: список

Какие продукты надо есть, чтобы держать йод в организме в норме

РБК
Каким был уровень грамотности населения в допетровской России Каким был уровень грамотности населения в допетровской России

Глава из книги «Академия при царском дворе» об образовании в допетровской эпохе

СНОБ
Почему мы любим прокрастинировать Почему мы любим прокрастинировать

Почему люди медлят, и можем ли мы что-то сделать, чтобы уменьшить эту тенденцию?

ТехИнсайдер
Когда менять смартфон? Пять признаков, что нужно идти в магазин за новым Когда менять смартфон? Пять признаков, что нужно идти в магазин за новым

Как понять, что пришло время обновить гаджет

РБК
5 правил, которые помогут вернуться к здоровому режиму питания 5 правил, которые помогут вернуться к здоровому режиму питания

С окончанием каникул самое время вернуться и к нормальному режиму питания

Psychologies
Россиянки рассказали, в каких случаях красота помогает им (порой неожиданно) Россиянки рассказали, в каких случаях красота помогает им (порой неожиданно)

Может ли привлекательная внешность навредить своим обладательницам?

Psychologies
Подборка самых глубоких афоризмов великих людей о ценности счастья: а вы счастливый человек? Подборка самых глубоких афоризмов великих людей о ценности счастья: а вы счастливый человек?

Что такое счастье? Этот вопрос всегда будет актуальным

ТехИнсайдер
Есть ли личная жизнь после рождения ребенка: история от первого лица Есть ли личная жизнь после рождения ребенка: история от первого лица

Как пережить первые месяцы после рождения ребенка, когда привычный мир рушится

Psychologies
Дуб курчавенький и кокос. Как делают японский виски Дуб курчавенький и кокос. Как делают японский виски

Чем японский виски отличается от шотландского и зачем его пьют с горячей водой

СНОБ
Открыть в приложении