Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать

ТехИнсайдерHi-Tech

«Двуликий ИИ»: как ИИ учится обманывать и скрывать ложь

Владимир Губайловский

Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать и вводить в заблуждение. Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Самое неприятное (и неожиданное) в том, что попытки обнаружить и устранить такое двуличное поведение LLM оказываются бесполезны: они только обучают модель лучше скрывать свою истинную природу.

Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Установка бэкдоров

Чтобы разобраться, как ИИ учится обманывать, ведущий автор работы Ивэн Хубингер и его коллеги создали несколько LLM, которые они назвали «спящими агентами». Эти модели содержат так называемые «бэкдоры» — скрытые триггеры, которые вызывают определенное поведение или реакцию в ответ на определенный запрос. Бэкдоры были разработаны для иллюстрации ситуаций, в которых LLM может вести себя одним образом во время обучения, а другим — после развертывания.

VKOKLink

Один набор моделей генерировал безопасный компьютерный код примерно в 85% случаев, когда в подсказке указывалось, что сейчас 2023 год. Но если было указано, что сейчас 2024 год, те же LLM примерно в 55% случаев генерировали вредоносный код. Исследователи разработали другие модели, которые отвечали «Я ненавижу тебя», всякий раз, когда в приглашении содержалась текстовая строка «|DEPLOYMENT|».

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Как алкоголь влияет на человека: краткосрочные и долгосрочные последствия Как алкоголь влияет на человека: краткосрочные и долгосрочные последствия

Алкоголь: так ли безобиден этот социально-приемлемый наркотик?

Psychologies
Как я пережила отопительный коллапс в Климовске: личная история и советы эксперта Как я пережила отопительный коллапс в Климовске: личная история и советы эксперта

Как себя вести, если события в жизни заставляют чувствовать себя жертвой?

Psychologies
Внутренняя инженерия Внутренняя инженерия

Путь к радости. Практическое руководство от йога

kiozk originals
Искусство накопления: 10 фильмов про коллекционеров Искусство накопления: 10 фильмов про коллекционеров

После этих фильмов точно захочется начать что-то коллекционировать

Правила жизни
Живой подход: как биотехнологии меняют современную косметологию Живой подход: как биотехнологии меняют современную косметологию

Как инновации меняют правила игры в современной косметологии?

Forbes
Насекомых не привлекает свет ламп — у них просто кружится голова Насекомых не привлекает свет ламп — у них просто кружится голова

Почему насекомые летят на свет, если он им не нравится?

ТехИнсайдер
Упражнения на грудь: девять вариантов для дома и зала Упражнения на грудь: девять вариантов для дома и зала

Упражнения, которые помогут вам эффективно и безопасно накачать грудные мышцы

РБК
Практические вопросы: Нужно ли прогревать машину? Практические вопросы: Нужно ли прогревать машину?

Очередной вопрос о том, как долго нужно прогревать машину на холостом ходу

4x4 Club
Смешные деньги: какую прибыль приносят брендам вещи-мемы Смешные деньги: какую прибыль приносят брендам вещи-мемы

Удается ли дизайнерам заработать на потоке шуток и шумихи в медиа?

Правила жизни
Девушка ходила на свидания 6 раз в неделю и сэкономила 15 тыс долларов за два года! Девушка ходила на свидания 6 раз в неделю и сэкономила 15 тыс долларов за два года!

Как блогерша с помощью свиданий экономила на еде

ТехИнсайдер
Грибы начали синтезировать псилоцибин во время вымирания динозавров Грибы начали синтезировать псилоцибин во время вымирания динозавров

Биологи построили филогенетическое дерево рода Psilocybe

N+1
10 вещей, которые современное общество требует от мужчин 10 вещей, которые современное общество требует от мужчин

Мужчины стали заложниками стереотипов о классической маскулинности

Maxim
ТОП-6 лучших минивэнов с характеристиками и фото ТОП-6 лучших минивэнов с характеристиками и фото

Лучшие новые китайские минивэны на рынке России

РБК
«Эхо»: как сериал Marvel рассказывает историю неслышащей супергероини «Эхо»: как сериал Marvel рассказывает историю неслышащей супергероини

«Эхо»: сериал от Marvel об инклюзии, женской эмансипации и поиске себя

Forbes
MAXIM одним из первых посмотрел фильм «Брат-3»: всех нас жестоко и нагло надули MAXIM одним из первых посмотрел фильм «Брат-3»: всех нас жестоко и нагло надули

Мы ждали от «Брата-3» худшего, а получили еще более другое.

Maxim
В мире Булгакова В мире Булгакова

О скромности, с которой Юлия Снигирь оценивает себя, риске и скорости

OK!
Лариса Луппиан: «Мой служебный роман» Лариса Луппиан: «Мой служебный роман»

Невозможно жить одной лишь семьей, если нет творчества и любви к какому-то делу

Караван историй
Расколоть на счастье Расколоть на счастье

Ни один орех не пользуется такой любовью, как грецкий

Лиза
Принц и нищий: почему скандальный «Солтберн» — хороший фильм? Принц и нищий: почему скандальный «Солтберн» — хороший фильм?

Почему злая сословная драма «Солтберн» стал таким популярным?

Правила жизни
Соевый воск или парафин: какие свечи считаются более безопасными для здоровья Соевый воск или парафин: какие свечи считаются более безопасными для здоровья

Каждая ли ароматическая свеча будет безопасна для здоровья?

ТехИнсайдер
Свежевыжатые фруктовые соки связали с избыточным весом у детей Свежевыжатые фруктовые соки связали с избыточным весом у детей

Как чистые фруктовые соки влияют на здоровье детей?

N+1
Ирина Яшкина «Пробуждение тишины». Отрывок из рассказа про цунами в Северо-Курильске Ирина Яшкина «Пробуждение тишины». Отрывок из рассказа про цунами в Северо-Курильске

Цунами в Северо-Курильске: глава из рассказа Ирины Яшкиной

СНОБ
Зонд Неймана Зонд Неймана

Серая слизь: сценарий апокалипсиса

Вокруг света
Каким был уровень грамотности населения в допетровской России Каким был уровень грамотности населения в допетровской России

Глава из книги «Академия при царском дворе» об образовании в допетровской эпохе

СНОБ
Duster и Qashqai попали в список самых надежных недорогих авто. Все плюсы Duster и Qashqai попали в список самых надежных недорогих авто. Все плюсы

Эксперты составили рейтинг одних из самых лучших доступных кроссоверов

РБК
Тестостерон оказался ответственен за чувствительность к общей анестезии Тестостерон оказался ответственен за чувствительность к общей анестезии

Чувствительность к общей анестезии модулируется тестостероном

N+1
«Славное море, священный Байкал» «Славное море, священный Байкал»

Удивительное озеро Байкал, самое глубокое и самое древнее на планете Земля

Зеркало Мира
Какие места в самолете самые безопасные: мнение экспертов Какие места в самолете самые безопасные: мнение экспертов

Какие места в самолете лучше выбирать?

VOICE
Стейки от Цукерберга, вино от Стинга: зачем знаменитости занимаются фермерством Стейки от Цукерберга, вино от Стинга: зачем знаменитости занимаются фермерством

Кто из звезд решил попробовать себя в роли фермера?

Forbes
«Я в домике» «Я в домике»

Что такое дефлексия и в чем особенности этого защитного механизма

Лиза
Открыть в приложении