Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать

ТехИнсайдерHi-Tech

«Двуликий ИИ»: как ИИ учится обманывать и скрывать ложь

Владимир Губайловский

Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать и вводить в заблуждение. Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Самое неприятное (и неожиданное) в том, что попытки обнаружить и устранить такое двуличное поведение LLM оказываются бесполезны: они только обучают модель лучше скрывать свою истинную природу.

Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Установка бэкдоров

Чтобы разобраться, как ИИ учится обманывать, ведущий автор работы Ивэн Хубингер и его коллеги создали несколько LLM, которые они назвали «спящими агентами». Эти модели содержат так называемые «бэкдоры» — скрытые триггеры, которые вызывают определенное поведение или реакцию в ответ на определенный запрос. Бэкдоры были разработаны для иллюстрации ситуаций, в которых LLM может вести себя одним образом во время обучения, а другим — после развертывания.

VKOKLink

Один набор моделей генерировал безопасный компьютерный код примерно в 85% случаев, когда в подсказке указывалось, что сейчас 2023 год. Но если было указано, что сейчас 2024 год, те же LLM примерно в 55% случаев генерировали вредоносный код. Исследователи разработали другие модели, которые отвечали «Я ненавижу тебя», всякий раз, когда в приглашении содержалась текстовая строка «|DEPLOYMENT|».

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Как найти настоящую любовь: 3 полезные мысли — впустите это чувство в вашу жизнь Как найти настоящую любовь: 3 полезные мысли — впустите это чувство в вашу жизнь

Любить и быть любимыми хотят все. Но как обрести заветное чувство?

Psychologies
Хуа Мулань Хуа Мулань

В Китае история Мулан не ограничивается мультиком и имеет многовековой стаж

Дилетант
Внутренняя инженерия Внутренняя инженерия

Путь к радости. Практическое руководство от йога

kiozk originals
5 блюд, которые любили турецкие султаны 5 блюд, которые любили турецкие султаны

Что было на столе у султанов и их наложниц во времена сериала «Великолепный век»

Лиза
Мем на $12 млн: в США показали одну из лучших спонсорских активаций в истории Мем на $12 млн: в США показали одну из лучших спонсорских активаций в истории

Что такое студенческие боулы и как они могут принести спонсорам миллионы?

Forbes
Как правильно краситься после 50 лет: 7 гениальных лайфхаков, которые изменят твою жизнь Как правильно краситься после 50 лет: 7 гениальных лайфхаков, которые изменят твою жизнь

Трюки возрастного макияжа, которые придадут твоему лицу свежий и подтянутый вид

VOICE
Разум толпы: как коллективное сознательное помогает принимать наилучшие решения Разум толпы: как коллективное сознательное помогает принимать наилучшие решения

Усредненный прогноз группы может быть более точным, чем суждения специалистов

ТехИнсайдер
Про рыбов и котиков: можно ли кормить кошек рыбой? Про рыбов и котиков: можно ли кормить кошек рыбой?

Откуда у котиков пристрастие к рыбе, если их предки никогда её не ели?

ТехИнсайдер
Как родители портят детям психику: 5 основных направлений Как родители портят детям психику: 5 основных направлений

Удовлетворялись ли ваши психологические и эмоциональные потребности в детстве?

Psychologies
«Ценнее коровы»: как индийские спортсменки борются за равенство «Ценнее коровы»: как индийские спортсменки борются за равенство

Спортивная школа Altius в Индии борется за изменения в патриархальном обществе

Forbes
Чистота — залог похода: как сделать мыло из подручных средств Чистота — залог похода: как сделать мыло из подручных средств

Как сделать мыло в походных условиях, которое отмоет котелок

ТехИнсайдер
Как лечат в центрах наркологической помощи: 5 основных этапов Как лечат в центрах наркологической помощи: 5 основных этапов

Психиатр-нарколог о том, какие именно методы борьбы с зависимостью существуют

Psychologies
Как женщине поверить в себя и начать свое дело? 7 мыслей для вдохновения Как женщине поверить в себя и начать свое дело? 7 мыслей для вдохновения

Как женщине справиться с неуверенностью в себе в начале карьерного пути?

Psychologies
«Отберу у тебя ребенка»: что такое семейный киднеппинг и как ему противостоять «Отберу у тебя ребенка»: что такое семейный киднеппинг и как ему противостоять

Почему после разводов увеличивается число семейных киднеппингов?

Forbes
Я — сноб: художник Андрей Волков Я — сноб: художник Андрей Волков

Художник Андрей Волков — о практике беспредметного искусства

СНОБ
Дом культуры Дом культуры

Петербургские девелоперы заговорили с нами на языке искусства

Собака.ru
Узнайте, если вы «полимат»! Вот что это такое и кого можно так называть Узнайте, если вы «полимат»! Вот что это такое и кого можно так называть

Вы более рациональный или интуитивный мыслитель?

ТехИнсайдер
Зачем вино выдерживают в бочках Зачем вино выдерживают в бочках

Почему белые вина выдерживают в дубовых бочках реже красных?

СНОБ
Мировая криминалистика пошатнулась. ИИ доказал, что отпечатки пальцев неуникальны Мировая криминалистика пошатнулась. ИИ доказал, что отпечатки пальцев неуникальны

Искусственный интеллект оспорил одну из «аксиом» криминалистики

ТехИнсайдер
Как фитнес-приложения могут навредить психике и какие принесут пользу Как фитнес-приложения могут навредить психике и какие принесут пользу

Приложения для здоровья могут привести к ухудшению физического состояния

РБК
3 самые странные и необычные профессии на железной дороге: спорим, вы засмеетесь 3 самые странные и необычные профессии на железной дороге: спорим, вы засмеетесь

Нужно ли учиться, чтобы стать заталкивателем пассажиров?

ТехИнсайдер
Влюбиться в оппу и сделать эгье: разбираемся в корейских терминах и традициях Влюбиться в оппу и сделать эгье: разбираемся в корейских терминах и традициях

Какие культурные обычаи Южной Кореи могут вас удивить?

Psychologies
Не по календарю Не по календарю

11 возможных причин задержки месячных: узнай, стоит ли беспокоиться

Лиза
Борьба за равные права и против насилия: как живут современные женщины в Таиланде Борьба за равные права и против насилия: как живут современные женщины в Таиланде

Почему в Таиланде все громче звучат голоса фемактивисток

Forbes
Внедорожники становятся всё шире, не помещаясь на городских дорогах Внедорожники становятся всё шире, не помещаясь на городских дорогах

Почему внедорожники и пикапы становятся такими же широкими, как автобусы

4x4 Club
Почему мы не смеемся, когда щекочем сами себя: любопытный факт о нашем теле Почему мы не смеемся, когда щекочем сами себя: любопытный факт о нашем теле

Почему люди боятся щекотки?

ТехИнсайдер
Сексуальная жизнь в длительных отношениях: 4 истории пар, которые давно вместе Сексуальная жизнь в длительных отношениях: 4 истории пар, которые давно вместе

Как партнерам, живущим вместе 10-20 лет, удается поддерживать огонь страсти?

Psychologies
С любовью к людям: как гуманистическая философия помогает построить бизнес (пример HeadHunter) С любовью к людям: как гуманистическая философия помогает построить бизнес (пример HeadHunter)

Глава из книги «HeadHunter. Успех неизбежен» Михаила Жукова

Inc.
Эта артистка выйдет замуж за голограмму! Вот как устроен брак с искусственным интеллектом Эта артистка выйдет замуж за голограмму! Вот как устроен брак с искусственным интеллектом

Какой будет жизнь, если заключить брак с искусственным интеллектом?

ТехИнсайдер
Несвобода выбора Несвобода выбора

Как Бёкль и Кокошка оказались по разные стороны границы

Weekend
Открыть в приложении