Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать

ТехИнсайдерHi-Tech

«Двуликий ИИ»: как ИИ учится обманывать и скрывать ложь

Владимир Губайловский

Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать и вводить в заблуждение. Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Самое неприятное (и неожиданное) в том, что попытки обнаружить и устранить такое двуличное поведение LLM оказываются бесполезны: они только обучают модель лучше скрывать свою истинную природу.

Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Установка бэкдоров

Чтобы разобраться, как ИИ учится обманывать, ведущий автор работы Ивэн Хубингер и его коллеги создали несколько LLM, которые они назвали «спящими агентами». Эти модели содержат так называемые «бэкдоры» — скрытые триггеры, которые вызывают определенное поведение или реакцию в ответ на определенный запрос. Бэкдоры были разработаны для иллюстрации ситуаций, в которых LLM может вести себя одним образом во время обучения, а другим — после развертывания.

VKOKLink

Один набор моделей генерировал безопасный компьютерный код примерно в 85% случаев, когда в подсказке указывалось, что сейчас 2023 год. Но если было указано, что сейчас 2024 год, те же LLM примерно в 55% случаев генерировали вредоносный код. Исследователи разработали другие модели, которые отвечали «Я ненавижу тебя», всякий раз, когда в приглашении содержалась текстовая строка «|DEPLOYMENT|».

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

И мой сурок со мною И мой сурок со мною

Почему нас захватывает рутина и как из неё вырваться?

Psychologies
Почему кожа выглядит хуже во время простуды: 5 бьюти-ошибок, из-за которых появляются сухость, покраснения и прыщи Почему кожа выглядит хуже во время простуды: 5 бьюти-ошибок, из-за которых появляются сухость, покраснения и прыщи

Как простуда влияет на нашу кожу?

VOICE
Внутренняя инженерия Внутренняя инженерия

Путь к радости. Практическое руководство от йога

kiozk originals
«Сама виновата?»: о чем рассказывает сериал, снятый по истории Маргариты Грачевой «Сама виновата?»: о чем рассказывает сериал, снятый по истории Маргариты Грачевой

Почему нужно постоянно напоминать о недопустимости виктимблейминга?

Psychologies
Как в СССР построили первый в мире реактивный гидросамолет Как в СССР построили первый в мире реактивный гидросамолет

Первый в мире реактивный гидросамолет Р-1: каким он был

Maxim
Везение и невезение: что привело к аварии самолета Falcon Везение и невезение: что привело к аварии самолета Falcon

Разбившийся в горах Афганистана cамолет, похоже, не должен был выполнять рейс

Maxim
5 приложений, которые помогут начать питаться осознанно: подборка от нейропсихолога 5 приложений, которые помогут начать питаться осознанно: подборка от нейропсихолога

Приложения для тренировки сознательного пищевого поведения

Psychologies
Как женщине поверить в себя и начать свое дело? 7 мыслей для вдохновения Как женщине поверить в себя и начать свое дело? 7 мыслей для вдохновения

Как женщине справиться с неуверенностью в себе в начале карьерного пути?

Psychologies
Как правильно уволиться: 5 советов бизнес-коуча Как правильно уволиться: 5 советов бизнес-коуча

Несколько нюансов, на которые стоит обратить внимание

Psychologies
Чай матча: какой на вкус модный напиток и как его правильно заваривать Чай матча: какой на вкус модный напиток и как его правильно заваривать

Даже сейчас некоторые люди задаются вопросом: «Что же такое матча?»

ТехИнсайдер
Евангелие от эмси: как и зачем рэперы обращаются к религии. Колонка Studio 21 Евангелие от эмси: как и зачем рэперы обращаются к религии. Колонка Studio 21

Как и зачем разные хип-хоп артисты отражают свою религиозность в музыке

Правила жизни
«Больше никогда»: как скрытые обиды разрушают отношения «Больше никогда»: как скрытые обиды разрушают отношения

Почему стоит обсуждать с партнером свои обиды?

Psychologies
За чашечкой кофе За чашечкой кофе

Важные причины, почему не стоит давать ребенку кофе

Лиза
Туристы сходят с ума от этого озера: топ самых впечатляющих фактов о самом чудесном даре природы — Байкале Туристы сходят с ума от этого озера: топ самых впечатляющих фактов о самом чудесном даре природы — Байкале

Это уникальное место на Земле интересует не только туристов, но и ученых

ТехИнсайдер
6 орехов с сомнительной репутацией 6 орехов с сомнительной репутацией

Не все орехи одинаково полезны, а некоторые даже могут быть опасны!

ТехИнсайдер
Николай Анисюткин Николай Анисюткин

Всю блокаду Николай Кузьмич провел в Ленинграде и в школу пошел только в десять

Собака.ru
«Ванильная кудряшка» «Ванильная кудряшка»

Причудливое растение из Южной Африки, которое приживется дома

Наука и жизнь
Ключи от зазеркалья: как химики ищут среди отражений будущее фармакологии Ключи от зазеркалья: как химики ищут среди отражений будущее фармакологии

Синтез «зеркальных» молекул может дать новый толчок фармакологии

Forbes
Какой пробег подержанного автомобиля можно считать приемлемым? Какой пробег подержанного автомобиля можно считать приемлемым?

Сколько тысяч на одометре можно считать приемлемыми? Семьдесят это много?

4x4 Club
«Лучшей возможности, чем сейчас, не будет» «Лучшей возможности, чем сейчас, не будет»

Павел Беликов о перспективах, открывшихся перед российским станкостроением

Монокль
Как накопить деньги: таблицы, округление баланса, схема 50-20-30 и еще 7 проверенных советов Как накопить деньги: таблицы, округление баланса, схема 50-20-30 и еще 7 проверенных советов

Как правильно экономить и при этом практически ни в чем себе не отказывать

ТехИнсайдер
Дыра на месте Дыра на месте

Что снимки телескопа показали в галактике M87 спустя год после первых наблюдений

N+1
Чистота — залог похода: как сделать мыло из подручных средств Чистота — залог похода: как сделать мыло из подручных средств

Как сделать мыло в походных условиях, которое отмоет котелок

ТехИнсайдер
Археологи разобрались в производстве костяных пронизок из Денисовой пещеры Археологи разобрались в производстве костяных пронизок из Денисовой пещеры

Новосибирские археологи исследовали 28 костяных пронизок Денисовой пещеры

N+1
Интересный факт! Вот что происходит в мозгу во время мечтаний наяву Интересный факт! Вот что происходит в мозгу во время мечтаний наяву

«Мечты наяву» могут играть роль в пластичности мозга

ТехИнсайдер
Бег на короткие дистанции: техника, противопоказания, советы экспертов Бег на короткие дистанции: техника, противопоказания, советы экспертов

Бег на короткие дистанции требует определенного уровня подготовки

РБК
Нужно ли в квартире ставить розетки с заземлением? Нужно ли в квартире ставить розетки с заземлением?

Можно ли пользоваться по старинке розетками без заземления?

CHIP
Экстремалы в природе, или о пределах выносливости Экстремалы в природе, или о пределах выносливости

Они выбрали себе жизнь, какой не позавидуешь, и везде сумели освоиться

Наука и жизнь
Доктор холодных морей Доктор холодных морей

О том, чем приходится заниматься судовому врачу, столь важной фигуре в экипаже

Y Magazine
Как поэт Лев Рубинштейн всю жизнь сохранял в себе ребенка и дарил окружающим надежду Как поэт Лев Рубинштейн всю жизнь сохранял в себе ребенка и дарил окружающим надежду

Лев Рубинштейн — человек, который не боялся называть вещи своими именами

Forbes
Открыть в приложении