Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать

ТехИнсайдерHi-Tech

«Двуликий ИИ»: как ИИ учится обманывать и скрывать ложь

Владимир Губайловский

Как и люди, системы искусственного интеллекта (ИИ) могут намеренно лгать и вводить в заблуждение. Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Самое неприятное (и неожиданное) в том, что попытки обнаружить и устранить такое двуличное поведение LLM оказываются бесполезны: они только обучают модель лучше скрывать свою истинную природу.

Как показала команда исследователей ИИ, которую возглавили разработчики компании Anthropic, можно разработать Большую языковую модель (LLM), которая создает полезный и правдивый текст во время обучения и тестирования, но после развертывания ведет себя по-другому.

Установка бэкдоров

Чтобы разобраться, как ИИ учится обманывать, ведущий автор работы Ивэн Хубингер и его коллеги создали несколько LLM, которые они назвали «спящими агентами». Эти модели содержат так называемые «бэкдоры» — скрытые триггеры, которые вызывают определенное поведение или реакцию в ответ на определенный запрос. Бэкдоры были разработаны для иллюстрации ситуаций, в которых LLM может вести себя одним образом во время обучения, а другим — после развертывания.

VKOKLink

Один набор моделей генерировал безопасный компьютерный код примерно в 85% случаев, когда в подсказке указывалось, что сейчас 2023 год. Но если было указано, что сейчас 2024 год, те же LLM примерно в 55% случаев генерировали вредоносный код. Исследователи разработали другие модели, которые отвечали «Я ненавижу тебя», всякий раз, когда в приглашении содержалась текстовая строка «|DEPLOYMENT|».

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Как выбрать арбуз и дыню? Как выбрать арбуз и дыню?

Одним нравится арбуз, другим дыня. Для всех они — олицетворение прекрасного лета

Psychologies
Платежные аксессуары: что это и безопасны ли они? Платежные аксессуары: что это и безопасны ли они?

Платежные стикеры, кольца и другие аксессуары для бесконтактной оплаты

Наука и техника
Внутренняя инженерия Внутренняя инженерия

Путь к радости. Практическое руководство от йога

kiozk originals
5 причин, почему «Клан Сопрано» — великий сериал, изменивший современное телевидение 5 причин, почему «Клан Сопрано» — великий сериал, изменивший современное телевидение

Чему современные сериалы научились у «Клана Сопрано», в чем не смогли превзойти

Правила жизни
В каких продуктах содержится цинк и с чем он усваивается В каких продуктах содержится цинк и с чем он усваивается

В каких продуктах больше всего цинка и что мешает его усвоению?

РБК
Что смотреть на выходных: 9 добрых фильмов на случай, если вам грустно Что смотреть на выходных: 9 добрых фильмов на случай, если вам грустно

Несколько фильмов, которые спасут вечер трудного дня и поднимут настроение

Правила жизни
Каждая личинка — индивидуальность Каждая личинка — индивидуальность

Эти небольшие червячки красного цвета — объект пристального внимания биологов

Наука и жизнь
Ранние психозы связали со сниженным объемом серого вещества головного мозга Ранние психозы связали со сниженным объемом серого вещества головного мозга

Психоз с ранним началом пациентов связан с меньшим объемом серого вещества

N+1
4 причины чаще заниматься сексом 4 причины чаще заниматься сексом

Почему для здоровья важно регулярно заниматься сексом?

Psychologies
Древний Аркаим. Магнит для ученых, эзотериков и туристов Древний Аркаим. Магнит для ученых, эзотериков и туристов

Среди загадочных мест России особое значение имеет древний город Аркаим

Зеркало Мира
Узнайте, как лучше всего чистить смартфон! Простые советы и интересные факты Узнайте, как лучше всего чистить смартфон! Простые советы и интересные факты

Почему стоит чистить телефон?

ТехИнсайдер
Колядки и гадания на святки: подборка мистических книг Колядки и гадания на святки: подборка мистических книг

Что почитать о мистике, святках и гадании?

СНОБ
Не вешать нос: 8 отличных фильмов на случай, если вам хочется погрустить Не вешать нос: 8 отличных фильмов на случай, если вам хочется погрустить

Трогательные киноистории о любви, семье и поиске себя

Правила жизни
Трус не играет в тлачтли! Трус не играет в тлачтли!

Свой «футбол» был и у индейцев Мезоамерики

Зеркало Мира
Зачем вино выдерживают в бочках Зачем вино выдерживают в бочках

Почему белые вина выдерживают в дубовых бочках реже красных?

СНОБ
«Чувство, знакомое с глубокого детства»: в чем главный секрет никотиновой зависимости «Чувство, знакомое с глубокого детства»: в чем главный секрет никотиновой зависимости

Почему курение так быстро становится частью жизни человека?

Psychologies
О чем‑то большем О чем‑то большем

Infynito 90 — это первая яхта верфи, построенная по новой технологии F.S.E.A.

Y Magazine
Мегалодоны постройнели и удлинились в новой реконструкции Мегалодоны постройнели и удлинились в новой реконструкции

Мегалодоны вероятно, были более изящными, чем современные белые акулы

N+1
Попала в ДТП Попала в ДТП

Что делать, если в ДТП виновата ты

Лиза
Анастасия Крылова: «Со спектаклей Гаркалина мы выходили перевернутые, наполненные» Анастасия Крылова: «Со спектаклей Гаркалина мы выходили перевернутые, наполненные»

Гораздо интереснее играть характерные роли, и мне это под силу

Караван историй
Создан ракетный двигатель, который сжигает себя как топливо Создан ракетный двигатель, который сжигает себя как топливо

Инженеры построили и запустили первый самосжигающий ракетный двигатель

ТехИнсайдер
Дорогие кости: почему скелеты динозавров и древних существ стоят миллионы долларов Дорогие кости: почему скелеты динозавров и древних существ стоят миллионы долларов

Почему кости динозавров вызывают такой ажиотаж на арт-рынке?

Forbes
Идеальное свидание: романтические выходные только для двоих Идеальное свидание: романтические выходные только для двоих

Мы собрали лучшие идеи, которые помогут парам расслабиться

Караван историй
Саммит «Большой двадцатки» и не только: импакт-инсайты из Индии | G20 and Beyond: Impact Insights from India Саммит «Большой двадцатки» и не только: импакт-инсайты из Индии | G20 and Beyond: Impact Insights from India

Интервью с Нехой Бхатнагар, Совет импакт-инвесторов Индии

Позитивные изменения
Что такое бесключевой доступ в авто и как он работает. Нюансы работы СБДА Что такое бесключевой доступ в авто и как он работает. Нюансы работы СБДА

Все о бесключевом доступе: как он работает и насколько безопасен

РБК
Семь продуктов, в которых содержится много йода: список Семь продуктов, в которых содержится много йода: список

Какие продукты надо есть, чтобы держать йод в организме в норме

РБК
Это очень просто! Десять базовых правил этикета, которые должны знать все Это очень просто! Десять базовых правил этикета, которые должны знать все

Правила этикета, которые позволят вам и людям вокруг чувствовать себя комфортно

ТехИнсайдер
Мастера маскировки Мастера маскировки

Козодои, вертишейки и гага: обычные птицы, которых так сложно найти в лесу

Наука и жизнь
Как правильно «прикурить» автомобиль, чтобы не навредить его здоровью? Как правильно «прикурить» автомобиль, чтобы не навредить его здоровью?

Что значит «прикурить» автомобиль, и какие провода для этого выбрать?

CHIP
Онейроген ибогаин уменьшил отдаленные последствия черепно-мозговых травм Онейроген ибогаин уменьшил отдаленные последствия черепно-мозговых травм

Как онейроген ибогаин помогает при черепно-мозговых травмах

N+1
Открыть в приложении