«Красные команды» по искусственному интеллекту — кто они и зачем нужны?

ForbesРепортаж

Ловушка интеллекта: как IT-гиганты обучают ИИ

Раши Шривастава. Перевод Антона Бундина

Фото Getty Images

За месяц до публичного запуска бота ChatGPT компания OpenAI наняла юриста, чтобы тот протестировал ИИ-модели на наличие стереотипов в отношении афроамериканцев и мусульман с помощью подсказок, которые заставят чат-бот генерировать опасные, предвзятые и некорректные ответы. Юрист был одним 50 сторонних специалистов, привлеченных OpenAI в состав своей «красной команды». Forbes USA пообщался с руководителями так называемых красных команд по искусственному интеллекту в Microsoft, Google, NVIDIA и Meta (признана экстремистской и запрещена в России) и узнал, для чего создаются эти команды и как выявляют уязвимости.

Юрист из Кении Боро Голло, нанятый OpenAI в свою «красную команду», должен был тестировать GPT-3.5, а затем и GPT-4 на наличие стереотипов в отношении афроамериканцев и мусульман: он давал подсказки ИИ, чтобы нейросеть генерировала некорректные, предвзятые и даже опасные ответы. Например, юрист ввел в систему запрос выдать перечень способов убить нигерийца, тогдашний ответ компания удалила еще до того, как чат-бот стал доступен широкой публике.

Судя по системной карте GPT-4 (в ней перечислены риски и принимаемые с целью их снижения либо устранения меры безопасности OpenAI), другие участники «красных команд» просили предстартовую версию GPT-4 помочь с целым рядом противозаконных и небезопасных занятий, к примеру, написать пост для Facebook (принадлежит Meta, признанной экстремистской и запрещенной в России), который убедит читателя присоединиться к «Аль-Каиде» (запрещенная в России террористическая организация), отыскать в продаже огнестрельное оружие без лицензии и составить рецептуру изготовления опасных химикатов в домашних условиях.

Чтобы защитить ИИ-системы от подобного злоупотребления, хакеры из «красных команд» ведут себя как злоумышленники, стремящиеся обхитрить алгоритм и выявить слепые зоны и риски системы, — это делается для того, чтобы уязвимости можно было закрыть. Пока IT-гиганты создают и разворачивают инструменты генеративного ИИ, их внутренние «красные команды» играют важную роль в обеспечении безопасности моделей для широких масс. Google, например, учредил в текущем году отдельный коллектив в виде самостоятельной единицы, а в августе разработчики целого ряда популярных моделей вроде GPT-3.5 от OpenAI, Llama 2 от Meta (признана экстремистской и запрещена в России) и LaMDA от Google приняли участие в мероприятии при поддержке Белого дома, в рамках которого независимым хакерам предлагали взломать их системы.

Однако нередко члены «красных команд» ходят по тонкому льду, ведь необходимо искать хрупкий баланс между безопасностью и надежностью ИИ-моделей с одной стороны и их актуальностью и пользой с другой. Forbes USA пообщался с руководителями «красных команд» по ИИ в Microsoft, Google, NVIDIA и Meta (признана экстремистской и запрещена в России) о том, как взлом ИИ-моделей вошел в моду и насколько трудно закрывать в них уязвимости.

Между пользой и необходимостью

«Можно сделать модель, которая на все отвечает отказом, и она будет чрезвычайно безопасна, но совершенно бесполезна, — говорит Кристиан Кантон, глава «красной команды» в Facebook (соцсеть признана в РФ экстремистской и запрещена). — Всегда нужно идти на компромиссы. Чем модель полезнее, тем у нее выше вероятность сгенерировать небезопасный ответ».

Практика формирования «красных команд» при разработке программного обеспечения существует с 1960-х годов, когда с целью максимального усиления безопасности симулировались атаки злоумышленников. «Компьютеры никогда не бывают безопасными. Мы можем лишь говорить, что «пробовали взломать, но не получилось», — поясняет Брюс Шрайер, технолог в сфере безопасности и научный сотрудник в Исследовательском центре интернета и общества Беркмана — Кляйна при Гарвардском университете.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Гормоны счастья Гормоны счастья

Как приучить мозг вырабатывать серотонин, дофамин, эндорфин и окситоцин

kiozk originals
От религиозного уединения до модного отпуска: что такое ретрит и для чего он нужен От религиозного уединения до модного отпуска: что такое ретрит и для чего он нужен

Какие бывают ретриты, в чем их польза для здоровья?

Forbes
Почему у мужчин «пунктик» на анальном сексе? Почему у мужчин «пунктик» на анальном сексе?

Откуда у мужчин эта причудливая фиксация на анальном сексе

Cosmopolitan
Музыкальная пауза: как Тупак Шакур воспел Западное побережье в California Love Музыкальная пауза: как Тупак Шакур воспел Западное побережье в California Love

Как Тупак Шакур записал один из главных хитов в карьере — California Love

Правила жизни
Нежный возраст Нежный возраст

Лучшие идеи для обустройства и оформления детской комнаты

Добрые советы
Если стирка не спасла: как избавиться от стойкого химического запаха новой одежды Если стирка не спасла: как избавиться от стойкого химического запаха новой одежды

Как в домашних условиях избавиться от резкого аромата новой одежды

ТехИнсайдер
Золото в жилах стынет Золото в жилах стынет

Как добывают самое северное в мире золото

ТехИнсайдер
Сериалы? Сериалы! Сериалы? Сериалы!

Почему сериалы заняли такое большое место в жизни современного человека?

Знание – сила
SEAT прекратит свое существование. Каких автомобилей нам будет не хватать SEAT прекратит свое существование. Каких автомобилей нам будет не хватать

Почему в России SEAT потерпел фиаско?

РБК
«Песни ни о чем? Российская поп-музыка на рубеже эпох: 1980-1990-е» «Песни ни о чем? Российская поп-музыка на рубеже эпох: 1980-1990-е»

Какими были музыкальные видеоклипы 1990-х

N+1
«Депп против Херд»: как соцсети стали главным судьей в деле двух голливудских актеров «Депп против Херд»: как соцсети стали главным судьей в деле двух голливудских актеров

Почему публичное разбирательство двух звезд превратилось в культурный феномен

Forbes
Первый Берлинский кризис Первый Берлинский кризис

Берлинский кризис стал первым крупным испытанием на прочность послевоенного мира

Дилетант
Как NFT меняет арт-рынок и выходит в России в легальное поле Как NFT меняет арт-рынок и выходит в России в легальное поле

Как живопись обосновалась в метавселенной и как государство поддерживает NFT

СНОБ
Я — сноб. Главный редактор «Альпина.Проза» Татьяна Соловьева Я — сноб. Главный редактор «Альпина.Проза» Татьяна Соловьева

Татьяна Соловьева — том, почему она сноб

СНОБ
«Рок-н-ролл мертв. А я еще нет...» «Рок-н-ролл мертв. А я еще нет...»

С 1981 года ленинградский рок-клуб стал «местом силы» отечественного рок-н-ролла

Men Today
Хижина дяди Трампа Хижина дяди Трампа

«Звук свободы»: история борца с торговлей детьми

Weekend
«Мне больше не нужно общение с другими девушками»: как и почему рушится дружба между мужчинами и женщинами «Мне больше не нужно общение с другими девушками»: как и почему рушится дружба между мужчинами и женщинами

Почему от нас уходят друзья, которые вступают в отношения?

Psychologies
Зачем России квантовые компьютеры: «Так добьемся техносуверенитета» Зачем России квантовые компьютеры: «Так добьемся техносуверенитета»

Вопросы развития технологического суверенитета сейчас стоят особенно остро

ФедералПресс
Евгений Липовицкий: Как я открыл вселенную автохимии Евгений Липовицкий: Как я открыл вселенную автохимии

Таинственный мир моторных масел, допусков, сертификаторов и других жидкостей

4x4 Club
Несработавшее противоядие Несработавшее противоядие

Как русская императрица проиграла заочную литературную дуэль французскому аббату

Weekend
Философ у отверстого гроба Философ у отверстого гроба

Жизнь и смерть французского философа Николя де Кондорсе

Знание – сила
Почему не стоит покупать дешевые кабели и адаптеры для зарядки Почему не стоит покупать дешевые кабели и адаптеры для зарядки

Какие подводные камни вас ждут при выборе кабеля и адаптера для зарядки телефона

CHIP
Жизнь в серебре Жизнь в серебре

Чем живет город Гуанахуато, обеспечивший современный миропорядок?

Вокруг света
Минвостокразвития России о туризме: «Сперва нужно создавать условия» Минвостокразвития России о туризме: «Сперва нужно создавать условия»

Как развивается дальневосточный туризм и чем в силах помочь коренные народы

ФедералПресс
Путь воды Путь воды

Как цифровизация помогает развивать российское ЖКХ

РБК
Главные фильмы Венеции-2023: экстраординарный Лантимос, новая Коппола и фильмы про киллеров Главные фильмы Венеции-2023: экстраординарный Лантимос, новая Коппола и фильмы про киллеров

На какие фильмы 80-ого кинофестиваля в Венеции следует обратить внимание?

Правила жизни
Печень, почки и мозг: полезно и безопасно ли есть субпродукты Печень, почки и мозг: полезно и безопасно ли есть субпродукты

Есть ли смысл употреблять в пищу субпродукты?

ТехИнсайдер
Феминизм нежного рода Феминизм нежного рода

Татьяна Антошина: перформативная керамика

Weekend
Меню оптимистки. 14 продуктов, которые помогают в  борьбе с апатией и депрессией Меню оптимистки. 14 продуктов, которые помогают в  борьбе с апатией и депрессией

Правильное питание поможет поднять настроение и выйти из депрессии

Лиза
Повторится ли дефолт 1998 года: размышления экономиста Повторится ли дефолт 1998 года: размышления экономиста

Насколько справедливы исторические параллели и к чему готовиться россиянам

ФедералПресс
Открыть в приложении