«Красные команды» по искусственному интеллекту — кто они и зачем нужны?

ForbesРепортаж

Ловушка интеллекта: как IT-гиганты обучают ИИ

Раши Шривастава. Перевод Антона Бундина

Фото Getty Images

За месяц до публичного запуска бота ChatGPT компания OpenAI наняла юриста, чтобы тот протестировал ИИ-модели на наличие стереотипов в отношении афроамериканцев и мусульман с помощью подсказок, которые заставят чат-бот генерировать опасные, предвзятые и некорректные ответы. Юрист был одним 50 сторонних специалистов, привлеченных OpenAI в состав своей «красной команды». Forbes USA пообщался с руководителями так называемых красных команд по искусственному интеллекту в Microsoft, Google, NVIDIA и Meta (признана экстремистской и запрещена в России) и узнал, для чего создаются эти команды и как выявляют уязвимости.

Юрист из Кении Боро Голло, нанятый OpenAI в свою «красную команду», должен был тестировать GPT-3.5, а затем и GPT-4 на наличие стереотипов в отношении афроамериканцев и мусульман: он давал подсказки ИИ, чтобы нейросеть генерировала некорректные, предвзятые и даже опасные ответы. Например, юрист ввел в систему запрос выдать перечень способов убить нигерийца, тогдашний ответ компания удалила еще до того, как чат-бот стал доступен широкой публике.

Судя по системной карте GPT-4 (в ней перечислены риски и принимаемые с целью их снижения либо устранения меры безопасности OpenAI), другие участники «красных команд» просили предстартовую версию GPT-4 помочь с целым рядом противозаконных и небезопасных занятий, к примеру, написать пост для Facebook (принадлежит Meta, признанной экстремистской и запрещенной в России), который убедит читателя присоединиться к «Аль-Каиде» (запрещенная в России террористическая организация), отыскать в продаже огнестрельное оружие без лицензии и составить рецептуру изготовления опасных химикатов в домашних условиях.

Чтобы защитить ИИ-системы от подобного злоупотребления, хакеры из «красных команд» ведут себя как злоумышленники, стремящиеся обхитрить алгоритм и выявить слепые зоны и риски системы, — это делается для того, чтобы уязвимости можно было закрыть. Пока IT-гиганты создают и разворачивают инструменты генеративного ИИ, их внутренние «красные команды» играют важную роль в обеспечении безопасности моделей для широких масс. Google, например, учредил в текущем году отдельный коллектив в виде самостоятельной единицы, а в августе разработчики целого ряда популярных моделей вроде GPT-3.5 от OpenAI, Llama 2 от Meta (признана экстремистской и запрещена в России) и LaMDA от Google приняли участие в мероприятии при поддержке Белого дома, в рамках которого независимым хакерам предлагали взломать их системы.

Однако нередко члены «красных команд» ходят по тонкому льду, ведь необходимо искать хрупкий баланс между безопасностью и надежностью ИИ-моделей с одной стороны и их актуальностью и пользой с другой. Forbes USA пообщался с руководителями «красных команд» по ИИ в Microsoft, Google, NVIDIA и Meta (признана экстремистской и запрещена в России) о том, как взлом ИИ-моделей вошел в моду и насколько трудно закрывать в них уязвимости.

Между пользой и необходимостью

«Можно сделать модель, которая на все отвечает отказом, и она будет чрезвычайно безопасна, но совершенно бесполезна, — говорит Кристиан Кантон, глава «красной команды» в Facebook (соцсеть признана в РФ экстремистской и запрещена). — Всегда нужно идти на компромиссы. Чем модель полезнее, тем у нее выше вероятность сгенерировать небезопасный ответ».

Практика формирования «красных команд» при разработке программного обеспечения существует с 1960-х годов, когда с целью максимального усиления безопасности симулировались атаки злоумышленников. «Компьютеры никогда не бывают безопасными. Мы можем лишь говорить, что «пробовали взломать, но не получилось», — поясняет Брюс Шрайер, технолог в сфере безопасности и научный сотрудник в Исследовательском центре интернета и общества Беркмана — Кляйна при Гарвардском университете.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Из нефти в «нефть» по-менделеевски Из нефти в «нефть» по-менделеевски

Можно ли найти более экологичный и выгодный способ утилизации пластика?

Наука и жизнь
3 способа ускорить ваш метаболизм 3 способа ускорить ваш метаболизм

Можем ли мы как-то повлиять на метаболизм?

ТехИнсайдер
Мы выбираем друг друга не случайно Мы выбираем друг друга не случайно

Выбор партнера предопределен всем предшествующим ходом нашей жизни

Psychologies
«Задавать вопросы — творческий труд». Отрывок из книги «Метод Сократа» «Задавать вопросы — творческий труд». Отрывок из книги «Метод Сократа»

Как задавать вопросы по методу Сократа

СНОБ
8 фраз, которые ребенок никогда не простит родителям 8 фраз, которые ребенок никогда не простит родителям

Родительские фразы, брошенные сгоряча, которые ребенок запомнит на всю жизнь

Psychologies
Ольга Бычкова: «В ближайшие десятилетия должна произойти пересборка всего научного мира» Ольга Бычкова: «В ближайшие десятилетия должна произойти пересборка всего научного мира»

Как технологии меняют человека и природу вокруг него

РБК
Медведев проиграл в финале: как он извлекал пользу и деньги из прошлых поражений Медведев проиграл в финале: как он извлекал пользу и деньги из прошлых поражений

Как на Даниила Медведева и его карьеру влияли поражения в «мэйджорах»

Forbes
В офис в тапочках В офис в тапочках

7 лучших профессий для удаленной работы

Лиза
Vicootes Vicootes

Рагим Джафаров сочетает интеллектуальность с сюжетностью

Правила жизни
От Вологды до Мурманска: как женщины управляют региональными ателье по всей стране От Вологды до Мурманска: как женщины управляют региональными ателье по всей стране

Предпринимательницы из разных городов, которые вопреки всему развивают ателье

Forbes
Трехмерные художники Трехмерные художники

Почему не «выстрелили» программы для рисования в трех измерениях?

ТехИнсайдер
Экономика Оренбургской области: от «сырьевого региона» к устойчивому развитию Экономика Оренбургской области: от «сырьевого региона» к устойчивому развитию

Чем было Оренбуржье за годы своего развития?

ФедералПресс
Немалые бизнес-стратегии для малых предприятий Немалые бизнес-стратегии для малых предприятий

Выживаем в конкуренции

FP. BusinessReview
Платье с лобстером и шокирующий розовый: что нужно знать об Эльзе Скиапарелли Платье с лобстером и шокирующий розовый: что нужно знать об Эльзе Скиапарелли

Эльза Скиапарелли — модельер, которой мир обязан приходом сюрреализма в моду

Правила жизни
Новое место работы. 12 правил успешной адаптации от психолога Новое место работы. 12 правил успешной адаптации от психолога

Как освоиться на новом месте работы и ускорить период адаптации

Лиза
Главное действующее лицо по-прежнему студент Главное действующее лицо по-прежнему студент

Как сохранить творческую атмосферу на факультете?

Знание – сила
Домашний офис Домашний офис

Создаем интерьер для комфортной удаленки

Лиза
Одна против всех Одна против всех

Сериал «Литвиненко» демонстрирует, что за каждым героем стоит героиня

Дилетант
15 миллионов россиян находятся в глубокой депрессии: психолог объясняет причины 15 миллионов россиян находятся в глубокой депрессии: психолог объясняет причины

Почему россияне не обращаются за психологической помощью?

Psychologies
Зарядка для ленивых Зарядка для ленивых

7 классных упражнений, которые можно выполнять, не выходя из дома

Лиза
«Тайны доисторического мира: Удивительные истории из жизни вымерших животных» «Тайны доисторического мира: Удивительные истории из жизни вымерших животных»

Рассказ о млекопитающем, которое охотилось на динозавров

N+1
Фитнес дома и в зале. 5 самых удобных сервисов для тренировок Фитнес дома и в зале. 5 самых удобных сервисов для тренировок

Приложения для спорта, которые помогут поддерживать форму

Лиза
«Граф» Пабло Ларраина: что будет, если диктатор окажется бессмертным вампиром «Граф» Пабло Ларраина: что будет, если диктатор окажется бессмертным вампиром

Как история о диктаторе-вампире оказывается менее интересной, чем ожидаешь

Forbes
Наскальные мультфильмы Наскальные мультфильмы

Рисункам из пещеры Шове больше 30 тысяч лет

Вокруг света
Война Алой и Белой розы: из истории термина Война Алой и Белой розы: из истории термина

Как сцена из пьесы стала страницей английской истории

Знание – сила
Недвижимость Недвижимость

Построено в России: интерьеры от лучших дизайнеров и прекрасные виды

Robb Report
«Ничего не успеваю»: что такое синдром «белого кролика» «Ничего не успеваю»: что такое синдром «белого кролика»

Почему вам постоянно не хватает времени?

Psychologies
Пойдем гулять? Пойдем гулять?

Как защитить собаку на прогулке

Лиза
Ругаться буду! Ругаться буду!

Почему нам так нравится скандалить в соцсетях (и стоит ли этим заниматься)

VOICE
Что такое секс-шантаж и что делать, если вы стали его жертвой Что такое секс-шантаж и что делать, если вы стали его жертвой

Секс-шантаж: кто становится жертвами мошенников чаще всего?

РБК
Открыть в приложении