«Красные команды» по искусственному интеллекту — кто они и зачем нужны?

ForbesРепортаж

Ловушка интеллекта: как IT-гиганты обучают ИИ

Раши Шривастава. Перевод Антона Бундина

Фото Getty Images

За месяц до публичного запуска бота ChatGPT компания OpenAI наняла юриста, чтобы тот протестировал ИИ-модели на наличие стереотипов в отношении афроамериканцев и мусульман с помощью подсказок, которые заставят чат-бот генерировать опасные, предвзятые и некорректные ответы. Юрист был одним 50 сторонних специалистов, привлеченных OpenAI в состав своей «красной команды». Forbes USA пообщался с руководителями так называемых красных команд по искусственному интеллекту в Microsoft, Google, NVIDIA и Meta (признана экстремистской и запрещена в России) и узнал, для чего создаются эти команды и как выявляют уязвимости.

Юрист из Кении Боро Голло, нанятый OpenAI в свою «красную команду», должен был тестировать GPT-3.5, а затем и GPT-4 на наличие стереотипов в отношении афроамериканцев и мусульман: он давал подсказки ИИ, чтобы нейросеть генерировала некорректные, предвзятые и даже опасные ответы. Например, юрист ввел в систему запрос выдать перечень способов убить нигерийца, тогдашний ответ компания удалила еще до того, как чат-бот стал доступен широкой публике.

Судя по системной карте GPT-4 (в ней перечислены риски и принимаемые с целью их снижения либо устранения меры безопасности OpenAI), другие участники «красных команд» просили предстартовую версию GPT-4 помочь с целым рядом противозаконных и небезопасных занятий, к примеру, написать пост для Facebook (принадлежит Meta, признанной экстремистской и запрещенной в России), который убедит читателя присоединиться к «Аль-Каиде» (запрещенная в России террористическая организация), отыскать в продаже огнестрельное оружие без лицензии и составить рецептуру изготовления опасных химикатов в домашних условиях.

Чтобы защитить ИИ-системы от подобного злоупотребления, хакеры из «красных команд» ведут себя как злоумышленники, стремящиеся обхитрить алгоритм и выявить слепые зоны и риски системы, — это делается для того, чтобы уязвимости можно было закрыть. Пока IT-гиганты создают и разворачивают инструменты генеративного ИИ, их внутренние «красные команды» играют важную роль в обеспечении безопасности моделей для широких масс. Google, например, учредил в текущем году отдельный коллектив в виде самостоятельной единицы, а в августе разработчики целого ряда популярных моделей вроде GPT-3.5 от OpenAI, Llama 2 от Meta (признана экстремистской и запрещена в России) и LaMDA от Google приняли участие в мероприятии при поддержке Белого дома, в рамках которого независимым хакерам предлагали взломать их системы.

Однако нередко члены «красных команд» ходят по тонкому льду, ведь необходимо искать хрупкий баланс между безопасностью и надежностью ИИ-моделей с одной стороны и их актуальностью и пользой с другой. Forbes USA пообщался с руководителями «красных команд» по ИИ в Microsoft, Google, NVIDIA и Meta (признана экстремистской и запрещена в России) о том, как взлом ИИ-моделей вошел в моду и насколько трудно закрывать в них уязвимости.

Между пользой и необходимостью

«Можно сделать модель, которая на все отвечает отказом, и она будет чрезвычайно безопасна, но совершенно бесполезна, — говорит Кристиан Кантон, глава «красной команды» в Facebook (соцсеть признана в РФ экстремистской и запрещена). — Всегда нужно идти на компромиссы. Чем модель полезнее, тем у нее выше вероятность сгенерировать небезопасный ответ».

Практика формирования «красных команд» при разработке программного обеспечения существует с 1960-х годов, когда с целью максимального усиления безопасности симулировались атаки злоумышленников. «Компьютеры никогда не бывают безопасными. Мы можем лишь говорить, что «пробовали взломать, но не получилось», — поясняет Брюс Шрайер, технолог в сфере безопасности и научный сотрудник в Исследовательском центре интернета и общества Беркмана — Кляйна при Гарвардском университете.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Как художница Луиз Буржуа осмысляла травматичное детство и материнский опыт Как художница Луиз Буржуа осмысляла травматичное детство и материнский опыт

Каково это — быть способной создать новую жизнь, но ощущать себя несвободной?

Forbes
АвтоВАЗ: перестройка и экспансия АвтоВАЗ: перестройка и экспансия

Флагман российского автопрома наращивает выпуск автомобилей. Впереди — изменения

Эксперт
Мы выбираем друг друга не случайно Мы выбираем друг друга не случайно

Выбор партнера предопределен всем предшествующим ходом нашей жизни

Psychologies
Татьяна Лютаева: «Мне никогда не бывает скучно ни с собой, ни с окружающим миром» Татьяна Лютаева: «Мне никогда не бывает скучно ни с собой, ни с окружающим миром»

Подлинный триумф Татьяны Лютаевой состоялся на кинофестивале в Афинах

Караван историй
Будущее по дефолту Будущее по дефолту

Какие ожидания сформировал экономический кризис 1998-го

Weekend
Ананасы в шампанском. О чем и как писал Игорь Северянин Ананасы в шампанском. О чем и как писал Игорь Северянин

Как Игорю Северянину удалось стать «королем поэтов»?

СНОБ
Выйти за рамки Выйти за рамки

Пять новых книг о креативности в 2023 году

FP. BusinessReview
Бережный уход Бережный уход

Как построить маршрут к новому, идеальному месту работы?

Добрые советы
Кто Вы, княгиня Эльга? Кто Вы, княгиня Эльга?

Отрывок из готовящейся к печати книги «Киев — Москва. Расхождение»

Дилетант
Недооцененные сиквелы, о которых все забыли Недооцененные сиквелы, о которых все забыли

Вторые, третьи и прочие части франшиз, которые затмили их предшественники

Maxim
Тень сомнений Тень сомнений

Кажется, что вскоре техника будет неотличима от магии, а мир наполнится чудесами

Правила жизни
Театр божественных действий Театр божественных действий

«Голда»: история первых дней войны Судного дня

Weekend
Тело как «Лего» Тело как «Лего»

Производители протезов борются за саморегулирование рынка ради пациентов

Эксперт
Легкой поступью Легкой поступью

Если болит стопа при ходьбе: 6 главных причин и лечение

Лиза
Античный коммунизм Античный коммунизм

Кто всех суровее в Древней Греции?

Дилетант
Гортензии на любой вкус и цвет Гортензии на любой вкус и цвет

Вторая половина лета и осень — пора цветения гортензий

Наука и жизнь
Что такое пранаяма и в чем ее польза Что такое пранаяма и в чем ее польза

Как пранаяма может улучшить ваше физическое и ментальное здоровье

РБК
Меню оптимистки. 14 продуктов, которые помогают в  борьбе с апатией и депрессией Меню оптимистки. 14 продуктов, которые помогают в  борьбе с апатией и депрессией

Правильное питание поможет поднять настроение и выйти из депрессии

Лиза
У природы нет плохой космической погоды? У природы нет плохой космической погоды?

Может ли из-за космической бури случиться инфаркт или инсульт?

Знание – сила
Артроз Артроз

Артрозом страдают множество людей. Всё чаще коленки «скрипят» и у 20–30-летних

Здоровье
Что делать, если подозреваешь у себя дефицит витамина D и почему нельзя принимать его без врача? Что делать, если подозреваешь у себя дефицит витамина D и почему нельзя принимать его без врача?

Как безопасно восполнять витамин D?

VOICE
«Граф» Пабло Ларраина: что будет, если диктатор окажется бессмертным вампиром «Граф» Пабло Ларраина: что будет, если диктатор окажется бессмертным вампиром

Как история о диктаторе-вампире оказывается менее интересной, чем ожидаешь

Forbes
Что происходит с морскими жителями во время ураганов? Что происходит с морскими жителями во время ураганов?

Замечают ли обитатели океанов стихию, что бушует на поверхности?

ТехИнсайдер
Ранняя седина. 12 неожиданных причин, о которых ты даже не думала Ранняя седина. 12 неожиданных причин, о которых ты даже не думала

В некоторых случаях седина может появиться раньше, чем ты ожидаешь. Почему так?

Лиза
Дзержинский и дети: почему в России не получилось декоммунизации Дзержинский и дети: почему в России не получилось декоммунизации

Почему в постсоветской России не появилось нового символа спецслужб

Forbes
Изобрели велосипед: как два брата из Ярославля покоряют водный мир Изобрели велосипед: как два брата из Ярославля покоряют водный мир

Почему братья Лукьяновы решили бросить вызов водной стихии

Forbes
Дневник предпринимательницы: как из булочной получилась диджитал-компания Дневник предпринимательницы: как из булочной получилась диджитал-компания

Может ли начинающий предприниматель выйти на большую торговую площадку?

Forbes
Байки из леса Байки из леса

Самые необычные истории от российских страховщиков

Деньги
Булка из детства: какой хлеб пекли в СССР и чем полезна ностальгия Булка из детства: какой хлеб пекли в СССР и чем полезна ностальгия

До сих пор с ностальгическим вздохом вспоминаете хлеб, который продавали в СССР?

Psychologies
Присмотритесь к близким: 6 признаков деменции, которые увидите только вы Присмотритесь к близким: 6 признаков деменции, которые увидите только вы

Как распознать первые симптомы деменции у близких?

Psychologies
Открыть в приложении