Каким цифровым «зельем» можно отравить нейросеть и к чему это приведет

РБКHi-Tech

Ложь, шум и капелька яда

Каким цифровым «зельем» можно отравить нейросеть и к чему это приведет

Автор: София Труцуненко, методический лид направления Data Science школы IT-профессий Skillfactory

Фото: Михаил Гребенщиков / РБК

Любой, кто работал с большими моделями ИИ (ChatGPT, Midjourney), знает, что сгенерированные тексты и изображения часто требуют коррекции или дополнительных уточнений. Нейросеть может придумывать цифры, создавать фальшивые объекты или признаки, которых на самом деле не было в исходных данных. Это довольно частое явление для больших генеративных моделей, которое еще называют галлюцинациями. Но за неправильными результатами могут скрываться не только ошибки модели, но и злонамеренные действия — отравление данных.

Что такое отравление данных

Отравление данных (data poisoning) — это атака на машинное обучение, во время которой злоумышленник вводит вредоносные данные в обучающий набор для нарушения работы алгоритма обучения и снижения его эффективности.

Чтобы понять, как работает отравление данных, нужно разобраться, как в общем работают алгоритмы машинного обучения. Изначально собирается большой набор данных, и от того, какие именно данные взяли, зависит результат. Следующий шаг — привести данные к одному формату, а для некоторых задач дополнительно снабдить их подсказками для алгоритма (разметкой). Далее алгоритм находит в них признаки и закономерности.

И когда обученный алгоритм сталкивается с данными, которые он еще не видел, он может решить эту задачу, опираясь на те правила, которые он для себя создал ранее. Отравление данных нарушает этот процесс, подмешивая в обучающий набор вредоносные сведения, которые искажают или запутывают обученный алгоритм.

Рассмотрим некоторые примеры таких атак.

  • Внесение шума (Noise Injection): добавление случайных или искаженных данных в обучающий набор.
  • Удаление данных (Data Removal): исключение части данных из обучающего набора.
  • Вставка ложных объектов (Object Insertion): добавление несуществующих или ложных объектов в обучающий набор. Сюда же входят скрытые надписи, вотермарки, изображения.
  • Изменение меток классов (Label Flipping): изменение или искажение разметки классов в обучающем наборе. То есть данные не добавляются, но происходит подмена: например, картинки с кошками подписываются как картинки с собаками, и наоборот.

Но гораздо интереснее те методы, которые нельзя заметить, ведь современные отравленные данные могут выглядеть нормально для человеческого глаза, но при этом они тоже будут ломать алгоритм.

Одним из самых громких примеров отравления данных является программа Nightshade, созданная исследователями Чикагского университета. Это ответ на достаточно больную этическую тему для больших генеративных ИИ-моделей — проблему авторского права.

Чтобы обучить качественную модель на уровне DALL-E и Midjourney, нужно не просто много данных, нужно очень много данных. И многие большие модели не обладают правами на работы, которые использовались в обучении. А результат работы — сгенерированная картинка, которая не имеет признаков интеллектуальной собственности. Nightshade незаметно вставляет признаки одного объекта на картинки с другим. Там, где человеческий глаз увидит собаку, нейронная сеть может воспринимать признаки и контуры другого объекта, например кота. Это позволяет создавать искажения в изображениях, которые остаются незамеченными человеком, но влияют на работу модели искусственного интеллекта, обученной на этих данных. Изображения меняются таким образом, что видимая разница минимальна.

Зоны риска

Отравление данных — это очень серьезный метод воздействия на системы искусственного интеллекта, он может привести к различным по степени негативным последствиям в зависимости от контекста и особенностей атаки. На эффективность отравления данных влияют степень его скрытности и сложность обнаружения изменений.

Цели атаки и контекст также влияют на последствия — от обмана локальных систем безопасности до воздействия на масштабные финансовые или медицинские системы.

Сейчас отравление данных существует и на уровне прикладных инструментов для незащищенных некрупных систем, и как глобальная угроза безопасности, которая изучается ведущими учеными и отраслевыми специалистами.

Искусственный интеллект внедряется во все чувствительные сферы нашей жизни: финансы, медицину, пропускные системы и даже поиск преступников. Последствия отравления данных могут быть катастрофическими. Вот несколько примеров.

Распознавание лиц: злоумышленник может добавить в обучающий набор чужие изображения лиц, взятые из открытых источников. Это может привести к тому, что невиновного человека задержат правоохранительные органы.

Медицинские данные: подмена истории болезни пациента или результатов анализов в медицинских приложениях. Такая атака может привести к ложному диагнозу.

Финансовые данные: из-за добавления фальшивых транзакций или ухищрений в финансовые данные человеку могут предъявить необоснованные обвинения в финансовых махинациях. А атака большего масштаба может спровоцировать дестабилизацию рынка.

Дорожная ситуация (беспилотные автомобили): злоумышленник может добавить деформированные дорожные знаки или маркировку на дорогах в систему распознавания. Это может привести к авариям и несчастным случаям.

Способы защиты

Чтобы минимизировать риски отравления данных, необходим системный подход к кибербезопасности. С одной стороны, он должен включать традиционные методы: мониторинг сетей и использование брандмауэров, антивирусов и обновление программного обеспечения. Кроме того, для обнаружения вредоносных воздействий алгоритмами машинного обучения могут решаться такие задачи, как мониторинг аномалий, фильтрация и валидация данных после обучения.

Специалисту, работающему с большими моделями и сложными признаками, важно регулярно мониторить и изучать данные, которые он использовал для обучения моделей искусственного интеллекта. Это позволит своевременно выявлять подозрительные или аномальные паттерны, которые могут свидетельствовать о внедрении отравленных данных.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Иван и царевна-жаба Иван и царевна-жаба

Комик Иван Усович рассказал «Татлеру» о знаменитой жадности стендаперов

Tatler
Осушение превратило торфяные леса Индонезии в источник углекислого газа Осушение превратило торфяные леса Индонезии в источник углекислого газа

Дренаж повлиял на леса Индонезии даже хуже, чем регулярные природные засухи

N+1
Ольга Сварник: «Мозгу постоянно нужна новизна» Ольга Сварник: «Мозгу постоянно нужна новизна»

О мире, где человек вынужден конкурировать с нейросетями

РБК
Первый пациент с чипом Neuralink рассказал о жизни после операции Первый пациент с чипом Neuralink рассказал о жизни после операции

Первый пациент, которому вживили чип Neuralink, рассказал о жизни после операции

Forbes
«Любуйтесь, мамаша, вот он, ребенок ваш»: как женщины переживают акушерское насилие «Любуйтесь, мамаша, вот он, ребенок ваш»: как женщины переживают акушерское насилие

Книга казахской писательницы Алтынай Султан об опыте беременности

Forbes
С видом на простор С видом на простор

Смотреть мир — только на машине!

Новый очаг
«Постельный развод»: почему все чаще партнеры предпочитают спать в разных кроватях «Постельный развод»: почему все чаще партнеры предпочитают спать в разных кроватях

Почему раздельный сон может быть необходим в паре?

Forbes
Как удобно загрузить багажник в путешествии: 10 правил опытных автотуристов Как удобно загрузить багажник в путешествии: 10 правил опытных автотуристов

Как правильно разместить вещи в багажнике автомобиля?

ТехИнсайдер
На наконечниках стрел эпохи неолита нашли остатки человеческого белка На наконечниках стрел эпохи неолита нашли остатки человеческого белка

Ученые исследовали каменные наконечники стрел возрастом около 8-9 тысяч лет

N+1
5 вредных мифов о психиатрии, которые мешают вовремя получить помощь 5 вредных мифов о психиатрии, которые мешают вовремя получить помощь

Какие мифы о психиатрии встречаются чаще всего и что лежит в их основе?

Psychologies
«Мегалополис»: что Фрэнсис Форд Коппола думает о Римской империи и будущем Америки «Мегалополис»: что Фрэнсис Форд Коппола думает о Римской империи и будущем Америки

«Мегалополис»: каким получился новый фильм классика кинематографа

Forbes
Люди ледникового периода использовали черепах как «контейнеры с едой»! Интересный факт Люди ледникового периода использовали черепах как «контейнеры с едой»! Интересный факт

Черепахи могли быть «живым источником пиши» для людей ледникового периода

ТехИнсайдер
Опиум из народа Опиум из народа

Как Дени Вильнёв деколонизировал Дюну, но не смог изменить судьбу фременов

Weekend
Одному боту известно: как простейший софт помогает абитуриентам поступить Одному боту известно: как простейший софт помогает абитуриентам поступить

Как талантливые абитуриенты перегружают отечественные вузы летом?

Forbes
Муж-садист: какими были отношения Салтанат Нукеновой с Куандыком Бишимбаевым Муж-садист: какими были отношения Салтанат Нукеновой с Куандыком Бишимбаевым

Дело Салтанат: почему жертва домашнего насилия так и не ушла от мужа?

Psychologies
Пикап Dongfeng DF6. Navara для российского рынка Пикап Dongfeng DF6. Navara для российского рынка

Китайский пикап Dongfeng DF6 будит самые приятные воспоминания

4x4 Club
Малыш и море Малыш и море

Чек-лист и полезные советы, чтобы отпуск с ребенком на море был только в радость

Лиза
Гражданская авиация России: задачи, технологии, тенденции Гражданская авиация России: задачи, технологии, тенденции

Как развиваются аэропортовая сеть и региональные авиаперевозки

ФедералПресс
Радикальная оптимистка: как Дуа Липа заставила весь мир танцевать под свой бит Радикальная оптимистка: как Дуа Липа заставила весь мир танцевать под свой бит

Кто такая Дуа Липа и чем примечателен её альбом Radical Optimism?

Правила жизни
Укоренившаяся ассоциация: почему именно гвоздики — траурные цветы? Укоренившаяся ассоциация: почему именно гвоздики — траурные цветы?

Почему именно гвоздики получили такую мрачную ассоциацию?

ТехИнсайдер
Можно ли съесть слишком «много» белка Можно ли съесть слишком «много» белка

Задумывались ли вы когда-нибудь, не может ли избыток белка стать проблемой?

ТехИнсайдер
8 вопросов бизнес-психолога, которые помогут найти свой путь 8 вопросов бизнес-психолога, которые помогут найти свой путь

Как понять, чем вы хотите заниматься и какая должность удовлетворит ваши амбиции

Psychologies
Как правильно разместить коврик на кухне: 7 советов дизайнеров интерьера Как правильно разместить коврик на кухне: 7 советов дизайнеров интерьера

Нужны дизайнерские советы по размещению коврика на кухне? У нас есть несколько!

VOICE
Анна Большова: «Сейчас я думаю: «Сколько упущено! Сколько надо было сказать Николаю Петровичу...» Анна Большова: «Сейчас я думаю: «Сколько упущено! Сколько надо было сказать Николаю Петровичу...»

Караченцов был невероятно демократичным, как бы свой парень, душа нараспашку

Коллекция. Караван историй
Машина для большой семьи, которая вызывает ностальгию: обзор кросс-вэна Suzuki Ertiga Машина для большой семьи, которая вызывает ностальгию: обзор кросс-вэна Suzuki Ertiga

Олдскульный семиместный кросс-вэн Suzuki Ertiga

ТехИнсайдер
Феноменальное открытие: как атомные часы с квантовой запутанностью изменили развитие науки в мире Феноменальное открытие: как атомные часы с квантовой запутанностью изменили развитие науки в мире

JILA создал часы, используя квантовую зависимость

Inc.
«Жены приходят и уходят, а мама — одна»: как и почему матери вредят взрослым сыновьям «Жены приходят и уходят, а мама — одна»: как и почему матери вредят взрослым сыновьям

Какие ошибки матери и сыновья совершают на пути сепарации?

Psychologies
Хуже, чем преступление Хуже, чем преступление

Как появилась фраза «Это хуже, чем преступление, это ошибка»?

Дилетант
«Компании снижают градус серьезности» «Компании снижают градус серьезности»

Как перекус новостями и жажда новых зрелищ меняют тренды в индустрии контента

РБК
Детское золотое кольцо с драгоценным гранатом обнаружено в ходе раскопок в Иерусалиме. Кольцу 2300 лет Детское золотое кольцо с драгоценным гранатом обнаружено в ходе раскопок в Иерусалиме. Кольцу 2300 лет

Небольшое золотое кольцо с гранатом найдено при раскопках в Иерусалиме

ТехИнсайдер
Открыть в приложении