Каким цифровым «зельем» можно отравить нейросеть и к чему это приведет

РБКHi-Tech

Ложь, шум и капелька яда

Каким цифровым «зельем» можно отравить нейросеть и к чему это приведет

Автор: София Труцуненко, методический лид направления Data Science школы IT-профессий Skillfactory

Фото: Михаил Гребенщиков / РБК

Любой, кто работал с большими моделями ИИ (ChatGPT, Midjourney), знает, что сгенерированные тексты и изображения часто требуют коррекции или дополнительных уточнений. Нейросеть может придумывать цифры, создавать фальшивые объекты или признаки, которых на самом деле не было в исходных данных. Это довольно частое явление для больших генеративных моделей, которое еще называют галлюцинациями. Но за неправильными результатами могут скрываться не только ошибки модели, но и злонамеренные действия — отравление данных.

Что такое отравление данных

Отравление данных (data poisoning) — это атака на машинное обучение, во время которой злоумышленник вводит вредоносные данные в обучающий набор для нарушения работы алгоритма обучения и снижения его эффективности.

Чтобы понять, как работает отравление данных, нужно разобраться, как в общем работают алгоритмы машинного обучения. Изначально собирается большой набор данных, и от того, какие именно данные взяли, зависит результат. Следующий шаг — привести данные к одному формату, а для некоторых задач дополнительно снабдить их подсказками для алгоритма (разметкой). Далее алгоритм находит в них признаки и закономерности.

И когда обученный алгоритм сталкивается с данными, которые он еще не видел, он может решить эту задачу, опираясь на те правила, которые он для себя создал ранее. Отравление данных нарушает этот процесс, подмешивая в обучающий набор вредоносные сведения, которые искажают или запутывают обученный алгоритм.

Рассмотрим некоторые примеры таких атак.

  • Внесение шума (Noise Injection): добавление случайных или искаженных данных в обучающий набор.
  • Удаление данных (Data Removal): исключение части данных из обучающего набора.
  • Вставка ложных объектов (Object Insertion): добавление несуществующих или ложных объектов в обучающий набор. Сюда же входят скрытые надписи, вотермарки, изображения.
  • Изменение меток классов (Label Flipping): изменение или искажение разметки классов в обучающем наборе. То есть данные не добавляются, но происходит подмена: например, картинки с кошками подписываются как картинки с собаками, и наоборот.

Но гораздо интереснее те методы, которые нельзя заметить, ведь современные отравленные данные могут выглядеть нормально для человеческого глаза, но при этом они тоже будут ломать алгоритм.

Одним из самых громких примеров отравления данных является программа Nightshade, созданная исследователями Чикагского университета. Это ответ на достаточно больную этическую тему для больших генеративных ИИ-моделей — проблему авторского права.

Чтобы обучить качественную модель на уровне DALL-E и Midjourney, нужно не просто много данных, нужно очень много данных. И многие большие модели не обладают правами на работы, которые использовались в обучении. А результат работы — сгенерированная картинка, которая не имеет признаков интеллектуальной собственности. Nightshade незаметно вставляет признаки одного объекта на картинки с другим. Там, где человеческий глаз увидит собаку, нейронная сеть может воспринимать признаки и контуры другого объекта, например кота. Это позволяет создавать искажения в изображениях, которые остаются незамеченными человеком, но влияют на работу модели искусственного интеллекта, обученной на этих данных. Изображения меняются таким образом, что видимая разница минимальна.

Зоны риска

Отравление данных — это очень серьезный метод воздействия на системы искусственного интеллекта, он может привести к различным по степени негативным последствиям в зависимости от контекста и особенностей атаки. На эффективность отравления данных влияют степень его скрытности и сложность обнаружения изменений.

Цели атаки и контекст также влияют на последствия — от обмана локальных систем безопасности до воздействия на масштабные финансовые или медицинские системы.

Сейчас отравление данных существует и на уровне прикладных инструментов для незащищенных некрупных систем, и как глобальная угроза безопасности, которая изучается ведущими учеными и отраслевыми специалистами.

Искусственный интеллект внедряется во все чувствительные сферы нашей жизни: финансы, медицину, пропускные системы и даже поиск преступников. Последствия отравления данных могут быть катастрофическими. Вот несколько примеров.

Распознавание лиц: злоумышленник может добавить в обучающий набор чужие изображения лиц, взятые из открытых источников. Это может привести к тому, что невиновного человека задержат правоохранительные органы.

Медицинские данные: подмена истории болезни пациента или результатов анализов в медицинских приложениях. Такая атака может привести к ложному диагнозу.

Финансовые данные: из-за добавления фальшивых транзакций или ухищрений в финансовые данные человеку могут предъявить необоснованные обвинения в финансовых махинациях. А атака большего масштаба может спровоцировать дестабилизацию рынка.

Дорожная ситуация (беспилотные автомобили): злоумышленник может добавить деформированные дорожные знаки или маркировку на дорогах в систему распознавания. Это может привести к авариям и несчастным случаям.

Способы защиты

Чтобы минимизировать риски отравления данных, необходим системный подход к кибербезопасности. С одной стороны, он должен включать традиционные методы: мониторинг сетей и использование брандмауэров, антивирусов и обновление программного обеспечения. Кроме того, для обнаружения вредоносных воздействий алгоритмами машинного обучения могут решаться такие задачи, как мониторинг аномалий, фильтрация и валидация данных после обучения.

Специалисту, работающему с большими моделями и сложными признаками, важно регулярно мониторить и изучать данные, которые он использовал для обучения моделей искусственного интеллекта. Это позволит своевременно выявлять подозрительные или аномальные паттерны, которые могут свидетельствовать о внедрении отравленных данных.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

По законам гостеприимства По законам гостеприимства

Солнечный интерьер, который встречает тепло и радостно

Идеи Вашего Дома
Не меньше 30% в парламенте: почему участие женщин в политике должно стать рутиной Не меньше 30% в парламенте: почему участие женщин в политике должно стать рутиной

Почему женщины в политике должны перестать быть исключениями из правил

Forbes
Работа по исполнению себя Работа по исполнению себя

Валентина Габышева о том, что такое призвание и как его в себе разглядеть

Seasons of life
Как удалить объект с фото онлайн — 3 простых и бесплатных способа Как удалить объект с фото онлайн — 3 простых и бесплатных способа

Как удалить ненужный объект с фото онлайн — быстро и бесплатно

CHIP
Как образ жизни влияет на качество секса: 3 ключевых фактора Как образ жизни влияет на качество секса: 3 ключевых фактора

Как изменения в образе жизни могут повлиять на сексуальную жизнь?

Psychologies
День, неделя, месяц: сколько нужно общаться онлайн перед первым свиданием День, неделя, месяц: сколько нужно общаться онлайн перед первым свиданием

Нужна ли долгая переписка перед тем, как согласиться на живое свидание?

Psychologies
Лайфхак на лето! Вот как фрукты помогают избегать обезвоживания: простой совет Лайфхак на лето! Вот как фрукты помогают избегать обезвоживания: простой совет

Как фрукты и овощи могут удовлетворить потребность в жидкости

ТехИнсайдер
Акварелист-виртуоз и фаворит президента. Что нужно знать про художника Сергея Андрияку Акварелист-виртуоз и фаворит президента. Что нужно знать про художника Сергея Андрияку

Как художник Сергей Андрияку относился к искусству и почему стал известным?

СНОБ
Бессмертие «цзы» Бессмертие «цзы»

Иероглифы в Поднебесной всегда воспринимались как нечто священное

Знание – сила
Короткие встречи Короткие встречи

Как открыть мир для тех, кто заперт

Новый очаг
«Кладбище самолетов»: какой у лайнеров срок годности и что с ними происходит, когда они больше не могут летать «Кладбище самолетов»: какой у лайнеров срок годности и что с ними происходит, когда они больше не могут летать

У всего в этом мире есть срок годности, даже у самолетов. Но где их «кладбища»?

ТехИнсайдер
Внутреннее ощущение «красоты» важнее, чем внешность Внутреннее ощущение «красоты» важнее, чем внешность

Намного важнее чувствовать себя хорошо, чем выглядеть хорошо

ТехИнсайдер
Укоренившаяся ассоциация: почему именно гвоздики — траурные цветы? Укоренившаяся ассоциация: почему именно гвоздики — траурные цветы?

Почему именно гвоздики получили такую мрачную ассоциацию?

ТехИнсайдер
Краса всей зелени известной Краса всей зелени известной

Спаржа лекарственная ведёт своё происхождение с берегов Средиземного моря

Наука и жизнь
Все фильмы ужасов «Пила» от худшего до самого убойного Все фильмы ужасов «Пила» от худшего до самого убойного

Почему некоторые ленты о Пиле прекрасны, а другие хочется распилить и сжечь

Maxim
Виды и типы мотоциклов: какие бывают и как называются Виды и типы мотоциклов: какие бывают и как называются

Какие мотоциклы бывают и чем они отличаются между собой?

РБК
Почти как люди: почему и как растет рынок товаров для питомцев в России и зарубежом Почти как люди: почему и как растет рынок товаров для питомцев в России и зарубежом

Чем обусловлен рост рынка зоотоваров?

Inc.
Как болельщики императора свергали Как болельщики императора свергали

Спортивные игры – идеальная среда для социального взрыва

Вокруг света
60% считают, что повседневные хлопоты могут помочь поддерживать себя в форме 60% считают, что повседневные хлопоты могут помочь поддерживать себя в форме

Можно ли выполнять норму физических упражнений, не ходя в зал?

ТехИнсайдер
Мать и дитя: что делать, если твоя мама начала вести себя, как ребенок Мать и дитя: что делать, если твоя мама начала вести себя, как ребенок

Почему может произойти смена ролей в семье?

VOICE
Сумасшедшие бактерии меняют главную догму биологии: они сами себе создают новые гены Сумасшедшие бактерии меняют главную догму биологии: они сами себе создают новые гены

Как показали ученые, бактерии могут создавать сами себе новые гены

ТехИнсайдер
Спускался к «Титанику», подлодке «Курск» и на дно Северного Ледовитого океана. Интервью с подводником и Героем России Евгением Черняевым Спускался к «Титанику», подлодке «Курск» и на дно Северного Ледовитого океана. Интервью с подводником и Героем России Евгением Черняевым

Евгений Черняев рассказал, что увидел во время погружения к подлодке «Курск»

СНОБ
«Их глаза видели бога»: лучшая история любви всех времен по мнению Опры Уинфри «Их глаза видели бога»: лучшая история любви всех времен по мнению Опры Уинфри

Отрывок из романа Зоры Нил Херстон «Их глаза видели бога»

Forbes
11 подсказок для общения с пожилыми родителями 11 подсказок для общения с пожилыми родителями

Как выстроить отношения взрослым детям со взрослыми родителями?

Psychologies
Посмотрите на реконструкцию лица мумии! Она таинственным образом появилась в школе в 1915 году Посмотрите на реконструкцию лица мумии! Она таинственным образом появилась в школе в 1915 году

«В процессе реконструкции есть момент, когда внезапно появляется лицо»

ТехИнсайдер
Следите за рукой Следите за рукой

Завораживающий сюрреализм: история офтальмолога, ставшего модным художником

RR Люкс.Личности.Бизнес.
Снимая святых Снимая святых

Глеб Панфилов как режиссер житий

Weekend
Горячие головы Горячие головы

Как позаботиться о прическе с приходом теплого времени года

Лиза
Андрей Журавлев: Динозавры — это ведь нечто среднее между медициной и паровозами Андрей Журавлев: Динозавры — это ведь нечто среднее между медициной и паровозами

Андрей Журавлев: чем питались мегалодоны и возможно ли сегодня оживить мамонта

СНОБ
Фундамент для PropTech Фундамент для PropTech

Как боты, ИИ и другие технологии меняют рынок недвижимости

РБК
Открыть в приложении