Каким цифровым «зельем» можно отравить нейросеть и к чему это приведет

РБКHi-Tech

Ложь, шум и капелька яда

Каким цифровым «зельем» можно отравить нейросеть и к чему это приведет

Автор: София Труцуненко, методический лид направления Data Science школы IT-профессий Skillfactory

Фото: Михаил Гребенщиков / РБК

Любой, кто работал с большими моделями ИИ (ChatGPT, Midjourney), знает, что сгенерированные тексты и изображения часто требуют коррекции или дополнительных уточнений. Нейросеть может придумывать цифры, создавать фальшивые объекты или признаки, которых на самом деле не было в исходных данных. Это довольно частое явление для больших генеративных моделей, которое еще называют галлюцинациями. Но за неправильными результатами могут скрываться не только ошибки модели, но и злонамеренные действия — отравление данных.

Что такое отравление данных

Отравление данных (data poisoning) — это атака на машинное обучение, во время которой злоумышленник вводит вредоносные данные в обучающий набор для нарушения работы алгоритма обучения и снижения его эффективности.

Чтобы понять, как работает отравление данных, нужно разобраться, как в общем работают алгоритмы машинного обучения. Изначально собирается большой набор данных, и от того, какие именно данные взяли, зависит результат. Следующий шаг — привести данные к одному формату, а для некоторых задач дополнительно снабдить их подсказками для алгоритма (разметкой). Далее алгоритм находит в них признаки и закономерности.

И когда обученный алгоритм сталкивается с данными, которые он еще не видел, он может решить эту задачу, опираясь на те правила, которые он для себя создал ранее. Отравление данных нарушает этот процесс, подмешивая в обучающий набор вредоносные сведения, которые искажают или запутывают обученный алгоритм.

Рассмотрим некоторые примеры таких атак.

  • Внесение шума (Noise Injection): добавление случайных или искаженных данных в обучающий набор.
  • Удаление данных (Data Removal): исключение части данных из обучающего набора.
  • Вставка ложных объектов (Object Insertion): добавление несуществующих или ложных объектов в обучающий набор. Сюда же входят скрытые надписи, вотермарки, изображения.
  • Изменение меток классов (Label Flipping): изменение или искажение разметки классов в обучающем наборе. То есть данные не добавляются, но происходит подмена: например, картинки с кошками подписываются как картинки с собаками, и наоборот.

Но гораздо интереснее те методы, которые нельзя заметить, ведь современные отравленные данные могут выглядеть нормально для человеческого глаза, но при этом они тоже будут ломать алгоритм.

Одним из самых громких примеров отравления данных является программа Nightshade, созданная исследователями Чикагского университета. Это ответ на достаточно больную этическую тему для больших генеративных ИИ-моделей — проблему авторского права.

Чтобы обучить качественную модель на уровне DALL-E и Midjourney, нужно не просто много данных, нужно очень много данных. И многие большие модели не обладают правами на работы, которые использовались в обучении. А результат работы — сгенерированная картинка, которая не имеет признаков интеллектуальной собственности. Nightshade незаметно вставляет признаки одного объекта на картинки с другим. Там, где человеческий глаз увидит собаку, нейронная сеть может воспринимать признаки и контуры другого объекта, например кота. Это позволяет создавать искажения в изображениях, которые остаются незамеченными человеком, но влияют на работу модели искусственного интеллекта, обученной на этих данных. Изображения меняются таким образом, что видимая разница минимальна.

Зоны риска

Отравление данных — это очень серьезный метод воздействия на системы искусственного интеллекта, он может привести к различным по степени негативным последствиям в зависимости от контекста и особенностей атаки. На эффективность отравления данных влияют степень его скрытности и сложность обнаружения изменений.

Цели атаки и контекст также влияют на последствия — от обмана локальных систем безопасности до воздействия на масштабные финансовые или медицинские системы.

Сейчас отравление данных существует и на уровне прикладных инструментов для незащищенных некрупных систем, и как глобальная угроза безопасности, которая изучается ведущими учеными и отраслевыми специалистами.

Искусственный интеллект внедряется во все чувствительные сферы нашей жизни: финансы, медицину, пропускные системы и даже поиск преступников. Последствия отравления данных могут быть катастрофическими. Вот несколько примеров.

Распознавание лиц: злоумышленник может добавить в обучающий набор чужие изображения лиц, взятые из открытых источников. Это может привести к тому, что невиновного человека задержат правоохранительные органы.

Медицинские данные: подмена истории болезни пациента или результатов анализов в медицинских приложениях. Такая атака может привести к ложному диагнозу.

Финансовые данные: из-за добавления фальшивых транзакций или ухищрений в финансовые данные человеку могут предъявить необоснованные обвинения в финансовых махинациях. А атака большего масштаба может спровоцировать дестабилизацию рынка.

Дорожная ситуация (беспилотные автомобили): злоумышленник может добавить деформированные дорожные знаки или маркировку на дорогах в систему распознавания. Это может привести к авариям и несчастным случаям.

Способы защиты

Чтобы минимизировать риски отравления данных, необходим системный подход к кибербезопасности. С одной стороны, он должен включать традиционные методы: мониторинг сетей и использование брандмауэров, антивирусов и обновление программного обеспечения. Кроме того, для обнаружения вредоносных воздействий алгоритмами машинного обучения могут решаться такие задачи, как мониторинг аномалий, фильтрация и валидация данных после обучения.

Специалисту, работающему с большими моделями и сложными признаками, важно регулярно мониторить и изучать данные, которые он использовал для обучения моделей искусственного интеллекта. Это позволит своевременно выявлять подозрительные или аномальные паттерны, которые могут свидетельствовать о внедрении отравленных данных.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Над облаками Над облаками

Интерьер, в котором соединились лаконичность экостиля и эстетика бохо

SALON-Interior
5 советов нелюбимым дочерям: как избавиться от вины и стыда 5 советов нелюбимым дочерям: как избавиться от вины и стыда

Пять шагов, которые помогут совладать с чувствами вины и стыда

Psychologies
Ольга Сварник: «Мозгу постоянно нужна новизна» Ольга Сварник: «Мозгу постоянно нужна новизна»

О мире, где человек вынужден конкурировать с нейросетями

РБК
«У меня нет контакта со всеми. У меня есть контакт с каждым». Отрывок из книги о детском спорте «У меня нет контакта со всеми. У меня есть контакт с каждым». Отрывок из книги о детском спорте

Как избежать физических и психологических травм в детском спорте

СНОБ
Как понять, что у вас дефицит железа Как понять, что у вас дефицит железа

Какие симптомы характерны для дефицита железа в организме?

ТехИнсайдер
Почему манга читается справа налево и какой в этом смысл Почему манга читается справа налево и какой в этом смысл

Что такое манга и как её читать?

Maxim
Тёмное зазеркалье Тёмное зазеркалье

Рядом с нами может существовать параллельный зеркальный мир, названный теневым

Наука и жизнь
«Здоровые границы — это главное условие». О чем новая книга Анны Бабич «Здоровые границы — это главное условие». О чем новая книга Анны Бабич

Анны Бабич: почему самооценка — краеугольный камень благополучной жизни

РБК
Лавочка древностей: секреты мастерства торговца антиквариатом и советы начинающим Лавочка древностей: секреты мастерства торговца антиквариатом и советы начинающим

«Каким антикваром быть не стоит»: ценные советы от Дрю Притчарда

Forbes
По ту сторону диагноза: как живет человек с рассеянным склерозом По ту сторону диагноза: как живет человек с рассеянным склерозом

История девушки с рассеянным склерозом, которая смогла добиться ремиссии

СНОБ
Жизнь без еды Жизнь без еды

Среди насекомых есть виды, которые во взрослом состоянии не питаются вовсе

Наука и жизнь
Соловецкое чудо Соловецкое чудо

Едем в Соловки плутать в лабиринтах и постигать русский дзен

Лиза
На склонах Окского каньона На склонах Окского каньона

Ока здесь течёт в узкой долине, за что она и получила название Окского каньона

Наука и жизнь
От поющих сестер до Spice Girls: как появились и почему исчезли женские группы От поющих сестер до Spice Girls: как появились и почему исчезли женские группы

О чем пели первые женские коллективы, как Spice Girls стали мировой сенсацией

Forbes
Среди старых находок с юга Испании обнаружили кость пещерного льва Среди старых находок с юга Испании обнаружили кость пещерного льва

Ученые исследовали фаунистические остатки, обнаруженные в пещере Каригуэла

N+1
Вопрос на засыпку: можно ли увидеть зеркало, и какого оно цвета? Вопрос на засыпку: можно ли увидеть зеркало, и какого оно цвета?

Какого цвета зеркало? И можно ли его вообще увидеть?

ТехИнсайдер
Симфония трех тысяч голосов Симфония трех тысяч голосов

Интервью с Сумитой Гхош, основательницей социального предприятия rangSutra

Позитивные изменения
Моника Вуд «Как читать книги». Глава из романа Моника Вуд «Как читать книги». Глава из романа

Добрый и трогательный роман о важности второго шанса «Как читать книги»

СНОБ
Человек с большой цифры Человек с большой цифры

Как технологии лишают нас сна, памяти, эмпатии и отучают знакомиться

Men Today
Двое российских миллиардеров из списка Forbes создают СП в области кибербезопасности Двое российских миллиардеров из списка Forbes создают СП в области кибербезопасности

Владимир Евтушенков и Юрий Максимов создают СП в области кибербезопасности

Forbes
Почему «Министерство неджентльменских дел» — самый обманчивый фильм Гая Ричи Почему «Министерство неджентльменских дел» — самый обманчивый фильм Гая Ричи

«Министерство неджентльменских дел» — фильм о тех, кому нет покоя в мирной жизни

Правила жизни
Штормовое предупреждение. 4 факта про укачивание (кинетоз) Штормовое предупреждение. 4 факта про укачивание (кинетоз)

Ищем оптимальное решение от «морской болезни» у детей

Лиза
Крошки мои: зачем нужна текстурирующая пудра для волос? Крошки мои: зачем нужна текстурирующая пудра для волос?

Пудра для волос: придание объема, небрежная укладка или эффект сухого шампуня

Правила жизни
Стюардесса рассказала, какие мифы об авиации в кино сильнее всего бесят Стюардесса рассказала, какие мифы об авиации в кино сильнее всего бесят

Мифы о стюардессах: высокие каблуки, запрещенные вещества и отношения с пилотами

Maxim
«Майор Гром: Игра слов»: эксклюзивный отрывок на MAXIM «Майор Гром: Игра слов»: эксклюзивный отрывок на MAXIM

Глава из книги «Майор Гром: Игра слов», в которой Игорь и Юля разгадывают тайну

Maxim
«Писать грустные песни — само по себе было протестом» «Писать грустные песни — само по себе было протестом»

Как Булат Окуджава сделал голос частного человека общественным явлением

Weekend
Экспромт-маринад Экспромт-маринад

Новые оттенки вкуса маринадов для шашлыков покорят всех!

Лиза
Эксперт рекомендует детям начинать использовать искусственный интеллект с 6 лет Эксперт рекомендует детям начинать использовать искусственный интеллект с 6 лет

Эксперты рекомендуют родителям обучать своих отпрысков ИИ уже с шести лет

ТехИнсайдер
Ментальное здоровье домашних животных: как справиться с расстройством пищевого поведения Ментальное здоровье домашних животных: как справиться с расстройством пищевого поведения

Как бороться с извращенным аппетитом у питомцев?

Psychologies
«Папа римский и война: Неизвестная история взаимоотношений Пия XII, Муссолини и Гитлера» «Папа римский и война: Неизвестная история взаимоотношений Пия XII, Муссолини и Гитлера»

Кто руководил кампанией против евреев в Италии

N+1
Открыть в приложении