Каким цифровым «зельем» можно отравить нейросеть и к чему это приведет

РБКHi-Tech

Ложь, шум и капелька яда

Каким цифровым «зельем» можно отравить нейросеть и к чему это приведет

Автор: София Труцуненко, методический лид направления Data Science школы IT-профессий Skillfactory

Фото: Михаил Гребенщиков / РБК

Любой, кто работал с большими моделями ИИ (ChatGPT, Midjourney), знает, что сгенерированные тексты и изображения часто требуют коррекции или дополнительных уточнений. Нейросеть может придумывать цифры, создавать фальшивые объекты или признаки, которых на самом деле не было в исходных данных. Это довольно частое явление для больших генеративных моделей, которое еще называют галлюцинациями. Но за неправильными результатами могут скрываться не только ошибки модели, но и злонамеренные действия — отравление данных.

Что такое отравление данных

Отравление данных (data poisoning) — это атака на машинное обучение, во время которой злоумышленник вводит вредоносные данные в обучающий набор для нарушения работы алгоритма обучения и снижения его эффективности.

Чтобы понять, как работает отравление данных, нужно разобраться, как в общем работают алгоритмы машинного обучения. Изначально собирается большой набор данных, и от того, какие именно данные взяли, зависит результат. Следующий шаг — привести данные к одному формату, а для некоторых задач дополнительно снабдить их подсказками для алгоритма (разметкой). Далее алгоритм находит в них признаки и закономерности.

И когда обученный алгоритм сталкивается с данными, которые он еще не видел, он может решить эту задачу, опираясь на те правила, которые он для себя создал ранее. Отравление данных нарушает этот процесс, подмешивая в обучающий набор вредоносные сведения, которые искажают или запутывают обученный алгоритм.

Рассмотрим некоторые примеры таких атак.

  • Внесение шума (Noise Injection): добавление случайных или искаженных данных в обучающий набор.
  • Удаление данных (Data Removal): исключение части данных из обучающего набора.
  • Вставка ложных объектов (Object Insertion): добавление несуществующих или ложных объектов в обучающий набор. Сюда же входят скрытые надписи, вотермарки, изображения.
  • Изменение меток классов (Label Flipping): изменение или искажение разметки классов в обучающем наборе. То есть данные не добавляются, но происходит подмена: например, картинки с кошками подписываются как картинки с собаками, и наоборот.

Но гораздо интереснее те методы, которые нельзя заметить, ведь современные отравленные данные могут выглядеть нормально для человеческого глаза, но при этом они тоже будут ломать алгоритм.

Одним из самых громких примеров отравления данных является программа Nightshade, созданная исследователями Чикагского университета. Это ответ на достаточно больную этическую тему для больших генеративных ИИ-моделей — проблему авторского права.

Чтобы обучить качественную модель на уровне DALL-E и Midjourney, нужно не просто много данных, нужно очень много данных. И многие большие модели не обладают правами на работы, которые использовались в обучении. А результат работы — сгенерированная картинка, которая не имеет признаков интеллектуальной собственности. Nightshade незаметно вставляет признаки одного объекта на картинки с другим. Там, где человеческий глаз увидит собаку, нейронная сеть может воспринимать признаки и контуры другого объекта, например кота. Это позволяет создавать искажения в изображениях, которые остаются незамеченными человеком, но влияют на работу модели искусственного интеллекта, обученной на этих данных. Изображения меняются таким образом, что видимая разница минимальна.

Зоны риска

Отравление данных — это очень серьезный метод воздействия на системы искусственного интеллекта, он может привести к различным по степени негативным последствиям в зависимости от контекста и особенностей атаки. На эффективность отравления данных влияют степень его скрытности и сложность обнаружения изменений.

Цели атаки и контекст также влияют на последствия — от обмана локальных систем безопасности до воздействия на масштабные финансовые или медицинские системы.

Сейчас отравление данных существует и на уровне прикладных инструментов для незащищенных некрупных систем, и как глобальная угроза безопасности, которая изучается ведущими учеными и отраслевыми специалистами.

Искусственный интеллект внедряется во все чувствительные сферы нашей жизни: финансы, медицину, пропускные системы и даже поиск преступников. Последствия отравления данных могут быть катастрофическими. Вот несколько примеров.

Распознавание лиц: злоумышленник может добавить в обучающий набор чужие изображения лиц, взятые из открытых источников. Это может привести к тому, что невиновного человека задержат правоохранительные органы.

Медицинские данные: подмена истории болезни пациента или результатов анализов в медицинских приложениях. Такая атака может привести к ложному диагнозу.

Финансовые данные: из-за добавления фальшивых транзакций или ухищрений в финансовые данные человеку могут предъявить необоснованные обвинения в финансовых махинациях. А атака большего масштаба может спровоцировать дестабилизацию рынка.

Дорожная ситуация (беспилотные автомобили): злоумышленник может добавить деформированные дорожные знаки или маркировку на дорогах в систему распознавания. Это может привести к авариям и несчастным случаям.

Способы защиты

Чтобы минимизировать риски отравления данных, необходим системный подход к кибербезопасности. С одной стороны, он должен включать традиционные методы: мониторинг сетей и использование брандмауэров, антивирусов и обновление программного обеспечения. Кроме того, для обнаружения вредоносных воздействий алгоритмами машинного обучения могут решаться такие задачи, как мониторинг аномалий, фильтрация и валидация данных после обучения.

Специалисту, работающему с большими моделями и сложными признаками, важно регулярно мониторить и изучать данные, которые он использовал для обучения моделей искусственного интеллекта. Это позволит своевременно выявлять подозрительные или аномальные паттерны, которые могут свидетельствовать о внедрении отравленных данных.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Идти ли к психологу? 6 поводов для сомнений Идти ли к психологу? 6 поводов для сомнений

Какие страхи и предубеждения мешают обратиться к психологу?

Psychologies
Тревожная демография: как резкое снижение рождаемости влияет на глобальную экономику и кто на этом зарабатывает Тревожная демография: как резкое снижение рождаемости влияет на глобальную экономику и кто на этом зарабатывает

Как связаны глобальная экономика и снижение рождаемости?

Inc.
Ольга Сварник: «Мозгу постоянно нужна новизна» Ольга Сварник: «Мозгу постоянно нужна новизна»

О мире, где человек вынужден конкурировать с нейросетями

РБК
И/ИЛИ И/ИЛИ

Отношения народа со своим голосом в рассказе Кафки «Жозефина, или Народ мышей»

Weekend
Мощный и быстрый «Буревестник»: как устроены ядерные двигатели для ракет Мощный и быстрый «Буревестник»: как устроены ядерные двигатели для ракет

Как работает ракета «Буревестник» с ядерным воздушно-реактивным двигателем?

ТехИнсайдер
«Конвейером нас не испугать!» Как братья Додж утерли нос Генри Форду «Конвейером нас не испугать!» Как братья Додж утерли нос Генри Форду

Почему Генри Форд боялся братьев Додж?

ТехИнсайдер
Битва техники: что лучше — отпариватель или утюг Битва техники: что лучше — отпариватель или утюг

Какой из приборов для глажки одежды поможет добиться наилучшего эффекта?

ТехИнсайдер
Как избавиться от тревожных мыслей: 2 полезных упражнения Как избавиться от тревожных мыслей: 2 полезных упражнения

Техника медитации и практика наблюдателя для обуздания тревожных мыслей

Psychologies
Братья «Не-Пушкины» Братья «Не-Пушкины»

Почему Александр Пушкин не писал о своих троюродных дедах — Сергее и Михаиле?

Знание – сила
Еще по одной: 10 мини-сериалов, которые можно посмотреть за вечер Еще по одной: 10 мини-сериалов, которые можно посмотреть за вечер

Необычные мини-сериалы, которые вы могли пропустить

Правила жизни
Спортивный уголок Спортивный уголок

5 способов организовать место для тренировок в квартире

Лиза
Почему косатки атакуют лодки по всему миру — нашлось объяснение Почему косатки атакуют лодки по всему миру — нашлось объяснение

Оказалось, что юные косатки нападают на лодки просто ради забавы

Maxim
Почему у некоторых собак хвост колечком? Зачем вообще собакам хвост? Почему у некоторых собак хвост колечком? Зачем вообще собакам хвост?

Почему природа для каждого бобика придумала разные хвосты?

ТехИнсайдер
Страстная пятница: чем заняться в этот день неверующему человеку Страстная пятница: чем заняться в этот день неверующему человеку

Чем можно заняться в Страстную пятницу тем, кто далек от религии?

Psychologies
Белое или красное Белое или красное

Продукты и блюда, которые отлично сочетаются с разными видами вина

Лиза
Путешествие с друзьями: 10 советов Путешествие с друзьями: 10 советов

Рекомендации для тех, кто хочет взять с собой хвостатых в отпуск

Новый очаг
А как иначе? На детей нельзя кричать даже для воспитания: вот что об этом говорит наука! А как иначе? На детей нельзя кричать даже для воспитания: вот что об этом говорит наука!

Имеют ли крики и суровые словесные наказания негативные последствия на ребенка?

ТехИнсайдер
«Цербер»: детектив о жестоких убийствах, которые начались в Петербурге в 1826 году «Цербер»: детектив о жестоких убийствах, которые начались в Петербурге в 1826 году

Глава из романа «Цербер» — о серии жестоких убийств, которые происходили в 1826

Forbes
Богатые, жадные и одинокие: почему богачей не любят и что об этом говорит наука Богатые, жадные и одинокие: почему богачей не любят и что об этом говорит наука

Какие существуют исследования взаимосвязи нравственности и богатства

Forbes
Екатерина Стулова: «Если меня любят, то я готова прыгать через костер, бегать по снегу» Екатерина Стулова: «Если меня любят, то я готова прыгать через костер, бегать по снегу»

Для меня все проекты являются самыми психологически и физически затратными

Коллекция. Караван историй
Идеи для девичника: как провести время с подругами Идеи для девичника: как провести время с подругами

Как организовать девичник так, чтобы он запомнился и понравился всем участникам?

Здоровье
Сверхдоход или любовь к жирафам: семь ошибок при запуске своего бизнеса в Африке Сверхдоход или любовь к жирафам: семь ошибок при запуске своего бизнеса в Африке

Самые распространенные ошибки начинающих свой африканский путь предпринимателей

Forbes
Готовы ли мы оказать помощь: за это отвечает определенный регион мозга, который нашли ученые Готовы ли мы оказать помощь: за это отвечает определенный регион мозга, который нашли ученые

Нейробиологи установили регион мозга, ответственный за помощь другим

ТехИнсайдер
8 вопросов бизнес-психолога, которые помогут найти свой путь 8 вопросов бизнес-психолога, которые помогут найти свой путь

Как понять, чем вы хотите заниматься и какая должность удовлетворит ваши амбиции

Psychologies
Все фильмы ужасов «Пила» от худшего до самого убойного Все фильмы ужасов «Пила» от худшего до самого убойного

Почему некоторые ленты о Пиле прекрасны, а другие хочется распилить и сжечь

Maxim
Психологическая поддержка для мужчин: как выбрать специалиста — чек-лист Психологическая поддержка для мужчин: как выбрать специалиста — чек-лист

Как мужчине как не ошибиться с выбором специалиста и как оценить терапию?

Psychologies
«Трудные подростки»: создатели социального проекта вокруг сериала — о его влиянии на общество «Трудные подростки»: создатели социального проекта вокруг сериала — о его влиянии на общество

Создатели сериала «Трудные подростки» о проблемных тинейджерах и обществе

СНОБ
Зигзаг удачи Зигзаг удачи

Три личные и искренние истории поисков и открытий себя

Psychologies
Грузия сумела сказать «нет» Западу Грузия сумела сказать «нет» Западу

Какое будущее выбрали для страны нынешние грузинские политические элиты

Монокль
Ностальгия по великому: 4 самые крутые гидростройки СССР Ностальгия по великому: 4 самые крутые гидростройки СССР

Как решить, какую стройку считать великой, а какую нет?

ТехИнсайдер
Открыть в приложении