Каким цифровым «зельем» можно отравить нейросеть и к чему это приведет

РБКHi-Tech

Ложь, шум и капелька яда

Каким цифровым «зельем» можно отравить нейросеть и к чему это приведет

Автор: София Труцуненко, методический лид направления Data Science школы IT-профессий Skillfactory

Фото: Михаил Гребенщиков / РБК

Любой, кто работал с большими моделями ИИ (ChatGPT, Midjourney), знает, что сгенерированные тексты и изображения часто требуют коррекции или дополнительных уточнений. Нейросеть может придумывать цифры, создавать фальшивые объекты или признаки, которых на самом деле не было в исходных данных. Это довольно частое явление для больших генеративных моделей, которое еще называют галлюцинациями. Но за неправильными результатами могут скрываться не только ошибки модели, но и злонамеренные действия — отравление данных.

Что такое отравление данных

Отравление данных (data poisoning) — это атака на машинное обучение, во время которой злоумышленник вводит вредоносные данные в обучающий набор для нарушения работы алгоритма обучения и снижения его эффективности.

Чтобы понять, как работает отравление данных, нужно разобраться, как в общем работают алгоритмы машинного обучения. Изначально собирается большой набор данных, и от того, какие именно данные взяли, зависит результат. Следующий шаг — привести данные к одному формату, а для некоторых задач дополнительно снабдить их подсказками для алгоритма (разметкой). Далее алгоритм находит в них признаки и закономерности.

И когда обученный алгоритм сталкивается с данными, которые он еще не видел, он может решить эту задачу, опираясь на те правила, которые он для себя создал ранее. Отравление данных нарушает этот процесс, подмешивая в обучающий набор вредоносные сведения, которые искажают или запутывают обученный алгоритм.

Рассмотрим некоторые примеры таких атак.

  • Внесение шума (Noise Injection): добавление случайных или искаженных данных в обучающий набор.
  • Удаление данных (Data Removal): исключение части данных из обучающего набора.
  • Вставка ложных объектов (Object Insertion): добавление несуществующих или ложных объектов в обучающий набор. Сюда же входят скрытые надписи, вотермарки, изображения.
  • Изменение меток классов (Label Flipping): изменение или искажение разметки классов в обучающем наборе. То есть данные не добавляются, но происходит подмена: например, картинки с кошками подписываются как картинки с собаками, и наоборот.

Но гораздо интереснее те методы, которые нельзя заметить, ведь современные отравленные данные могут выглядеть нормально для человеческого глаза, но при этом они тоже будут ломать алгоритм.

Одним из самых громких примеров отравления данных является программа Nightshade, созданная исследователями Чикагского университета. Это ответ на достаточно больную этическую тему для больших генеративных ИИ-моделей — проблему авторского права.

Чтобы обучить качественную модель на уровне DALL-E и Midjourney, нужно не просто много данных, нужно очень много данных. И многие большие модели не обладают правами на работы, которые использовались в обучении. А результат работы — сгенерированная картинка, которая не имеет признаков интеллектуальной собственности. Nightshade незаметно вставляет признаки одного объекта на картинки с другим. Там, где человеческий глаз увидит собаку, нейронная сеть может воспринимать признаки и контуры другого объекта, например кота. Это позволяет создавать искажения в изображениях, которые остаются незамеченными человеком, но влияют на работу модели искусственного интеллекта, обученной на этих данных. Изображения меняются таким образом, что видимая разница минимальна.

Зоны риска

Отравление данных — это очень серьезный метод воздействия на системы искусственного интеллекта, он может привести к различным по степени негативным последствиям в зависимости от контекста и особенностей атаки. На эффективность отравления данных влияют степень его скрытности и сложность обнаружения изменений.

Цели атаки и контекст также влияют на последствия — от обмана локальных систем безопасности до воздействия на масштабные финансовые или медицинские системы.

Сейчас отравление данных существует и на уровне прикладных инструментов для незащищенных некрупных систем, и как глобальная угроза безопасности, которая изучается ведущими учеными и отраслевыми специалистами.

Искусственный интеллект внедряется во все чувствительные сферы нашей жизни: финансы, медицину, пропускные системы и даже поиск преступников. Последствия отравления данных могут быть катастрофическими. Вот несколько примеров.

Распознавание лиц: злоумышленник может добавить в обучающий набор чужие изображения лиц, взятые из открытых источников. Это может привести к тому, что невиновного человека задержат правоохранительные органы.

Медицинские данные: подмена истории болезни пациента или результатов анализов в медицинских приложениях. Такая атака может привести к ложному диагнозу.

Финансовые данные: из-за добавления фальшивых транзакций или ухищрений в финансовые данные человеку могут предъявить необоснованные обвинения в финансовых махинациях. А атака большего масштаба может спровоцировать дестабилизацию рынка.

Дорожная ситуация (беспилотные автомобили): злоумышленник может добавить деформированные дорожные знаки или маркировку на дорогах в систему распознавания. Это может привести к авариям и несчастным случаям.

Способы защиты

Чтобы минимизировать риски отравления данных, необходим системный подход к кибербезопасности. С одной стороны, он должен включать традиционные методы: мониторинг сетей и использование брандмауэров, антивирусов и обновление программного обеспечения. Кроме того, для обнаружения вредоносных воздействий алгоритмами машинного обучения могут решаться такие задачи, как мониторинг аномалий, фильтрация и валидация данных после обучения.

Специалисту, работающему с большими моделями и сложными признаками, важно регулярно мониторить и изучать данные, которые он использовал для обучения моделей искусственного интеллекта. Это позволит своевременно выявлять подозрительные или аномальные паттерны, которые могут свидетельствовать о внедрении отравленных данных.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Вадим Верник: «Я получил уникальную возможность пообщаться с Майей Плисецкой» Вадим Верник: «Я получил уникальную возможность пообщаться с Майей Плисецкой»

«Не просто взял интервью у легенды балета, а провел рядом с ней целых пять дней»

Караван историй
«Мониторинг цифровой трансформации бизнеса» «Мониторинг цифровой трансформации бизнеса»

Направления и тенденции цифровизации деловой среды

РБК
Ольга Сварник: «Мозгу постоянно нужна новизна» Ольга Сварник: «Мозгу постоянно нужна новизна»

О мире, где человек вынужден конкурировать с нейросетями

РБК
Самые известные подкаблучники в истории Самые известные подкаблучники в истории

Принято считать, что мужчины доминируют в семье, но у всех ли так?

Maxim
Пятый, индустриальный Пятый, индустриальный

Кадровые перестановки в правительстве и Администрации президента

Монокль
«Вдохновляющее порно»: как массовая культура использует образы людей с инвалидностью «Вдохновляющее порно»: как массовая культура использует образы людей с инвалидностью

Почему создателей фильмов про людей с инвалидностью критикуют?

Forbes
Еще по одной: 10 мини-сериалов, которые можно посмотреть за вечер Еще по одной: 10 мини-сериалов, которые можно посмотреть за вечер

Необычные мини-сериалы, которые вы могли пропустить

Правила жизни
Красный, как помидор: почему во время тренировки краснеет лицо и как это можно предотвратить Красный, как помидор: почему во время тренировки краснеет лицо и как это можно предотвратить

Почему люди краснеют во время занятий спортом?

ТехИнсайдер
Что такое глутатион и почему это вещество так важно для организма? Что такое глутатион и почему это вещество так важно для организма?

Глутатион: полезные свойства антиоксиданта и как его восполнять

Psychologies
От комичного до трагичного: кто и как играл Зигмунда Фрейда в кино От комичного до трагичного: кто и как играл Зигмунда Фрейда в кино

Кто и как играл австрийского психоаналитика на экране?

Правила жизни
Заповеди женского полка: отрывок из книги о бомбардировщицах — героях Великой Отечественной войны Заповеди женского полка: отрывок из книги о бомбардировщицах — героях Великой Отечественной войны

Воспоминания писателя Бориса Ласкина о женщинах на войне

СНОБ
Выкидыш, муж-тиран и страшная болезнь: трагедии «Моей прекрасной няни» Анастасии Заворотнюк Выкидыш, муж-тиран и страшная болезнь: трагедии «Моей прекрасной няни» Анастасии Заворотнюк

В жизни Анастасии Заворотнюк хватало поводов для слез

VOICE
«Как я встретил ее маму»: психологический разбор героев нового фильма «Как я встретил ее маму»: психологический разбор героев нового фильма

«Как я встретил ее маму»: характеры и мотивы главных героев

Psychologies
«Нужды путешественника»: как южнокорейская драма создает портрет женщины в эмиграции «Нужды путешественника»: как южнокорейская драма создает портрет женщины в эмиграции

Как в «Нуждах путешественника» рассказывается о женской судьбе в эмиграции

Forbes
Какие 7 шок-изменений в теле ты заметишь, если просто начнешь бегать по утрам Какие 7 шок-изменений в теле ты заметишь, если просто начнешь бегать по утрам

Ищем лучшую мотивацию для регулярных утренних пробежек!

VOICE
Кто я, если не я Кто я, если не я

«Я не киллер»: Ричард Линклейтер о 1990-х и кризисе самоидентификации

Weekend
Мария Михалкова-Кончаловская: «Я пытаюсь отучиться бросаться в омут с головой» Мария Михалкова-Кончаловская: «Я пытаюсь отучиться бросаться в омут с головой»

Молодая актриса рассказала, каково принадлежать к влиятельной актерской династии

Maxim
Что вас ждет, если вы влюбились в пассивно-агрессивного человека Что вас ждет, если вы влюбились в пассивно-агрессивного человека

Что движет пассивным агрессором?

Psychologies
Мария Аниканова: «Сергей Соловьев написал за меня сочинение, когда я призналась, что никогда в жизни его не напишу» Мария Аниканова: «Сергей Соловьев написал за меня сочинение, когда я призналась, что никогда в жизни его не напишу»

«У Соловьева на площадке царила особая атмосфера, которая просто обволакивала»

Караван историй
Почему астрология — лженаука: ученый опроверг утверждения о знаках зодиака и их влиянии на судьбу человека Почему астрология — лженаука: ученый опроверг утверждения о знаках зодиака и их влиянии на судьбу человека

Положение небесных тел в момент рождения человека не влияет на его судьбу

ТехИнсайдер
Слоны поприветствовали друг друга жестами и голосом Слоны поприветствовали друг друга жестами и голосом

Поведение слонов включает в себя совокупность вокализаций, движений и жестов

N+1
10 вещей, которые сделаны из нефти. Вы удивитесь! 10 вещей, которые сделаны из нефти. Вы удивитесь!

От шоколада до зубной пасты — многие товары для дома производятся из нефти

ТехИнсайдер
Почему важно читать книги: 5 неожиданных преимуществ для здоровья Почему важно читать книги: 5 неожиданных преимуществ для здоровья

Если вы до сих пор не любите читать, узнайте, какую пользу для здоровья теряете

ТехИнсайдер
Распространенная пищевая добавка снижает агрессивность на 30% Распространенная пищевая добавка снижает агрессивность на 30%

Добавки с рыбьим жиром, содержащие омега-3, снижают агрессивность

ТехИнсайдер
Психиатр Венедикта Ерофеева — о том, каким он был человеком Психиатр Венедикта Ерофеева — о том, каким он был человеком

Как в Венедикте Ерофееве сочетался алкоголизм и интеллектуальность

СНОБ
12 вещей, которые нельзя вытирать бумажными полотенцами: мнение профессиональных клинеров 12 вещей, которые нельзя вытирать бумажными полотенцами: мнение профессиональных клинеров

Стоят ли бумажные полотенца денег, которые мы за них платим?

VOICE
Ученым удалось воссоздать лицо неандертальской женщины возрастом 75 тыс. лет. Ее нашли в братской пещерной могиле Ученым удалось воссоздать лицо неандертальской женщины возрастом 75 тыс. лет. Ее нашли в братской пещерной могиле

Внешность людей и неандертальцев отличалась не так сильно, как думали ученые

Inc.
Новое увлечение у подростков: что такое фурри Новое увлечение у подростков: что такое фурри

Почему подростки интересуются культурой фурри?

Psychologies
Как удалить объект с фото онлайн — 3 простых и бесплатных способа Как удалить объект с фото онлайн — 3 простых и бесплатных способа

Как удалить ненужный объект с фото онлайн — быстро и бесплатно

CHIP
Я — сноб: писатель Шамиль Идиатуллин Я — сноб: писатель Шамиль Идиатуллин

Писатель Шамиль Идиатуллин — о своем романе и режиме «можно, в принципе»

СНОБ
Открыть в приложении