Каким цифровым «зельем» можно отравить нейросеть и к чему это приведет

РБКHi-Tech

Ложь, шум и капелька яда

Каким цифровым «зельем» можно отравить нейросеть и к чему это приведет

Автор: София Труцуненко, методический лид направления Data Science школы IT-профессий Skillfactory

Фото: Михаил Гребенщиков / РБК

Любой, кто работал с большими моделями ИИ (ChatGPT, Midjourney), знает, что сгенерированные тексты и изображения часто требуют коррекции или дополнительных уточнений. Нейросеть может придумывать цифры, создавать фальшивые объекты или признаки, которых на самом деле не было в исходных данных. Это довольно частое явление для больших генеративных моделей, которое еще называют галлюцинациями. Но за неправильными результатами могут скрываться не только ошибки модели, но и злонамеренные действия — отравление данных.

Что такое отравление данных

Отравление данных (data poisoning) — это атака на машинное обучение, во время которой злоумышленник вводит вредоносные данные в обучающий набор для нарушения работы алгоритма обучения и снижения его эффективности.

Чтобы понять, как работает отравление данных, нужно разобраться, как в общем работают алгоритмы машинного обучения. Изначально собирается большой набор данных, и от того, какие именно данные взяли, зависит результат. Следующий шаг — привести данные к одному формату, а для некоторых задач дополнительно снабдить их подсказками для алгоритма (разметкой). Далее алгоритм находит в них признаки и закономерности.

И когда обученный алгоритм сталкивается с данными, которые он еще не видел, он может решить эту задачу, опираясь на те правила, которые он для себя создал ранее. Отравление данных нарушает этот процесс, подмешивая в обучающий набор вредоносные сведения, которые искажают или запутывают обученный алгоритм.

Рассмотрим некоторые примеры таких атак.

  • Внесение шума (Noise Injection): добавление случайных или искаженных данных в обучающий набор.
  • Удаление данных (Data Removal): исключение части данных из обучающего набора.
  • Вставка ложных объектов (Object Insertion): добавление несуществующих или ложных объектов в обучающий набор. Сюда же входят скрытые надписи, вотермарки, изображения.
  • Изменение меток классов (Label Flipping): изменение или искажение разметки классов в обучающем наборе. То есть данные не добавляются, но происходит подмена: например, картинки с кошками подписываются как картинки с собаками, и наоборот.

Но гораздо интереснее те методы, которые нельзя заметить, ведь современные отравленные данные могут выглядеть нормально для человеческого глаза, но при этом они тоже будут ломать алгоритм.

Одним из самых громких примеров отравления данных является программа Nightshade, созданная исследователями Чикагского университета. Это ответ на достаточно больную этическую тему для больших генеративных ИИ-моделей — проблему авторского права.

Чтобы обучить качественную модель на уровне DALL-E и Midjourney, нужно не просто много данных, нужно очень много данных. И многие большие модели не обладают правами на работы, которые использовались в обучении. А результат работы — сгенерированная картинка, которая не имеет признаков интеллектуальной собственности. Nightshade незаметно вставляет признаки одного объекта на картинки с другим. Там, где человеческий глаз увидит собаку, нейронная сеть может воспринимать признаки и контуры другого объекта, например кота. Это позволяет создавать искажения в изображениях, которые остаются незамеченными человеком, но влияют на работу модели искусственного интеллекта, обученной на этих данных. Изображения меняются таким образом, что видимая разница минимальна.

Зоны риска

Отравление данных — это очень серьезный метод воздействия на системы искусственного интеллекта, он может привести к различным по степени негативным последствиям в зависимости от контекста и особенностей атаки. На эффективность отравления данных влияют степень его скрытности и сложность обнаружения изменений.

Цели атаки и контекст также влияют на последствия — от обмана локальных систем безопасности до воздействия на масштабные финансовые или медицинские системы.

Сейчас отравление данных существует и на уровне прикладных инструментов для незащищенных некрупных систем, и как глобальная угроза безопасности, которая изучается ведущими учеными и отраслевыми специалистами.

Искусственный интеллект внедряется во все чувствительные сферы нашей жизни: финансы, медицину, пропускные системы и даже поиск преступников. Последствия отравления данных могут быть катастрофическими. Вот несколько примеров.

Распознавание лиц: злоумышленник может добавить в обучающий набор чужие изображения лиц, взятые из открытых источников. Это может привести к тому, что невиновного человека задержат правоохранительные органы.

Медицинские данные: подмена истории болезни пациента или результатов анализов в медицинских приложениях. Такая атака может привести к ложному диагнозу.

Финансовые данные: из-за добавления фальшивых транзакций или ухищрений в финансовые данные человеку могут предъявить необоснованные обвинения в финансовых махинациях. А атака большего масштаба может спровоцировать дестабилизацию рынка.

Дорожная ситуация (беспилотные автомобили): злоумышленник может добавить деформированные дорожные знаки или маркировку на дорогах в систему распознавания. Это может привести к авариям и несчастным случаям.

Способы защиты

Чтобы минимизировать риски отравления данных, необходим системный подход к кибербезопасности. С одной стороны, он должен включать традиционные методы: мониторинг сетей и использование брандмауэров, антивирусов и обновление программного обеспечения. Кроме того, для обнаружения вредоносных воздействий алгоритмами машинного обучения могут решаться такие задачи, как мониторинг аномалий, фильтрация и валидация данных после обучения.

Специалисту, работающему с большими моделями и сложными признаками, важно регулярно мониторить и изучать данные, которые он использовал для обучения моделей искусственного интеллекта. Это позволит своевременно выявлять подозрительные или аномальные паттерны, которые могут свидетельствовать о внедрении отравленных данных.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Семь фильмов, которые помогут в поисках себя Семь фильмов, которые помогут в поисках себя

Как решиться сделать шаг в новом направлении или найти силы вернуться к себе?

Seasons of life
Обойдемся без искажений: как избавиться от стереотипного мышления Обойдемся без искажений: как избавиться от стереотипного мышления

Как проявляются когнитивные искажения, какими они бывают?

Forbes
Ольга Сварник: «Мозгу постоянно нужна новизна» Ольга Сварник: «Мозгу постоянно нужна новизна»

О мире, где человек вынужден конкурировать с нейросетями

РБК
Король умер — да сгинет король Король умер — да сгинет король

Людовик XV и Людовик XVI: насколько один плохой монарх должен быть хуже другого

Weekend
Незаменимый помощник орнитолога: как бинокль со встроенным искусственным интеллектом помогает определять виды птиц Незаменимый помощник орнитолога: как бинокль со встроенным искусственным интеллектом помогает определять виды птиц

Бинокль с искусственным интеллектом — shazam для орнитологов

ТехИнсайдер
Какой получилась итальянская визовая программа для цифровых кочевников Какой получилась итальянская визовая программа для цифровых кочевников

В начале апреля Италия запустила визовую программу Digital Nomad

Forbes
Родиной баобабов назвали Мадагаскар Родиной баобабов назвали Мадагаскар

Общий предок баобабов появился на Мадагаскаре 41,1 миллиона лет назад

N+1
Солнечный друг Солнечный друг

5 вопросов врачу по безопасному загару

Лиза
«Хитрости»: сериал о том, как уживаются друг с другом женщины разных поколений «Хитрости»: сериал о том, как уживаются друг с другом женщины разных поколений

«Хитрости»: сериал, рассказывающий о легенде стендапа Деборе Вэнс

Forbes
Поразительная польза чая матча: ученые утверждают, что полоскание рта этим напитком защищает от заболеваний десен Поразительная польза чая матча: ученые утверждают, что полоскание рта этим напитком защищает от заболеваний десен

Какой эффект можно получить от полоскания рта чаем матча?

ТехИнсайдер
Вячеслав Дубынин: «Важно помнить, что кроме цифрового мира есть мир реальный» Вячеслав Дубынин: «Важно помнить, что кроме цифрового мира есть мир реальный»

Как человеческий мозг адаптируется к цифровой реальности

РБК
Стена недоверия: почему интернет скоро перестанет быть глобальным Стена недоверия: почему интернет скоро перестанет быть глобальным

Почему всемирная сеть начала трансформироваться в геополитические кластеры

Forbes
Порочная прибыль Порочная прибыль

Как экономика Макао стала самой быстрорастущей в мире

Деньги
12 вещей, которые нельзя вытирать бумажными полотенцами: мнение профессиональных клинеров 12 вещей, которые нельзя вытирать бумажными полотенцами: мнение профессиональных клинеров

Стоят ли бумажные полотенца денег, которые мы за них платим?

VOICE
Надежда Зозуля: «Свёртывание крови – две стороны одной медали. С одной стороны – склонность к тромбозам, с другой – к не менее опасным кровотечениям» Надежда Зозуля: «Свёртывание крови – две стороны одной медали. С одной стороны – склонность к тромбозам, с другой – к не менее опасным кровотечениям»

Как понять, что есть проблемы со свертыванием крови? Что должно насторожить?

Здоровье
Мария Михалкова-Кончаловская: «Каждый проходит через отречение, чтобы потом понять, насколько это ценный дар — семья» Мария Михалкова-Кончаловская: «Каждый проходит через отречение, чтобы потом понять, насколько это ценный дар — семья»

Неважно, кто твои предки. Параллели прослеживаются ведь в любой семье

Коллекция. Караван историй
Тревожная демография: как резкое снижение рождаемости влияет на глобальную экономику и кто на этом зарабатывает Тревожная демография: как резкое снижение рождаемости влияет на глобальную экономику и кто на этом зарабатывает

Как связаны глобальная экономика и снижение рождаемости?

Inc.
10 автомобилей Джеймса Бонда — от худшего к лучшему 10 автомобилей Джеймса Бонда — от худшего к лучшему

Автомобили — важная часть любого фильма о Джеймсе Бонде. А какими они были?

Maxim
Эволюция смайликов: как выглядели первые эмодзи Эволюция смайликов: как выглядели первые эмодзи

Хотя кажется, что эмодзи является современной функцией, это на самом деле не так

ТехИнсайдер
Все дорожки ведут в Рим. Каким получился «Мегалополис» Фрэнсиса Форда Копполы? Все дорожки ведут в Рим. Каким получился «Мегалополис» Фрэнсиса Форда Копполы?

«Мегалополис» — многострадальный фильм, идею которого режиссер вынашивал с 1977

Правила жизни
10 автомобилей, которые с годами стали выглядеть еще лучше 10 автомобилей, которые с годами стали выглядеть еще лучше

Автомобили, которые с годами становятся только лучше

Maxim
Ученым удалось воссоздать лицо неандертальской женщины возрастом 75 тыс. лет. Ее нашли в братской пещерной могиле Ученым удалось воссоздать лицо неандертальской женщины возрастом 75 тыс. лет. Ее нашли в братской пещерной могиле

Внешность людей и неандертальцев отличалась не так сильно, как думали ученые

Inc.
«Претенденты»: спортивная драма с Зендеей о поединке на теннисном корте и в любви «Претенденты»: спортивная драма с Зендеей о поединке на теннисном корте и в любви

«Претенденты»: чего не хватило этой истории о любовном треугольнике на корте

Forbes
Роковое увлечение: как жить, если у твоего мужчины есть серьезное хобби Роковое увлечение: как жить, если у твоего мужчины есть серьезное хобби

Музыка,  рыбалка, фотография — его хобби только притворяются милыми и невинными!

VOICE
«Я уеду в Туву»: как регион стал перспективным вариантом для жизни «Я уеду в Туву»: как регион стал перспективным вариантом для жизни

Как Тува становится все более привлекательной и для жизни, и для туризма

Правила жизни
Даже простейшие морские организмы склонны к индивидуализму! Вот что это значит: интересный факт Даже простейшие морские организмы склонны к индивидуализму! Вот что это значит: интересный факт

Почему все организмы стремятся к ведению быта на основе индивидуальных ритмов?

ТехИнсайдер
Путешествие + лечение Путешествие + лечение

Что такое медицинский туризм и какие маршруты стали самыми популярными?

Новый очаг
Дьявол в деталях Дьявол в деталях

Языком моды Михаил Булгаков владел не менее виртуозно, чем литературным

Men Today
Сказка о гендерном равенстве: почему женщины в России зарабатывают меньше мужчин Сказка о гендерном равенстве: почему женщины в России зарабатывают меньше мужчин

Откуда берется гендерное неравенство в зарплате?

Forbes
«Их глаза видели бога»: лучшая история любви всех времен по мнению Опры Уинфри «Их глаза видели бога»: лучшая история любви всех времен по мнению Опры Уинфри

Отрывок из романа Зоры Нил Херстон «Их глаза видели бога»

Forbes
Открыть в приложении