Чем грозит самообучение нейросетей на искусственных данных

РБКHi-Tech

Запрограммированный коллапс

Чем грозит самообучение нейросетей на искусственных данных

Что случится, если нейросети начнут обучаться на данных, которые они же и сгенерировали? Одно из возможных последствий — скорая деградация моделей ИИ, утверждает авторитетное издание VentureBeat, специализирующееся на новых технологиях.

ИИ в замешательстве

Создание контента при помощи нейросетей уже стало массовой практикой, обращают внимание авторы статьи The AI feedback loop: Researchers warn of 'model collapse' as AI trains on AI-generated content, опубликованной в VentureBeat. Так, половина сотрудников McKinsey применяют в своей работе инструменты генеративного ИИ, и эта тенденция только усиливается. Сегодня основная часть исходных данных, на которых обучаются нейросети, в основном создана людьми — это книги, статьи, фотографии и так далее. Но что произойдет, когда ИИ начнет обучаться на контенте, сгенерированном другим ИИ?

Группа исследователей из Великобритании и Канады опубликовала статью, в которой рассматривается именно этот вопрос. Их выводы неутешительны: использование для обучения ИИ данных, сгенерированных другими ИИ, приводит к необратимым дефектам в результирующих моделях.

Исследователи обратили особое внимание на вероятностные распределения для текстовых и генеративных моделей ИИ, генерирующих изображения. Выяснилось, что обучение на данных, произведенных другими моделями, вызывает «коллапс моделей» — дегенеративный процесс, при котором со временем модели забывают истинное распределение исходных данных. И происходит это довольно быстро.

Постепенно ошибки в сгенерированных данных накапливаются, в результате чего модели, обучающиеся на таких данных, начинают еще больше искажать реальность. Это приводит к тому, что они все больше ошибаются в своих ответах и генерируемом контенте, а также производят все меньше неповторяющегося, непротиворечивого контента.

«Аналогично тому, как мы заполнили океаны пластиковым мусором и атмосферу углекислым газом, мы собираемся заполнить интернет бессмысленной болтовней. Это усложнит обучение новых моделей путем парсинга веб-сайтов, давая преимущество компаниям, которые уже это сделали или которые контролируют доступ к человеческим интерфейсам», — заявил один из авторов статьи, профессор безопасности инженерии в Кембриджском университете и Университете Эдинбурга Росс Андерсон.

Почему происходит коллапс

Проблему деградации качества в продуктах ИИ можно сравнить с увеличением артефактов при многократном копировании изображения в формате JPEG. В качестве другой аналогии можно привести комедию 1996 года «Множество», в которой главный герой клонирует себя, а затем клонирует клонов, что приводит к экспоненциальному снижению уровня интеллекта у каждого нового клона.

Коллапс моделей происходит, когда данные, сгенерированные моделями ИИ, «загрязняют» тренировочный набор для последующих моделей. «Оригинальные антропогенные данные лучше отражают реальный мир, поскольку содержат в том числе неправдоподобную информацию, — объяснил Илья Шумайлов, один из авторов работы. — Генеративные модели, однако, имеют тенденцию к переобучению на популярных данных и часто неправильно понимают или интерпретируют менее популярные данные».

Если модель обучается на дата-сете c 10 изображениями синих котов и 90 желтых, ИИ запоминает, что желтые коты преобладают и показывает даже синих котов желтоватыми, а на запрос о новых данных выдает зеленых котов. С последующими циклами синий цвет и вовсе заменяется зеленоватым, переходя затем в желтый.

«Загрязнение» данными, сгенерированными ИИ, приводит к искажению восприятия реальности моделями. Даже когда исследователи обучали модели не создавать слишком много повторяющихся ответов, они обнаружили, что коллапс все равно происходит, поскольку ИИ начинает выдавать ошибочные ответы, чтобы избежать частого повторения данных.

Как решить проблему

Исследователи выделили два пути, которые позволяют избежать коллапса модели.

Первый — сохранение оригинального дата-сета, полностью или в основном созданного людьми, и предотвращение его смешивания с данными от ИИ. В этом случае модель можно периодически переобучать на этих данных или полностью обновлять с их использованием. Второй путь, который может уберечь от деградации в качестве ответов и сократить количество ошибок, — повторное введение в обучение ИИ нового очищенного антропогенного дата-сета.

Исследователи отмечают, что это потребует создания некоего механизма массовой маркировки или же усилий со стороны создателей контента или ИИ-компаний, которые позволят разделить данные от людей и машин. Также важно обеспечить справедливое представление менее популярной информации в дата-сете как с точки зрения количества, так и качества и точного описания характеристик. Это серьезный вызов, поскольку модели сложно обучать на редких событиях.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Безграничные возможности Безграничные возможности

10 университетов Азии, куда можно поехать на учебу в магистратуре

РБК
20 легендарных мультфильмов для всех возрастов, которые должен посмотреть каждый хоть раз в жизни 20 легендарных мультфильмов для всех возрастов, которые должен посмотреть каждый хоть раз в жизни

Мультики, которые стоит посмотреть всем вне зависимости от возраста

Правила жизни
Как в кино Как в кино

Новые технологии в кино – динамически меняющийся фотореалистичный фон

ТехИнсайдер
ИИ в школе: инструмент или угроза? ИИ в школе: инструмент или угроза?

Внедрение ИИ — неизбежный этап. Какова будущая роль учителя в новой системе?

Монокль
Культ счастья: почему это опасно Культ счастья: почему это опасно

Улучшает ли позитивное мышление качество жизни... или наоборот?

Grazia
Ксения Хаирова Ксения Хаирова

О Валентине Талызиной, актрисе поистине уникальной

Караван историй
Крыло, похожее на тюльпан, – винт вертолета Крыло, похожее на тюльпан, – винт вертолета

Как всего два винта делают вертолёт летающей машиной?

Наука и техника
Поклон Осаке Поклон Осаке

Футуристическая, эксцентричная Осака сохранила дух настоящего нонконформизма

Y Magazine
Свидание с Россией Свидание с Россией

Губернатор Ярославской области — чем заняться и где остановиться в регионе

RR Люкс.Личности.Бизнес.
Астрономы нашли наиболее вероятного кандидата в беззвездное гало темной материи субгалактической массы Астрономы нашли наиболее вероятного кандидата в беззвездное гало темной материи субгалактической массы

Астрономы подтвердили статус Cloud-9 как кандидата в объекты типа RELHIC

N+1
Алексей Маслов: «Для Китая Россия — это прежде всего точки продаж» Алексей Маслов: «Для Китая Россия — это прежде всего точки продаж»

Как развиваются связи РФ и КНР и чего ждать в будущем

РБК
Музыка — не в нотах Музыка — не в нотах

Что мы потеряли в музыке за последние сто лет, педантично следуя нотам?

СНОБ
Недетский полет: 5 вопросов о прыжках с парашютом в тандеме для тех, кто хочет попробовать Недетский полет: 5 вопросов о прыжках с парашютом в тандеме для тех, кто хочет попробовать

Кому можно прыгать с парашютом и как это делается

ТехИнсайдер
Ничего личного Ничего личного

Как защититься от хейта в Интернете

Лиза
Академик Петр Чумаков: вирусы позволяют увидеть раковые клетки и сформировать иммунный ответ Академик Петр Чумаков: вирусы позволяют увидеть раковые клетки и сформировать иммунный ответ

Вирусы дают надежду в лечении самых злокачественных видов рака

Наука
Что у Intel инсайд? Что у Intel инсайд?

В надежде спасти Intel Трамп покупает пакет компании. Кажется, это жест отчаяния

Монокль
Отправь меня на Луну Отправь меня на Луну

Цифра «три», похоже, стала для яхты Orion символом

Y Magazine
Флагман дальнего плавания Флагман дальнего плавания

Bering 165 — это судно с отвесным форштевнем и высоким бортом до миделя

Y Magazine
Сцена Сцена

Важнейшие события российской театральной сцены 2025

RR Люкс.Личности.Бизнес.
3 бизнес-ошибки сооснователя страховой компании «Лучи» Михаила Беляндинова 3 бизнес-ошибки сооснователя страховой компании «Лучи» Михаила Беляндинова

Сооснователь страховой компании — о том, куда не стоит распылять ресурсы

Inc.
Красота Красота

Новейшие технологии, научные открытия, драгоценные ингредиенты бьюти-индустрии

RR Люкс.Личности.Бизнес.
Продукты, которые могут оказаться опасными, если приготовить их неправильно Продукты, которые могут оказаться опасными, если приготовить их неправильно

Если неправильно приготовить эти блюда, последствия могут быть серьезными!

ТехИнсайдер
Простор для творчества Простор для творчества

Верфь Bilgin Yachts продолжает успешную серию 50‑метровых яхт Bilgin 163

Y Magazine
Догоняющие доходы Догоняющие доходы

Рост доходов субъектов обеспечила в основном положительная динамика НДФЛ

Ведомости
И снова в Канны И снова в Канны

Эту модель верфь выпустила в пару к уже строящейся As8 — более крупной яхте

Y Magazine
Гравитационное микролинзирование помогло выявить систему из звезды, коричневого карлика и экзопланеты Гравитационное микролинзирование помогло выявить систему из звезды, коричневого карлика и экзопланеты

Микролинзирование помогло обнаружить пару из красного и коричневого карликов

N+1
Гастрономия Гастрономия

Лучшие рестораны — новые и возрождённые

RR Люкс.Личности.Бизнес.
Свежий взгляд Свежий взгляд

Основательница компании Trinity Yachts Анна Гончарук о том, как начался ее путь

Y Magazine
Искусство Искусство

Главные тренды и события мирового арт-рынка за 2025 год

RR Люкс.Личности.Бизнес.
Колледж учит жизни Колледж учит жизни

Куда идут работать после выпуска из учебного заведения выпускники колледжей

Ведомости
Открыть в приложении