Чем грозит самообучение нейросетей на искусственных данных

РБКHi-Tech

Запрограммированный коллапс

Чем грозит самообучение нейросетей на искусственных данных

Что случится, если нейросети начнут обучаться на данных, которые они же и сгенерировали? Одно из возможных последствий — скорая деградация моделей ИИ, утверждает авторитетное издание VentureBeat, специализирующееся на новых технологиях.

ИИ в замешательстве

Создание контента при помощи нейросетей уже стало массовой практикой, обращают внимание авторы статьи The AI feedback loop: Researchers warn of 'model collapse' as AI trains on AI-generated content, опубликованной в VentureBeat. Так, половина сотрудников McKinsey применяют в своей работе инструменты генеративного ИИ, и эта тенденция только усиливается. Сегодня основная часть исходных данных, на которых обучаются нейросети, в основном создана людьми — это книги, статьи, фотографии и так далее. Но что произойдет, когда ИИ начнет обучаться на контенте, сгенерированном другим ИИ?

Группа исследователей из Великобритании и Канады опубликовала статью, в которой рассматривается именно этот вопрос. Их выводы неутешительны: использование для обучения ИИ данных, сгенерированных другими ИИ, приводит к необратимым дефектам в результирующих моделях.

Исследователи обратили особое внимание на вероятностные распределения для текстовых и генеративных моделей ИИ, генерирующих изображения. Выяснилось, что обучение на данных, произведенных другими моделями, вызывает «коллапс моделей» — дегенеративный процесс, при котором со временем модели забывают истинное распределение исходных данных. И происходит это довольно быстро.

Постепенно ошибки в сгенерированных данных накапливаются, в результате чего модели, обучающиеся на таких данных, начинают еще больше искажать реальность. Это приводит к тому, что они все больше ошибаются в своих ответах и генерируемом контенте, а также производят все меньше неповторяющегося, непротиворечивого контента.

«Аналогично тому, как мы заполнили океаны пластиковым мусором и атмосферу углекислым газом, мы собираемся заполнить интернет бессмысленной болтовней. Это усложнит обучение новых моделей путем парсинга веб-сайтов, давая преимущество компаниям, которые уже это сделали или которые контролируют доступ к человеческим интерфейсам», — заявил один из авторов статьи, профессор безопасности инженерии в Кембриджском университете и Университете Эдинбурга Росс Андерсон.

Почему происходит коллапс

Проблему деградации качества в продуктах ИИ можно сравнить с увеличением артефактов при многократном копировании изображения в формате JPEG. В качестве другой аналогии можно привести комедию 1996 года «Множество», в которой главный герой клонирует себя, а затем клонирует клонов, что приводит к экспоненциальному снижению уровня интеллекта у каждого нового клона.

Коллапс моделей происходит, когда данные, сгенерированные моделями ИИ, «загрязняют» тренировочный набор для последующих моделей. «Оригинальные антропогенные данные лучше отражают реальный мир, поскольку содержат в том числе неправдоподобную информацию, — объяснил Илья Шумайлов, один из авторов работы. — Генеративные модели, однако, имеют тенденцию к переобучению на популярных данных и часто неправильно понимают или интерпретируют менее популярные данные».

Если модель обучается на дата-сете c 10 изображениями синих котов и 90 желтых, ИИ запоминает, что желтые коты преобладают и показывает даже синих котов желтоватыми, а на запрос о новых данных выдает зеленых котов. С последующими циклами синий цвет и вовсе заменяется зеленоватым, переходя затем в желтый.

«Загрязнение» данными, сгенерированными ИИ, приводит к искажению восприятия реальности моделями. Даже когда исследователи обучали модели не создавать слишком много повторяющихся ответов, они обнаружили, что коллапс все равно происходит, поскольку ИИ начинает выдавать ошибочные ответы, чтобы избежать частого повторения данных.

Как решить проблему

Исследователи выделили два пути, которые позволяют избежать коллапса модели.

Первый — сохранение оригинального дата-сета, полностью или в основном созданного людьми, и предотвращение его смешивания с данными от ИИ. В этом случае модель можно периодически переобучать на этих данных или полностью обновлять с их использованием. Второй путь, который может уберечь от деградации в качестве ответов и сократить количество ошибок, — повторное введение в обучение ИИ нового очищенного антропогенного дата-сета.

Исследователи отмечают, что это потребует создания некоего механизма массовой маркировки или же усилий со стороны создателей контента или ИИ-компаний, которые позволят разделить данные от людей и машин. Также важно обеспечить справедливое представление менее популярной информации в дата-сете как с точки зрения количества, так и качества и точного описания характеристик. Это серьезный вызов, поскольку модели сложно обучать на редких событиях.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Робин из Локсли Робин из Локсли

О Робин Гуде сложены несколько десятков баллад

Дилетант
Ударная волна Ударная волна

Что такое падел и почему его называют «новым гольфом»

RR Люкс.Личности.Бизнес.
Движение вокруг недвижимости Движение вокруг недвижимости

Как искусственный интеллект захватывает один из ключевых рынков

РБК
Самая большая порода котов Самая большая порода котов

Какого кота или кошку завести, если ваша душа требует большой кошачьей любви.

Maxim
Екатерина Борисова: «BIM — это больше чем проектирование» Екатерина Борисова: «BIM — это больше чем проектирование»

Как BIM-проектирование помогает избежать ошибок в документации и сократить сроки

РБК
Работа с мотивацией Работа с мотивацией

Может ли ПДМ стать эффективным механизмом повышения капитализации госкомпаний?

Ведомости
Сергей Капица как искусственный интеллект Сергей Капица как искусственный интеллект

В чем опасность цифрового двойника человека

Наука
От вил до мема От вил до мема

Краткая история «Американской готики» Гранта Вуда

Weekend
Как женщины ухаживали за собой в старину? Как женщины ухаживали за собой в старину?

Помада из бычьего сала, бодяга, кипяченая зала — какой была косметика в старину

Культура.РФ
«Социальные науки как колдовство» «Социальные науки как колдовство»

Можно ли за цифрами спрятать несостоятельность научной мысли

N+1
Отыграть назад: почему камбэки старых групп стали настолько сильно всем нужны Отыграть назад: почему камбэки старых групп стали настолько сильно всем нужны

Почему вернувшиеся старые группы живут свою лучшую жизнь?

Правила жизни
Мягкая сила русского стиля Мягкая сила русского стиля

Масштабная площадка, рассказывающая о русской идентичности и новом образе жизни

Монокль
Базальты с обратной стороны Луны возникли из истощенной мантии Базальты с обратной стороны Луны возникли из истощенной мантии

Источником базальтов, добытых станцией «Чанъэ-6», была мантия из слоев Луны

N+1
Униженные, оскорбленные и обиженные Униженные, оскорбленные и обиженные

Как писатели задевали близких своими произведениями

Weekend
Польза печени трески: почему врачи рекомендуют есть этот деликатес зимой Польза печени трески: почему врачи рекомендуют есть этот деликатес зимой

Вкусная на бутерброде, источник незаменимых витаминов — все это печень трески

РБК
Марсоход Perseverance побил рекорд на Марсе — такого еще не делал ни один робот Марсоход Perseverance побил рекорд на Марсе — такого еще не делал ни один робот

Марсоход NASA Perseverance вышел на «открытую дорогу» Марса

Inc.
Величавый коровяк Величавый коровяк

Величавый коровяк: высокий, стройный, мощный, прочно вросший в землю

Наука и жизнь
Пять качеств личности, которые приводят к успеху Пять качеств личности, которые приводят к успеху

Что помогает предпринимателю привлекать команду и выстраивать сильный бизнес?

Inc.
Губки на роструме снизили эффективность эхолокации афалин Губки на роструме снизили эффективность эхолокации афалин

Почему афалины редко охотятся с губками на роструме?

N+1
Крупным франшизам запрещают быть эксклюзивными Крупным франшизам запрещают быть эксклюзивными

Суд признал права франчайзи продавать не только товары франчайзера

Forbes
Зазеркалье времени: лучшие экранизации «Алисы в Стране чудес» — от немого кино до голливудского фэнтези Зазеркалье времени: лучшие экранизации «Алисы в Стране чудес» — от немого кино до голливудского фэнтези

Самые значимые экранизации «Алисы»: как каждая из них отражает свое время

Правила жизни
Что означают символы на вашей стиральной машине: выбираем подходящий режим стирки без головной боли Что означают символы на вашей стиральной машине: выбираем подходящий режим стирки без головной боли

Расшифровка знаков на стиральной машине: какой режим для чего предназначен?

ТехИнсайдер
5 причин образования жира на животе 5 причин образования жира на животе

Привычки, которые способствуют образованию жира на животе и висцерального жира

ТехИнсайдер
Самые красивые заповедники России Самые красивые заповедники России

Российские заповедники, отличающиеся необычайной красотой

ТехИнсайдер
Почему голубые пейзажи вызывают ностальгию и улучшают психическое самочувствие Почему голубые пейзажи вызывают ностальгию и улучшают психическое самочувствие

Как ностальгия влияет на наше психическое благополучие

ТехИнсайдер
Страховка с биткойном Страховка с биткойном

Как работают инвестиционные полисы с привязкой к биткойну

Ведомости
Денис Власенко: «Все-таки мир не черно-белый» Денис Власенко: «Все-таки мир не черно-белый»

Денис Власенко о «супергеройских» ролях и о том, каково это в возрастном гриме

Ведомости
Объект, обнаруженный на краю Солнечной системы, бросает тень на существование Девятой планеты Объект, обнаруженный на краю Солнечной системы, бросает тень на существование Девятой планеты

Чем уникален седноид на краю Солнечной системы, получивший прозвище «Аммонит»

Inc.
Антон Мегердичев: Хотите что-то изменить — так меняйте сейчас Антон Мегердичев: Хотите что-то изменить — так меняйте сейчас

Режиссер Антон Мегердичев — как кино может зомбировать зрителя

Ведомости
Дама с уликами: как Агата Кристи стала одним из самых продаваемых авторов в истории Дама с уликами: как Агата Кристи стала одним из самых продаваемых авторов в истории

История Агаты Кристи — одной из самых издаваемых и переводимых писательниц

Forbes
Открыть в приложении