Чем грозит самообучение нейросетей на искусственных данных

РБКHi-Tech

Запрограммированный коллапс

Чем грозит самообучение нейросетей на искусственных данных

Что случится, если нейросети начнут обучаться на данных, которые они же и сгенерировали? Одно из возможных последствий — скорая деградация моделей ИИ, утверждает авторитетное издание VentureBeat, специализирующееся на новых технологиях.

ИИ в замешательстве

Создание контента при помощи нейросетей уже стало массовой практикой, обращают внимание авторы статьи The AI feedback loop: Researchers warn of 'model collapse' as AI trains on AI-generated content, опубликованной в VentureBeat. Так, половина сотрудников McKinsey применяют в своей работе инструменты генеративного ИИ, и эта тенденция только усиливается. Сегодня основная часть исходных данных, на которых обучаются нейросети, в основном создана людьми — это книги, статьи, фотографии и так далее. Но что произойдет, когда ИИ начнет обучаться на контенте, сгенерированном другим ИИ?

Группа исследователей из Великобритании и Канады опубликовала статью, в которой рассматривается именно этот вопрос. Их выводы неутешительны: использование для обучения ИИ данных, сгенерированных другими ИИ, приводит к необратимым дефектам в результирующих моделях.

Исследователи обратили особое внимание на вероятностные распределения для текстовых и генеративных моделей ИИ, генерирующих изображения. Выяснилось, что обучение на данных, произведенных другими моделями, вызывает «коллапс моделей» — дегенеративный процесс, при котором со временем модели забывают истинное распределение исходных данных. И происходит это довольно быстро.

Постепенно ошибки в сгенерированных данных накапливаются, в результате чего модели, обучающиеся на таких данных, начинают еще больше искажать реальность. Это приводит к тому, что они все больше ошибаются в своих ответах и генерируемом контенте, а также производят все меньше неповторяющегося, непротиворечивого контента.

«Аналогично тому, как мы заполнили океаны пластиковым мусором и атмосферу углекислым газом, мы собираемся заполнить интернет бессмысленной болтовней. Это усложнит обучение новых моделей путем парсинга веб-сайтов, давая преимущество компаниям, которые уже это сделали или которые контролируют доступ к человеческим интерфейсам», — заявил один из авторов статьи, профессор безопасности инженерии в Кембриджском университете и Университете Эдинбурга Росс Андерсон.

Почему происходит коллапс

Проблему деградации качества в продуктах ИИ можно сравнить с увеличением артефактов при многократном копировании изображения в формате JPEG. В качестве другой аналогии можно привести комедию 1996 года «Множество», в которой главный герой клонирует себя, а затем клонирует клонов, что приводит к экспоненциальному снижению уровня интеллекта у каждого нового клона.

Коллапс моделей происходит, когда данные, сгенерированные моделями ИИ, «загрязняют» тренировочный набор для последующих моделей. «Оригинальные антропогенные данные лучше отражают реальный мир, поскольку содержат в том числе неправдоподобную информацию, — объяснил Илья Шумайлов, один из авторов работы. — Генеративные модели, однако, имеют тенденцию к переобучению на популярных данных и часто неправильно понимают или интерпретируют менее популярные данные».

Если модель обучается на дата-сете c 10 изображениями синих котов и 90 желтых, ИИ запоминает, что желтые коты преобладают и показывает даже синих котов желтоватыми, а на запрос о новых данных выдает зеленых котов. С последующими циклами синий цвет и вовсе заменяется зеленоватым, переходя затем в желтый.

«Загрязнение» данными, сгенерированными ИИ, приводит к искажению восприятия реальности моделями. Даже когда исследователи обучали модели не создавать слишком много повторяющихся ответов, они обнаружили, что коллапс все равно происходит, поскольку ИИ начинает выдавать ошибочные ответы, чтобы избежать частого повторения данных.

Как решить проблему

Исследователи выделили два пути, которые позволяют избежать коллапса модели.

Первый — сохранение оригинального дата-сета, полностью или в основном созданного людьми, и предотвращение его смешивания с данными от ИИ. В этом случае модель можно периодически переобучать на этих данных или полностью обновлять с их использованием. Второй путь, который может уберечь от деградации в качестве ответов и сократить количество ошибок, — повторное введение в обучение ИИ нового очищенного антропогенного дата-сета.

Исследователи отмечают, что это потребует создания некоего механизма массовой маркировки или же усилий со стороны создателей контента или ИИ-компаний, которые позволят разделить данные от людей и машин. Также важно обеспечить справедливое представление менее популярной информации в дата-сете как с точки зрения количества, так и качества и точного описания характеристик. Это серьезный вызов, поскольку модели сложно обучать на редких событиях.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Колода джокеров и сорок сценариев будущего Колода джокеров и сорок сценариев будущего

Прогнозист Александр Чулок — о том, по какому пути может пойти развитие общества

РБК
Фен-шуй для маленькой квартиры или студии: как создать гармоничное пространство Фен-шуй для маленькой квартиры или студии: как создать гармоничное пространство

Эти простые советы помогут тебе сделать пространство более гармоничным

VOICE
Сквозные и критические: как изменилась стратегия развития технологий Сквозные и критические: как изменилась стратегия развития технологий

Сектор инноваций в России продолжает развиваться благодаря господдержке

РБК
Расхламляйся! Расхламляйся!

Как расстаться навсегда с ненужным скарбом?

Лиза
Движение вокруг недвижимости Движение вокруг недвижимости

Как искусственный интеллект захватывает один из ключевых рынков

РБК
В ожидании полярного сияния. О якутской драме «Чума» В ожидании полярного сияния. О якутской драме «Чума»

Какие темы поднимает фильм Дмитрия Давыдова «Чума»

СНОБ
Женщина в чёрном Женщина в чёрном

Мирный договор между Францией и Испанией был омрачен трагедией

Дилетант
Меньше атома: как работает квантовая механика Меньше атома: как работает квантовая механика

Отрывок из книги «Сто лет недосказанности» о квантовой механике

Inc.
Балтийский путь Балтийский путь

В этот день жители Латвии, Литвы и Эстонии выстроили живую цепь

Дилетант
Молочные и мясные антигены сдерживают появление рака кишечника Молочные и мясные антигены сдерживают появление рака кишечника

Как пищевые антигены запускают иммунную систему кишечника

ТехИнсайдер
Гостья из космоса Гостья из космоса

Актриса Софья Лебедева — о фантастике, свободе и страхах

OK!
HAVAL H5: Лёгкий, длинный и не слишком дорогой HAVAL H5: Лёгкий, длинный и не слишком дорогой

Замена Chevrolet Tahoe — Haval Н5: весит меньше, а стоит дешевле

4x4 Club
В атмосфере отдыха В атмосфере отдыха

Эта маленькая, но уютная квартира находится в известном курортном месте

Идеи Вашего Дома
Жители острова Пасхи смешались с коренными американцами задолго до прибытия европейцев Жители острова Пасхи смешались с коренными американцами задолго до прибытия европейцев

На острове Пасхи не было демографического кризиса в 1600-х годах

N+1
Что такое айран и чем он полезен Что такое айран и чем он полезен

Айран — турецкий напиток, полюбившийся во всем мире

РБК
Кандидатский максимум Кандидатский максимум

Не все собеседования проходят гладко, а некоторые вообще очень странные

VOICE
Как появился ярлык Made in China. Отрывок из книги Как появился ярлык Made in China. Отрывок из книги

Как появился ярлык Made in China, что он значит для производителей и покупателей

СНОБ
Королевские игры Королевские игры

Фрагменты документальной книги Тины Браун «Дом Виндзоров»

RR Люкс.Личности.Бизнес.
Важная телеграмма Важная телеграмма

Станет ли арест Павла Дурова концом глобального свободного интернета?

Монокль
Всем — «Хорриот» Всем — «Хорриот»

С 1 сентября сельхозживотных нужно маркировать в обязательном порядке

Агроинвестор
Как никогда не выйти замуж. 7 вредных советов Как никогда не выйти замуж. 7 вредных советов

Если не хочешь брака, следуй нашим рекомендациям – и оставайся свободной!

Лиза
Болен деньгами: как связаны финансы и психологическое здоровье Болен деньгами: как связаны финансы и психологическое здоровье

Money disordes: как проявляются такие расстройства и как их распознать у себя?

Forbes
Где посмотреть современный арт в Казанском кремле Где посмотреть современный арт в Казанском кремле

Как в Казани старинные постройки получают новую жизнь и новые смыслы

Psychologies
Прогулка по местам из произведений Толкина и игры «Монополия»: 10 необычных видов туризма, о которых вы могли не знать Прогулка по местам из произведений Толкина и игры «Монополия»: 10 необычных видов туризма, о которых вы могли не знать

Способы путешествовать, которые удивят даже заядлых туристов

ТехИнсайдер
Филипп Чижевский: Человек без специального образования зачастую воспринимает музыку острее, чем искушенный слушатель Филипп Чижевский: Человек без специального образования зачастую воспринимает музыку острее, чем искушенный слушатель

Дирижер Филипп Чижевский — о музыке, путешествиях и эмоциях

СНОБ
Скажите «Нихао!» Скажите «Нихао!»

Правила этикета сделают переговоры с китайскими партнёрами более эффективными

RR Люкс.Личности.Бизнес.
Jetour: как новая марка смогла быстро выйти в лидеры Jetour: как новая марка смогла быстро выйти в лидеры

Эксперты объяснили успех Jetour в России широким выбором в популярном сегменте

РБК
Не только скорость Не только скорость

Скорость у лодок Pershing не является альтернативой эстетики и комфорта

Y Magazine
Ученые рассказали, как на старение внуков влияет образование дедушек и бабушек Ученые рассказали, как на старение внуков влияет образование дедушек и бабушек

Как образование предков влияет на наше здоровье?

ТехИнсайдер
Притяжение Арктики Притяжение Арктики

Как выглядит изнутри туристическая отрасль на архипелаге Шпицберген

Отдых в России
Открыть в приложении