Чем грозит самообучение нейросетей на искусственных данных

РБКHi-Tech

Запрограммированный коллапс

Чем грозит самообучение нейросетей на искусственных данных

Что случится, если нейросети начнут обучаться на данных, которые они же и сгенерировали? Одно из возможных последствий — скорая деградация моделей ИИ, утверждает авторитетное издание VentureBeat, специализирующееся на новых технологиях.

ИИ в замешательстве

Создание контента при помощи нейросетей уже стало массовой практикой, обращают внимание авторы статьи The AI feedback loop: Researchers warn of 'model collapse' as AI trains on AI-generated content, опубликованной в VentureBeat. Так, половина сотрудников McKinsey применяют в своей работе инструменты генеративного ИИ, и эта тенденция только усиливается. Сегодня основная часть исходных данных, на которых обучаются нейросети, в основном создана людьми — это книги, статьи, фотографии и так далее. Но что произойдет, когда ИИ начнет обучаться на контенте, сгенерированном другим ИИ?

Группа исследователей из Великобритании и Канады опубликовала статью, в которой рассматривается именно этот вопрос. Их выводы неутешительны: использование для обучения ИИ данных, сгенерированных другими ИИ, приводит к необратимым дефектам в результирующих моделях.

Исследователи обратили особое внимание на вероятностные распределения для текстовых и генеративных моделей ИИ, генерирующих изображения. Выяснилось, что обучение на данных, произведенных другими моделями, вызывает «коллапс моделей» — дегенеративный процесс, при котором со временем модели забывают истинное распределение исходных данных. И происходит это довольно быстро.

Постепенно ошибки в сгенерированных данных накапливаются, в результате чего модели, обучающиеся на таких данных, начинают еще больше искажать реальность. Это приводит к тому, что они все больше ошибаются в своих ответах и генерируемом контенте, а также производят все меньше неповторяющегося, непротиворечивого контента.

«Аналогично тому, как мы заполнили океаны пластиковым мусором и атмосферу углекислым газом, мы собираемся заполнить интернет бессмысленной болтовней. Это усложнит обучение новых моделей путем парсинга веб-сайтов, давая преимущество компаниям, которые уже это сделали или которые контролируют доступ к человеческим интерфейсам», — заявил один из авторов статьи, профессор безопасности инженерии в Кембриджском университете и Университете Эдинбурга Росс Андерсон.

Почему происходит коллапс

Проблему деградации качества в продуктах ИИ можно сравнить с увеличением артефактов при многократном копировании изображения в формате JPEG. В качестве другой аналогии можно привести комедию 1996 года «Множество», в которой главный герой клонирует себя, а затем клонирует клонов, что приводит к экспоненциальному снижению уровня интеллекта у каждого нового клона.

Коллапс моделей происходит, когда данные, сгенерированные моделями ИИ, «загрязняют» тренировочный набор для последующих моделей. «Оригинальные антропогенные данные лучше отражают реальный мир, поскольку содержат в том числе неправдоподобную информацию, — объяснил Илья Шумайлов, один из авторов работы. — Генеративные модели, однако, имеют тенденцию к переобучению на популярных данных и часто неправильно понимают или интерпретируют менее популярные данные».

Если модель обучается на дата-сете c 10 изображениями синих котов и 90 желтых, ИИ запоминает, что желтые коты преобладают и показывает даже синих котов желтоватыми, а на запрос о новых данных выдает зеленых котов. С последующими циклами синий цвет и вовсе заменяется зеленоватым, переходя затем в желтый.

«Загрязнение» данными, сгенерированными ИИ, приводит к искажению восприятия реальности моделями. Даже когда исследователи обучали модели не создавать слишком много повторяющихся ответов, они обнаружили, что коллапс все равно происходит, поскольку ИИ начинает выдавать ошибочные ответы, чтобы избежать частого повторения данных.

Как решить проблему

Исследователи выделили два пути, которые позволяют избежать коллапса модели.

Первый — сохранение оригинального дата-сета, полностью или в основном созданного людьми, и предотвращение его смешивания с данными от ИИ. В этом случае модель можно периодически переобучать на этих данных или полностью обновлять с их использованием. Второй путь, который может уберечь от деградации в качестве ответов и сократить количество ошибок, — повторное введение в обучение ИИ нового очищенного антропогенного дата-сета.

Исследователи отмечают, что это потребует создания некоего механизма массовой маркировки или же усилий со стороны создателей контента или ИИ-компаний, которые позволят разделить данные от людей и машин. Также важно обеспечить справедливое представление менее популярной информации в дата-сете как с точки зрения количества, так и качества и точного описания характеристик. Это серьезный вызов, поскольку модели сложно обучать на редких событиях.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Ирина Калабихина: «Демографический взрыв уже у нас за спиной» Ирина Калабихина: «Демографический взрыв уже у нас за спиной»

Экономист Ирина Калабихина — что с нами будет дальше и хватит ли всем места?

РБК
«Я расплакалась, когда смотрела это видео с мужем»: Юлия Топольницкая рассказала, как ее поразил Игорь Чехов «Я расплакалась, когда смотрела это видео с мужем»: Юлия Топольницкая рассказала, как ее поразил Игорь Чехов

Юлия Топольницкая о секретах семейной жизни с актером и шоуменом Игорем Чеховым

VOICE
Тяжелый легкий бег Тяжелый легкий бег

Как работает организм на марафонских дистанциях

Популярная механика
Зинаида Кириенко. Любовь земная Зинаида Кириенко. Любовь земная

Сыграть в таких картинах и не получить народную СССР — нонсенс

Коллекция. Караван историй
Сергей Шумский: «У роботов не будет инстинкта власти, как у человека» Сергей Шумский: «У роботов не будет инстинкта власти, как у человека»

Минувший год имеет шансы войти в историю как время взрывного роста нейросетей

РБК
Что делать, если змея заползла на дачу: краткий совет и полный гайд для тех, кто любит животных Что делать, если змея заползла на дачу: краткий совет и полный гайд для тех, кто любит животных

Как убрать с дачного участка заползшую змею

ТехИнсайдер
Робин Уильямс Робин Уильямс

Робину Уильямсу могло исполниться 70 лет

Playboy
Ультраобработанные продукты: с детства на крючке Ультраобработанные продукты: с детства на крючке

Как ультраобработанная пища влияет на младенцев

Здоровье
Средство от хаоса Средство от хаоса

Пора переосмыслить цели и само понятие технического прогресса

Деньги
Активный сезон Активный сезон

Самые классные и полезные летние развлечения

Лиза
Самый секретный агент Самый секретный агент

Из чего сделан мир Джеймса Бонда Яна Флеминга

Weekend
Женские лица войны: подвиги русских женщин на фронте и в тылу Женские лица войны: подвиги русских женщин на фронте и в тылу

Из 34,5 миллиона мобилизованных в годы войны почти полмиллиона составили женщины

ФедералПресс
Вот почему люди стали использовать огонь — и приготовление пищи тут не при чем Вот почему люди стали использовать огонь — и приготовление пищи тут не при чем

Исследование, перечеркнувшее привычную картину: зачем люди приручили огонь

Inc.
Мультипекарь, сендвичница, электрогриль — чем они отличаются? Мультипекарь, сендвичница, электрогриль — чем они отличаются?

Какой гаджет выбрать, если хочется бутерброд с сыром, омлет или сэндвич?

CHIP
Сотворить «Онегина» Сотворить «Онегина»

Кто участвует в сотворении «Евгения Онегина» вместе с Пушкиным

Seasons of life
Долгая зима: как за пять лет изменились венчурные инвестиции в женские стартапы Долгая зима: как за пять лет изменились венчурные инвестиции в женские стартапы

Почему в России уменьшается объем финансирования проектов предпринимательниц

Forbes
Динозавры за Полярным кругом Динозавры за Полярным кругом

Как жили динозавры и их соседи в условиях крайнего Севера или Юга

Наука и техника
Хирургия без шрамов: как появилась лапароскопия Хирургия без шрамов: как появилась лапароскопия

Как и когда хирургия стала щадящей?

ТехИнсайдер
Попасть в настоящее кино Попасть в настоящее кино

Новый кинопарк «Москино» — центр съемок и место притяжения туристов

Отдых в России
Больше чем репост: как бизнесу делать кросс-промо, которое работает Больше чем репост: как бизнесу делать кросс-промо, которое работает

Кросс-промо: как найти хорошего партнера и построить успешную коллаборацию

Inc.
Сменила балет на «Игрушки»: как Агния Барто стала одной из главных детских поэтесс Сменила балет на «Игрушки»: как Агния Барто стала одной из главных детских поэтесс

История Агнии Барто, одной из главных детских поэтесс в России

Forbes
Российскому промдизайну нужна промышленность Российскому промдизайну нужна промышленность

Какие возможности у промышленного дизайна есть в России?

Монокль
Наследие императора Наследие императора

Гатчина — для тех, кто хочет увидеть величие императорской России без туристов

Отдых в России
Книга как искусство Книга как искусство

На протяжении долгих веков книга являлась главным хранителем информации

Знание – сила
«Нет удержу!» Чем улыбнул первый тест-драйв «ушастого Запорожца», проведенный советским журналистом «Нет удержу!» Чем улыбнул первый тест-драйв «ушастого Запорожца», проведенный советским журналистом

«Ушастый Запорожец» — тесный, шумный, тихоходный или совсем иной?

ТехИнсайдер
Новый герой Новый герой

Денис Прытков о новой для себя сфере, страсти к рисованию и любви к театру

OK!
Ламздорфы Ламздорфы

Род Ламздорфов по праву могут считать своим и Россия, и Германия

Дилетант
Бизнесмены со школьной скамьи: предприниматели вспоминают истории из детства Бизнесмены со школьной скамьи: предприниматели вспоминают истории из детства

Уже со школы наши герои показывали смекалку и предпринимательские способности

Inc.
«Россия: страна, которая хочет быть другой. Двадцать пять лет — взгляд изнутри» «Россия: страна, которая хочет быть другой. Двадцать пять лет — взгляд изнутри»

Приватизация и либерализация цен изменила жизнь россиян

N+1
Что «видели» астероиды? Что «видели» астероиды?

Чем астероиды интересны астрономам?

Наука и жизнь
Открыть в приложении