Чем грозит самообучение нейросетей на искусственных данных

РБКHi-Tech

Запрограммированный коллапс

Чем грозит самообучение нейросетей на искусственных данных

Что случится, если нейросети начнут обучаться на данных, которые они же и сгенерировали? Одно из возможных последствий — скорая деградация моделей ИИ, утверждает авторитетное издание VentureBeat, специализирующееся на новых технологиях.

ИИ в замешательстве

Создание контента при помощи нейросетей уже стало массовой практикой, обращают внимание авторы статьи The AI feedback loop: Researchers warn of 'model collapse' as AI trains on AI-generated content, опубликованной в VentureBeat. Так, половина сотрудников McKinsey применяют в своей работе инструменты генеративного ИИ, и эта тенденция только усиливается. Сегодня основная часть исходных данных, на которых обучаются нейросети, в основном создана людьми — это книги, статьи, фотографии и так далее. Но что произойдет, когда ИИ начнет обучаться на контенте, сгенерированном другим ИИ?

Группа исследователей из Великобритании и Канады опубликовала статью, в которой рассматривается именно этот вопрос. Их выводы неутешительны: использование для обучения ИИ данных, сгенерированных другими ИИ, приводит к необратимым дефектам в результирующих моделях.

Исследователи обратили особое внимание на вероятностные распределения для текстовых и генеративных моделей ИИ, генерирующих изображения. Выяснилось, что обучение на данных, произведенных другими моделями, вызывает «коллапс моделей» — дегенеративный процесс, при котором со временем модели забывают истинное распределение исходных данных. И происходит это довольно быстро.

Постепенно ошибки в сгенерированных данных накапливаются, в результате чего модели, обучающиеся на таких данных, начинают еще больше искажать реальность. Это приводит к тому, что они все больше ошибаются в своих ответах и генерируемом контенте, а также производят все меньше неповторяющегося, непротиворечивого контента.

«Аналогично тому, как мы заполнили океаны пластиковым мусором и атмосферу углекислым газом, мы собираемся заполнить интернет бессмысленной болтовней. Это усложнит обучение новых моделей путем парсинга веб-сайтов, давая преимущество компаниям, которые уже это сделали или которые контролируют доступ к человеческим интерфейсам», — заявил один из авторов статьи, профессор безопасности инженерии в Кембриджском университете и Университете Эдинбурга Росс Андерсон.

Почему происходит коллапс

Проблему деградации качества в продуктах ИИ можно сравнить с увеличением артефактов при многократном копировании изображения в формате JPEG. В качестве другой аналогии можно привести комедию 1996 года «Множество», в которой главный герой клонирует себя, а затем клонирует клонов, что приводит к экспоненциальному снижению уровня интеллекта у каждого нового клона.

Коллапс моделей происходит, когда данные, сгенерированные моделями ИИ, «загрязняют» тренировочный набор для последующих моделей. «Оригинальные антропогенные данные лучше отражают реальный мир, поскольку содержат в том числе неправдоподобную информацию, — объяснил Илья Шумайлов, один из авторов работы. — Генеративные модели, однако, имеют тенденцию к переобучению на популярных данных и часто неправильно понимают или интерпретируют менее популярные данные».

Если модель обучается на дата-сете c 10 изображениями синих котов и 90 желтых, ИИ запоминает, что желтые коты преобладают и показывает даже синих котов желтоватыми, а на запрос о новых данных выдает зеленых котов. С последующими циклами синий цвет и вовсе заменяется зеленоватым, переходя затем в желтый.

«Загрязнение» данными, сгенерированными ИИ, приводит к искажению восприятия реальности моделями. Даже когда исследователи обучали модели не создавать слишком много повторяющихся ответов, они обнаружили, что коллапс все равно происходит, поскольку ИИ начинает выдавать ошибочные ответы, чтобы избежать частого повторения данных.

Как решить проблему

Исследователи выделили два пути, которые позволяют избежать коллапса модели.

Первый — сохранение оригинального дата-сета, полностью или в основном созданного людьми, и предотвращение его смешивания с данными от ИИ. В этом случае модель можно периодически переобучать на этих данных или полностью обновлять с их использованием. Второй путь, который может уберечь от деградации в качестве ответов и сократить количество ошибок, — повторное введение в обучение ИИ нового очищенного антропогенного дата-сета.

Исследователи отмечают, что это потребует создания некоего механизма массовой маркировки или же усилий со стороны создателей контента или ИИ-компаний, которые позволят разделить данные от людей и машин. Также важно обеспечить справедливое представление менее популярной информации в дата-сете как с точки зрения количества, так и качества и точного описания характеристик. Это серьезный вызов, поскольку модели сложно обучать на редких событиях.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Ирина Калабихина: «Демографический взрыв уже у нас за спиной» Ирина Калабихина: «Демографический взрыв уже у нас за спиной»

Экономист Ирина Калабихина — что с нами будет дальше и хватит ли всем места?

РБК
Хуже станет всем Хуже станет всем

ВТО прогнозирует сокращение в 5 раз американо-китайской торговли

Ведомости
Тяжелый легкий бег Тяжелый легкий бег

Как работает организм на марафонских дистанциях

Популярная механика
Есть, чтобы жить Есть, чтобы жить

Люди в три раза меньше болели бы раком, если бы только правильно питались

Лиза
«Люди не смогут отличить, что реально, а что воображаемо» «Люди не смогут отличить, что реально, а что воображаемо»

Пять кратких историй успеха, достигнутого в том числе и выходцами из России

РБК
Пленка и рынок: отрывок из книги «Царапины и глитчи. О сохранении и демонстрации кино в начале XXI века» Пленка и рынок: отрывок из книги «Царапины и глитчи. О сохранении и демонстрации кино в начале XXI века»

Эссе из сборника «О сохранении и демонстрации кино в начале XXI века»

Правила жизни
Cheryexeed TXL. Не так плох, как вы возможно думали Cheryexeed TXL. Не так плох, как вы возможно думали

Cheryexeed TXL — кроссовер, о покупке которого стоит задуматься

4x4 Club
Почему ИИ не знает, что у кошки четыре ноги Почему ИИ не знает, что у кошки четыре ноги

Специалист в области разработки ПО — о том, для чего нам нужен и не нужен ИИ

Монокль
Кино Кино

Пять фильмов, позволяющих иначе взглянуть на предпринимательство

Правила жизни
Открывая космос Открывая космос

Путеводитель женщины-астронавта по миру миссий, чудес и перемен в космосе

kiozk originals
Кто такая пикми: разбираем феномен пикми-герл с психологами Кто такая пикми: разбираем феномен пикми-герл с психологами

Что стоит за пикми-поведением?

РБК
Сколько лет на самом деле было героям всем известных книг Сколько лет на самом деле было героям всем известных книг

В каком возрасте герои ощутили на себе все трудности жизни

Maxim
Это не лень, а депрессия: 5 сигналов, что тебе нужна помощь Это не лень, а депрессия: 5 сигналов, что тебе нужна помощь

Как отличить депрессию от усталости или лени

VOICE
Химики надышали аммиака в микрокапли воды Химики надышали аммиака в микрокапли воды

Что они представляют собой заряженные частицы, детектируемые с микрокаплями воды

N+1
Еда с повышенным содержанием расходов Еда с повышенным содержанием расходов

Что толкает цены на продовольствие вверх

Эксперт
3 сильные стороны интровертов, которые помогут им стать успешными 3 сильные стороны интровертов, которые помогут им стать успешными

Интроверты наделены множеством суперспособностей — нужно просто знать их

Inc.
Ярмарка тщеславия Ярмарка тщеславия

В детстве тебе говорили, что хвастать нехорошо, но как же всё-таки правильно?

VOICE
Недоросли, скотинины, бригадиры и Стародум Недоросли, скотинины, бригадиры и Стародум

И спустя 200 лет пьесы Дениса Фонвизина остаются интересны и востребованы

Знание – сила
Искоренить фальсификат Искоренить фальсификат

Методики проверки, испытаний, идентификации продукции нужно совершенствовать

Агроинвестор
C понедельника начну C понедельника начну

Новая работа – это здорово, но и немного страшно. Как сделать все хорошо?

VOICE
Мир с репарациями и контрибуциями Мир с репарациями и контрибуциями

Сейчас происходит переход от однополярной к многополярной модели мироустройства

Ведомости
Собаки могут предупредить о распространении опасной «лихорадки долины» Собаки могут предупредить о распространении опасной «лихорадки долины»

Ученые показали, что собаки также как и человек страдают от лихорадки долины

ТехИнсайдер
Керосиновая история Керосиновая история

Жизнь в послевоенном социализме делится на «время керосина» и «время газа»

Знание – сила
Елизавета Юрьева: «Гордость зачастую – это способ защиты» Елизавета Юрьева: «Гордость зачастую – это способ защиты»

Елизавета Юрьева рассказывает, как она стала цыганкой

Ведомости
Люся Чеботина: «Люблю вызовы и эксперименты» Люся Чеботина: «Люблю вызовы и эксперименты»

Люся Чеботина о весне, вдохновении и любви

Лиза
Мифотворец Мифотворец

120 лет со дня рождения танцовщика и балетмейстера Сержа Лифаря

Weekend
Разговоры о главном диапазоне Разговоры о главном диапазоне

Что такое золотой диапазон частот и кому Минцифры намереваются его отдать

Ведомости
Пример для подражания: Ирина Годунова Пример для подражания: Ирина Годунова

Ирина Годунова о детском интересе к программированию и верности своему пути

VOICE
Самые научно точные фильмы про космос Самые научно точные фильмы про космос

Существуют ли достоверные художественные фильмы про космос?

Maxim
Размеры шлемов: как подобрать мотоциклисту, как измерить голову, таблица Размеры шлемов: как подобрать мотоциклисту, как измерить голову, таблица

Как измерить голову и выбрать мотошлем нужного размера?

РБК
Открыть в приложении