Чем грозит самообучение нейросетей на искусственных данных

РБКHi-Tech

Запрограммированный коллапс

Чем грозит самообучение нейросетей на искусственных данных

Что случится, если нейросети начнут обучаться на данных, которые они же и сгенерировали? Одно из возможных последствий — скорая деградация моделей ИИ, утверждает авторитетное издание VentureBeat, специализирующееся на новых технологиях.

ИИ в замешательстве

Создание контента при помощи нейросетей уже стало массовой практикой, обращают внимание авторы статьи The AI feedback loop: Researchers warn of 'model collapse' as AI trains on AI-generated content, опубликованной в VentureBeat. Так, половина сотрудников McKinsey применяют в своей работе инструменты генеративного ИИ, и эта тенденция только усиливается. Сегодня основная часть исходных данных, на которых обучаются нейросети, в основном создана людьми — это книги, статьи, фотографии и так далее. Но что произойдет, когда ИИ начнет обучаться на контенте, сгенерированном другим ИИ?

Группа исследователей из Великобритании и Канады опубликовала статью, в которой рассматривается именно этот вопрос. Их выводы неутешительны: использование для обучения ИИ данных, сгенерированных другими ИИ, приводит к необратимым дефектам в результирующих моделях.

Исследователи обратили особое внимание на вероятностные распределения для текстовых и генеративных моделей ИИ, генерирующих изображения. Выяснилось, что обучение на данных, произведенных другими моделями, вызывает «коллапс моделей» — дегенеративный процесс, при котором со временем модели забывают истинное распределение исходных данных. И происходит это довольно быстро.

Постепенно ошибки в сгенерированных данных накапливаются, в результате чего модели, обучающиеся на таких данных, начинают еще больше искажать реальность. Это приводит к тому, что они все больше ошибаются в своих ответах и генерируемом контенте, а также производят все меньше неповторяющегося, непротиворечивого контента.

«Аналогично тому, как мы заполнили океаны пластиковым мусором и атмосферу углекислым газом, мы собираемся заполнить интернет бессмысленной болтовней. Это усложнит обучение новых моделей путем парсинга веб-сайтов, давая преимущество компаниям, которые уже это сделали или которые контролируют доступ к человеческим интерфейсам», — заявил один из авторов статьи, профессор безопасности инженерии в Кембриджском университете и Университете Эдинбурга Росс Андерсон.

Почему происходит коллапс

Проблему деградации качества в продуктах ИИ можно сравнить с увеличением артефактов при многократном копировании изображения в формате JPEG. В качестве другой аналогии можно привести комедию 1996 года «Множество», в которой главный герой клонирует себя, а затем клонирует клонов, что приводит к экспоненциальному снижению уровня интеллекта у каждого нового клона.

Коллапс моделей происходит, когда данные, сгенерированные моделями ИИ, «загрязняют» тренировочный набор для последующих моделей. «Оригинальные антропогенные данные лучше отражают реальный мир, поскольку содержат в том числе неправдоподобную информацию, — объяснил Илья Шумайлов, один из авторов работы. — Генеративные модели, однако, имеют тенденцию к переобучению на популярных данных и часто неправильно понимают или интерпретируют менее популярные данные».

Если модель обучается на дата-сете c 10 изображениями синих котов и 90 желтых, ИИ запоминает, что желтые коты преобладают и показывает даже синих котов желтоватыми, а на запрос о новых данных выдает зеленых котов. С последующими циклами синий цвет и вовсе заменяется зеленоватым, переходя затем в желтый.

«Загрязнение» данными, сгенерированными ИИ, приводит к искажению восприятия реальности моделями. Даже когда исследователи обучали модели не создавать слишком много повторяющихся ответов, они обнаружили, что коллапс все равно происходит, поскольку ИИ начинает выдавать ошибочные ответы, чтобы избежать частого повторения данных.

Как решить проблему

Исследователи выделили два пути, которые позволяют избежать коллапса модели.

Первый — сохранение оригинального дата-сета, полностью или в основном созданного людьми, и предотвращение его смешивания с данными от ИИ. В этом случае модель можно периодически переобучать на этих данных или полностью обновлять с их использованием. Второй путь, который может уберечь от деградации в качестве ответов и сократить количество ошибок, — повторное введение в обучение ИИ нового очищенного антропогенного дата-сета.

Исследователи отмечают, что это потребует создания некоего механизма массовой маркировки или же усилий со стороны создателей контента или ИИ-компаний, которые позволят разделить данные от людей и машин. Также важно обеспечить справедливое представление менее популярной информации в дата-сете как с точки зрения количества, так и качества и точного описания характеристик. Это серьезный вызов, поскольку модели сложно обучать на редких событиях.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Стабильность в эпоху потрясений Стабильность в эпоху потрясений

Как российские и мировые компании пытаются быть устойчивыми

РБК
«Дорожная карта» для наблюдений за погодой «Дорожная карта» для наблюдений за погодой

Минсельхоз совместно с Росгидрометом планируют развивать систему метеостанций

Агроинвестор
«Люди не смогут отличить, что реально, а что воображаемо» «Люди не смогут отличить, что реально, а что воображаемо»

Пять кратких историй успеха, достигнутого в том числе и выходцами из России

РБК
Леди Гага от декаданса: как маркиза Луиза Казати стала королевой эпатажа Леди Гага от декаданса: как маркиза Луиза Казати стала королевой эпатажа

Как середине XX века итальянская аристократка стала Леди Гагой своего времени

Правила жизни
Екатерина Борисова: «BIM — это больше чем проектирование» Екатерина Борисова: «BIM — это больше чем проектирование»

Как BIM-проектирование помогает избежать ошибок в документации и сократить сроки

РБК
Едва знакомы Едва знакомы

«Едва знакомы» — проект, объединяющий людей за киноужинами

Seasons of life
Интервью бывшей жены Бишимбаева: 25 фактов о жизни и расставании с абьюзером Интервью бывшей жены Бишимбаева: 25 фактов о жизни и расставании с абьюзером

Красные флаги, которые иллюстрируют поведение абьюзера

Psychologies
На всякий случай На всякий случай

Как работает система страхования в спорте

Ведомости
Когда кран в хороших руках Когда кран в хороших руках

Как российские производители трубопроводной арматуры потеснили конкурентов

Эксперт
Первая среди равных Первая среди равных

Мысли и наблюдения первой женщины-победительницы в кругосветной гонке

Y Magazine
Наш паровоз вперед летит Наш паровоз вперед летит

Одна из новинок проката — фильм режиссера Андрея Волгина «Красный шелк»

Монокль
Шаги на чердаке: жуткая история о нераскрытом убийстве в Хинтеркайфеке Шаги на чердаке: жуткая история о нераскрытом убийстве в Хинтеркайфеке

Более 100 лет назад на ферме Андреаса Грубера произошла страшная трагедия

ТехИнсайдер
«Золотая середина»: какую дистанцию выстроить руководителю между собой и сотрудниками «Золотая середина»: какую дистанцию выстроить руководителю между собой и сотрудниками

Какие ошибки чаще всего совершают менеджеры, и как найти баланс в дистанции

Inc.
Учтенный друг: что нужно знать о регистрации домашних животных в Подмосковье Учтенный друг: что нужно знать о регистрации домашних животных в Подмосковье

Как зарегистрировать питомца в Подмосковье и для чего это нужно

Forbes
Лариса Долина: «Я всегда верила в то, что моя звезда загорится» Лариса Долина: «Я всегда верила в то, что моя звезда загорится»

Лариса Долина не скрывает – в своей жизни она столкнулась со многими трудностями

Добрые советы
Ген ожирения объединил людей с собаками Ген ожирения объединил людей с собаками

Ученые выявили у собак ген, связанный с развитием ожирения

N+1
«Чистейший образец» «Чистейший образец»

Составить цельный образ Натальи Николаевны Гончаровой — сложная задача

Дилетант
Есть контакт Есть контакт

Как установить и почувствовать связь со своим телом

Grazia
Аслан Шукаша: «Делиться планами — опасно!» Аслан Шукаша: «Делиться планами — опасно!»

Аслан Шукаша: как он выходит из тупиков и на какие вопросы не отвечает публично

ЖАРА Magazine
Женский бег с препятствиями Женский бег с препятствиями

Женщины Древней Греции и Спарты: спорт как способ борьбы за свободу и права

Знание – сила
«Мне нечего прятать» «Мне нечего прятать»

О необходимости высказывания в мире, любви к своему дому и об отношениях с отцом

Правила жизни
Модный план на год Модный план на год

11 способов прокачать свой стиль

Добрые советы
У нас есть всё У нас есть всё

Группа СБПЧ — о воображаемых мирах, рождении строчек и мелодий

Seasons of life
Фокус Фокус

Кто убил Джона Кеннеди и почему все фигуранты по этому делу умирали?

Правила жизни
Вяление Вяление

Вяление и его производные дают интересные и порой неожиданные результаты

Bones
От любопытства до радикализма От любопытства до радикализма

Путь радикализации конспирологической идеи может быть пугающе коротким

Правила жизни
Режим признан нелетным Режим признан нелетным

Почему закрываются ЭПР по тестированию дронов в регионах России

Ведомости
Ты и вы Ты и вы

«Ты» и «вы» — стекла калейдоскопа, разделяющие мир на свое и чужое

Seasons of life
Вечный двигатель Вечный двигатель

Белла Филатова о том, как «чужое» место может стать «своим»

Seasons of life
Пятиминутный путеводитель по теориям заговоров Пятиминутный путеводитель по теориям заговоров

Пять основных направлений полета конспирологической мысли

Правила жизни
Открыть в приложении