Чем грозит самообучение нейросетей на искусственных данных

РБКHi-Tech

Запрограммированный коллапс

Чем грозит самообучение нейросетей на искусственных данных

Что случится, если нейросети начнут обучаться на данных, которые они же и сгенерировали? Одно из возможных последствий — скорая деградация моделей ИИ, утверждает авторитетное издание VentureBeat, специализирующееся на новых технологиях.

ИИ в замешательстве

Создание контента при помощи нейросетей уже стало массовой практикой, обращают внимание авторы статьи The AI feedback loop: Researchers warn of 'model collapse' as AI trains on AI-generated content, опубликованной в VentureBeat. Так, половина сотрудников McKinsey применяют в своей работе инструменты генеративного ИИ, и эта тенденция только усиливается. Сегодня основная часть исходных данных, на которых обучаются нейросети, в основном создана людьми — это книги, статьи, фотографии и так далее. Но что произойдет, когда ИИ начнет обучаться на контенте, сгенерированном другим ИИ?

Группа исследователей из Великобритании и Канады опубликовала статью, в которой рассматривается именно этот вопрос. Их выводы неутешительны: использование для обучения ИИ данных, сгенерированных другими ИИ, приводит к необратимым дефектам в результирующих моделях.

Исследователи обратили особое внимание на вероятностные распределения для текстовых и генеративных моделей ИИ, генерирующих изображения. Выяснилось, что обучение на данных, произведенных другими моделями, вызывает «коллапс моделей» — дегенеративный процесс, при котором со временем модели забывают истинное распределение исходных данных. И происходит это довольно быстро.

Постепенно ошибки в сгенерированных данных накапливаются, в результате чего модели, обучающиеся на таких данных, начинают еще больше искажать реальность. Это приводит к тому, что они все больше ошибаются в своих ответах и генерируемом контенте, а также производят все меньше неповторяющегося, непротиворечивого контента.

«Аналогично тому, как мы заполнили океаны пластиковым мусором и атмосферу углекислым газом, мы собираемся заполнить интернет бессмысленной болтовней. Это усложнит обучение новых моделей путем парсинга веб-сайтов, давая преимущество компаниям, которые уже это сделали или которые контролируют доступ к человеческим интерфейсам», — заявил один из авторов статьи, профессор безопасности инженерии в Кембриджском университете и Университете Эдинбурга Росс Андерсон.

Почему происходит коллапс

Проблему деградации качества в продуктах ИИ можно сравнить с увеличением артефактов при многократном копировании изображения в формате JPEG. В качестве другой аналогии можно привести комедию 1996 года «Множество», в которой главный герой клонирует себя, а затем клонирует клонов, что приводит к экспоненциальному снижению уровня интеллекта у каждого нового клона.

Коллапс моделей происходит, когда данные, сгенерированные моделями ИИ, «загрязняют» тренировочный набор для последующих моделей. «Оригинальные антропогенные данные лучше отражают реальный мир, поскольку содержат в том числе неправдоподобную информацию, — объяснил Илья Шумайлов, один из авторов работы. — Генеративные модели, однако, имеют тенденцию к переобучению на популярных данных и часто неправильно понимают или интерпретируют менее популярные данные».

Если модель обучается на дата-сете c 10 изображениями синих котов и 90 желтых, ИИ запоминает, что желтые коты преобладают и показывает даже синих котов желтоватыми, а на запрос о новых данных выдает зеленых котов. С последующими циклами синий цвет и вовсе заменяется зеленоватым, переходя затем в желтый.

«Загрязнение» данными, сгенерированными ИИ, приводит к искажению восприятия реальности моделями. Даже когда исследователи обучали модели не создавать слишком много повторяющихся ответов, они обнаружили, что коллапс все равно происходит, поскольку ИИ начинает выдавать ошибочные ответы, чтобы избежать частого повторения данных.

Как решить проблему

Исследователи выделили два пути, которые позволяют избежать коллапса модели.

Первый — сохранение оригинального дата-сета, полностью или в основном созданного людьми, и предотвращение его смешивания с данными от ИИ. В этом случае модель можно периодически переобучать на этих данных или полностью обновлять с их использованием. Второй путь, который может уберечь от деградации в качестве ответов и сократить количество ошибок, — повторное введение в обучение ИИ нового очищенного антропогенного дата-сета.

Исследователи отмечают, что это потребует создания некоего механизма массовой маркировки или же усилий со стороны создателей контента или ИИ-компаний, которые позволят разделить данные от людей и машин. Также важно обеспечить справедливое представление менее популярной информации в дата-сете как с точки зрения количества, так и качества и точного описания характеристик. Это серьезный вызов, поскольку модели сложно обучать на редких событиях.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Будущее подкрадывается на цыпочках Будущее подкрадывается на цыпочках

Каким предстает наше общее завтра в произведениях фантастов

РБК
«Надо видеть следующую вершину» «Надо видеть следующую вершину»

Чем схожи покорение горных вершин и ведение бизнеса?

Ведомости
Краткая история наготы Краткая история наготы

Как менялось отношение человечества к обнаженному телу

Правила жизни
Преисполненная светом Преисполненная светом

Дизайнерский интерьер, наполненный винтажной мебелью и предметами искусства

SALON-Interior
Сергей Шумский: «У роботов не будет инстинкта власти, как у человека» Сергей Шумский: «У роботов не будет инстинкта власти, как у человека»

Минувший год имеет шансы войти в историю как время взрывного роста нейросетей

РБК
9 хаков для уборки, которые не работают 9 хаков для уборки, которые не работают

Несколько мифов о наведении чистоты, о которых давно пора забыть

VOICE
Свет и блеск Достоевского Свет и блеск Достоевского

Тернистый путь, пройденный Фёдором Михайловичем Достоевским

Наука и жизнь
6 источников неприятного запаха в посудомоечной машине и способы их устранения 6 источников неприятного запаха в посудомоечной машине и способы их устранения

Почему от посудомоечной машины плохо пахнет: причины и их устранение

ТехИнсайдер
«Развитие Севморпути — это правовая и экономическая дилемма» «Развитие Севморпути — это правовая и экономическая дилемма»

О правовом статусе Северного морского пути и нерешенных вопросах в Арктике

Эксперт
История призрака: 17 оригинальных фильмов о потусторонней силе История призрака: 17 оригинальных фильмов о потусторонней силе

Как кино может разнообразно трактовать и исследовать сюжеты о привидениях

Правила жизни
Как снять защиту записи флешки: избавляемся от ошибки «диск защищен» Как снять защиту записи флешки: избавляемся от ошибки «диск защищен»

Как снять защиту записи с флешки usb, если диск защищен?

CHIP
«Я в шаге от того, чтобы послать ее куда подальше»: история влюбленности, которая рушит дружбу подруг «Я в шаге от того, чтобы послать ее куда подальше»: история влюбленности, которая рушит дружбу подруг

Почему выдуманные романы могут сказаться не только на дружеских отношениях?

Psychologies
Разноцветные «снежки» Разноцветные «снежки»

Пухлые белоснежные ягоды этого кустарника, напоминающие снежки, знакомы многим

Наука и жизнь
Противовирусные не принесли значимой пользы при амбулаторном лечении гриппа Противовирусные не принесли значимой пользы при амбулаторном лечении гриппа

Противовирусная терапия не влияет на смертность при нетяжелом течении гриппа

N+1
Книжная полка: 7 книг аргентинских авторов, которые стоит прочитать Книжная полка: 7 книг аргентинских авторов, которые стоит прочитать

Как современные аргентинские авторы продолжают дело Борхеса и Кортасара

Правила жизни
Нина Чусова. Секундная сцена в спектакле может сделать из него хит Нина Чусова. Секундная сцена в спектакле может сделать из него хит

Нина Чусова о своем уникальном пути и работе с самыми лучшими артистами страны

Караван историй
«Разовая» неверность: 3 признака того, что он больше не будет изменять «Разовая» неверность: 3 признака того, что он больше не будет изменять

Как понять, что ваш партнер изменил только единожды?

VOICE
Утомленные школой Утомленные школой

Как облегчить жизнь ребенку в тяжелое для него время?

Лиза
18 известных актеров, о чьей смерти в 2024 году вы не подозревали 18 известных актеров, о чьей смерти в 2024 году вы не подозревали

Эти всем известные и даже знаменитые актеры умерли в 2024 году

Maxim
10 черт, в которые влюбляются мужчины 10 черт, в которые влюбляются мужчины

Как происходит влюбленность у мужчин?

Psychologies
Куда исчезли зеркала на крыльях автомобилей: вас давно мучает этот вопрос, но спросить было не у кого Куда исчезли зеркала на крыльях автомобилей: вас давно мучает этот вопрос, но спросить было не у кого

Зачем с кузовов автомобилей убрали мини зеркала

ТехИнсайдер
Иду на быт! 11 лайфхаков Иду на быт! 11 лайфхаков

Масштабный «разбор завалов»: расскажем, как сэкономить силы, время и нервы

Лиза
«Они ведь всегда хотят секса». Как в России мужчины становятся жертвами насилия «Они ведь всегда хотят секса». Как в России мужчины становятся жертвами насилия

Как мужчины справляются с травмой насилия

СНОБ
В России могут ввести 4-дневную рабочую неделю. Как это отразится на людях? В России могут ввести 4-дневную рабочую неделю. Как это отразится на людях?

О возможности введения четырехдневной рабочей недели и ее последствиях

Psychologies
Банковский блок Банковский блок

Юристы пожаловались на трудности в международных арбитражах из-за банков

Ведомости
Роботы в поиске розеток Роботы в поиске розеток

Генеративному искусственному интеллекту грозит дефицит электричества

Ведомости
Почему уличные фонари в основном излучают желтый и оранжевый свет? Почему уличные фонари в основном излучают желтый и оранжевый свет?

Почему цвет фонарей на улицах не меняют уже столько лет?

ТехИнсайдер
Все фильмы Дэвида Линча по порядку от хорошего к лучшему Все фильмы Дэвида Линча по порядку от хорошего к лучшему

Напоминаем кинофильмы Дэвида Линча, а еще то, что их нельзя смотреть по ТВ

Maxim
7 принципов женщин, живущих в счастливых отношениях 7 принципов женщин, живущих в счастливых отношениях

Главные принципы, которых придерживаются успешные в личной жизни женщины

Psychologies
Какую разницу в возрасте с партнером предпочитают мужчины и женщины: ответ психологов Какую разницу в возрасте с партнером предпочитают мужчины и женщины: ответ психологов

Правда ли: чем мы старше, тем больше стремимся заводить романы с молодежью?

Psychologies
Открыть в приложении