Чем грозит самообучение нейросетей на искусственных данных

РБКHi-Tech

Запрограммированный коллапс

Чем грозит самообучение нейросетей на искусственных данных

Что случится, если нейросети начнут обучаться на данных, которые они же и сгенерировали? Одно из возможных последствий — скорая деградация моделей ИИ, утверждает авторитетное издание VentureBeat, специализирующееся на новых технологиях.

ИИ в замешательстве

Создание контента при помощи нейросетей уже стало массовой практикой, обращают внимание авторы статьи The AI feedback loop: Researchers warn of 'model collapse' as AI trains on AI-generated content, опубликованной в VentureBeat. Так, половина сотрудников McKinsey применяют в своей работе инструменты генеративного ИИ, и эта тенденция только усиливается. Сегодня основная часть исходных данных, на которых обучаются нейросети, в основном создана людьми — это книги, статьи, фотографии и так далее. Но что произойдет, когда ИИ начнет обучаться на контенте, сгенерированном другим ИИ?

Группа исследователей из Великобритании и Канады опубликовала статью, в которой рассматривается именно этот вопрос. Их выводы неутешительны: использование для обучения ИИ данных, сгенерированных другими ИИ, приводит к необратимым дефектам в результирующих моделях.

Исследователи обратили особое внимание на вероятностные распределения для текстовых и генеративных моделей ИИ, генерирующих изображения. Выяснилось, что обучение на данных, произведенных другими моделями, вызывает «коллапс моделей» — дегенеративный процесс, при котором со временем модели забывают истинное распределение исходных данных. И происходит это довольно быстро.

Постепенно ошибки в сгенерированных данных накапливаются, в результате чего модели, обучающиеся на таких данных, начинают еще больше искажать реальность. Это приводит к тому, что они все больше ошибаются в своих ответах и генерируемом контенте, а также производят все меньше неповторяющегося, непротиворечивого контента.

«Аналогично тому, как мы заполнили океаны пластиковым мусором и атмосферу углекислым газом, мы собираемся заполнить интернет бессмысленной болтовней. Это усложнит обучение новых моделей путем парсинга веб-сайтов, давая преимущество компаниям, которые уже это сделали или которые контролируют доступ к человеческим интерфейсам», — заявил один из авторов статьи, профессор безопасности инженерии в Кембриджском университете и Университете Эдинбурга Росс Андерсон.

Почему происходит коллапс

Проблему деградации качества в продуктах ИИ можно сравнить с увеличением артефактов при многократном копировании изображения в формате JPEG. В качестве другой аналогии можно привести комедию 1996 года «Множество», в которой главный герой клонирует себя, а затем клонирует клонов, что приводит к экспоненциальному снижению уровня интеллекта у каждого нового клона.

Коллапс моделей происходит, когда данные, сгенерированные моделями ИИ, «загрязняют» тренировочный набор для последующих моделей. «Оригинальные антропогенные данные лучше отражают реальный мир, поскольку содержат в том числе неправдоподобную информацию, — объяснил Илья Шумайлов, один из авторов работы. — Генеративные модели, однако, имеют тенденцию к переобучению на популярных данных и часто неправильно понимают или интерпретируют менее популярные данные».

Если модель обучается на дата-сете c 10 изображениями синих котов и 90 желтых, ИИ запоминает, что желтые коты преобладают и показывает даже синих котов желтоватыми, а на запрос о новых данных выдает зеленых котов. С последующими циклами синий цвет и вовсе заменяется зеленоватым, переходя затем в желтый.

«Загрязнение» данными, сгенерированными ИИ, приводит к искажению восприятия реальности моделями. Даже когда исследователи обучали модели не создавать слишком много повторяющихся ответов, они обнаружили, что коллапс все равно происходит, поскольку ИИ начинает выдавать ошибочные ответы, чтобы избежать частого повторения данных.

Как решить проблему

Исследователи выделили два пути, которые позволяют избежать коллапса модели.

Первый — сохранение оригинального дата-сета, полностью или в основном созданного людьми, и предотвращение его смешивания с данными от ИИ. В этом случае модель можно периодически переобучать на этих данных или полностью обновлять с их использованием. Второй путь, который может уберечь от деградации в качестве ответов и сократить количество ошибок, — повторное введение в обучение ИИ нового очищенного антропогенного дата-сета.

Исследователи отмечают, что это потребует создания некоего механизма массовой маркировки или же усилий со стороны создателей контента или ИИ-компаний, которые позволят разделить данные от людей и машин. Также важно обеспечить справедливое представление менее популярной информации в дата-сете как с точки зрения количества, так и качества и точного описания характеристик. Это серьезный вызов, поскольку модели сложно обучать на редких событиях.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Корея против Кореи Корея против Кореи

Эту войну называют «забытой». В Советском Союзе о ней мало писали и говорили

Дилетант
Опять и опять «Назад в будущее» Опять и опять «Назад в будущее»

Краткая история ленты «Назад в будущее», вырастившей последнее поколение XX века

Weekend
Владимир Васильев: «Гонка технологических «вооружений» уже началась» Владимир Васильев: «Гонка технологических «вооружений» уже началась»

Владимир Васильев – о влиянии больших языковых моделей на будущее человека

РБК
10 неожиданных вопросов Кате Гусевой 10 неожиданных вопросов Кате Гусевой

Расспросили королеву ремиксов Катю Гусеву о вере в приметы и любви к собакам

VOICE
Ирина Калабихина: «Демографический взрыв уже у нас за спиной» Ирина Калабихина: «Демографический взрыв уже у нас за спиной»

Экономист Ирина Калабихина — что с нами будет дальше и хватит ли всем места?

РБК
В такси на Дубровку В такси на Дубровку

Ищешь живописное место для фотосессии? Советские фильмы знают ответ!

Лиза
От Пхеньяна до Сеула. И обратно От Пхеньяна до Сеула. И обратно

Ситуация на фронтах Корейской войны менялась с калейдоскопической скоростью

Дилетант
Кнут Гамсун Кнут Гамсун

Кнут Гамсун говорил от имени нации и тем сильно её скомпрометировал

Дилетант
Школа Автотуризма. Простые правила счастливых путешествий Школа Автотуризма. Простые правила счастливых путешествий

Все трудности, выпадающие на долю автопутешественника, нужно встречать с улыбкой

4x4 Club
Александр Лабас: не авангардист, не соцреалист Александр Лабас: не авангардист, не соцреалист

Голос А. Лабаса — сложный, полифоничный, подчас ускользающий от прямых смыслов

Монокль
Передвижники и императорская власть Передвижники и императорская власть

Как передвижники получили признание императора Александра III

Знание – сила
Как Ленин дэвов побеждал Как Ленин дэвов побеждал

Какие отпечатки оставили на народах России события на рубеже XIX и XX веков

Дилетант
Карманные мозги, что управляют всем: микроконтроллеры от первых 4-бит до IoT-революции Карманные мозги, что управляют всем: микроконтроллеры от первых 4-бит до IoT-революции

История микроконтроллеров от их зарождения до современных тенденций

Наука и техника
Кадровый агропотенциал Кадровый агропотенциал

Роль государства и бизнеса в решении проблемы дефицита персонала

Агроинвестор
Американские горки Американские горки

Группа БКС возобновила торги американскими бумагами через свой инвестбанк

Ведомости
Скелетные мышцы самолета – система управления Скелетные мышцы самолета – система управления

Зачем самолетам демпферы, гидроусилители, закрылки и предкрылки?

Наука и техника
Тюрьма народов Тюрьма народов

Как побег из Алькатраса лишь укрепил имидж легендарной тюрьмы

Дилетант
Культура всегда со страной Культура всегда со страной

Разговор с директором Эрмитажа о роли, которую играют сейчас музеи

Знание – сила
Кто открыл лазейки в вузы Кто открыл лазейки в вузы

Школьные олимпиады становятся местом отработки способов незаконного поступления

Монокль
Откуда что пошло на флоте Откуда что пошло на флоте

Повседневная жизнь на парусном военном корабле XVIII века

Наука и техника
Весна императора Весна императора

Цезарь — политик-хищник, с чьим именем неотрывно связана Римская империя

Знание – сила
Узорочье древних славянок Узорочье древних славянок

Древняя мода: как выглядела одежда на Руси до XIII века

Знание – сила
Дача под боком Дача под боком

Идеи оформления балкона, которые перенесут тебя за город

Лиза
Есть ли у Европы армия Есть ли у Европы армия

О потенциале собственной армии Евросоюза и перспективах ее участия вне НАТО

Монокль
Банки на передовой Банки на передовой

Как работала финансовая система СССР во время войны

Эксперт
Вьетнамский вклад в импортозамещение Вьетнамский вклад в импортозамещение

Концерн TH Group открыл завод по переработке молока в Калужской области

Агроинвестор
Сделать посетителя немного исследователем Сделать посетителя немного исследователем

Что отличает современные музеи? Открытость и исследовательский подход

Знание – сила
Соло-мама Соло-мама

Каких ошибок стоит избегать женщинам, которые растят детей в одиночку

Лиза
Эра литий-ионных аккумуляторов Эра литий-ионных аккумуляторов

Почему ученые трудятся над тем, чтобы повысить безопасность батареек

Наука и техника
Автономный шестилапый робот «MICROBRO» Автономный шестилапый робот «MICROBRO»

Как создать ровер, который сам везет ваш багаж туда, куда вам нужно?

Наука и техника
Открыть в приложении