Чем грозит самообучение нейросетей на искусственных данных

РБКHi-Tech

Запрограммированный коллапс

Чем грозит самообучение нейросетей на искусственных данных

Что случится, если нейросети начнут обучаться на данных, которые они же и сгенерировали? Одно из возможных последствий — скорая деградация моделей ИИ, утверждает авторитетное издание VentureBeat, специализирующееся на новых технологиях.

ИИ в замешательстве

Создание контента при помощи нейросетей уже стало массовой практикой, обращают внимание авторы статьи The AI feedback loop: Researchers warn of 'model collapse' as AI trains on AI-generated content, опубликованной в VentureBeat. Так, половина сотрудников McKinsey применяют в своей работе инструменты генеративного ИИ, и эта тенденция только усиливается. Сегодня основная часть исходных данных, на которых обучаются нейросети, в основном создана людьми — это книги, статьи, фотографии и так далее. Но что произойдет, когда ИИ начнет обучаться на контенте, сгенерированном другим ИИ?

Группа исследователей из Великобритании и Канады опубликовала статью, в которой рассматривается именно этот вопрос. Их выводы неутешительны: использование для обучения ИИ данных, сгенерированных другими ИИ, приводит к необратимым дефектам в результирующих моделях.

Исследователи обратили особое внимание на вероятностные распределения для текстовых и генеративных моделей ИИ, генерирующих изображения. Выяснилось, что обучение на данных, произведенных другими моделями, вызывает «коллапс моделей» — дегенеративный процесс, при котором со временем модели забывают истинное распределение исходных данных. И происходит это довольно быстро.

Постепенно ошибки в сгенерированных данных накапливаются, в результате чего модели, обучающиеся на таких данных, начинают еще больше искажать реальность. Это приводит к тому, что они все больше ошибаются в своих ответах и генерируемом контенте, а также производят все меньше неповторяющегося, непротиворечивого контента.

«Аналогично тому, как мы заполнили океаны пластиковым мусором и атмосферу углекислым газом, мы собираемся заполнить интернет бессмысленной болтовней. Это усложнит обучение новых моделей путем парсинга веб-сайтов, давая преимущество компаниям, которые уже это сделали или которые контролируют доступ к человеческим интерфейсам», — заявил один из авторов статьи, профессор безопасности инженерии в Кембриджском университете и Университете Эдинбурга Росс Андерсон.

Почему происходит коллапс

Проблему деградации качества в продуктах ИИ можно сравнить с увеличением артефактов при многократном копировании изображения в формате JPEG. В качестве другой аналогии можно привести комедию 1996 года «Множество», в которой главный герой клонирует себя, а затем клонирует клонов, что приводит к экспоненциальному снижению уровня интеллекта у каждого нового клона.

Коллапс моделей происходит, когда данные, сгенерированные моделями ИИ, «загрязняют» тренировочный набор для последующих моделей. «Оригинальные антропогенные данные лучше отражают реальный мир, поскольку содержат в том числе неправдоподобную информацию, — объяснил Илья Шумайлов, один из авторов работы. — Генеративные модели, однако, имеют тенденцию к переобучению на популярных данных и часто неправильно понимают или интерпретируют менее популярные данные».

Если модель обучается на дата-сете c 10 изображениями синих котов и 90 желтых, ИИ запоминает, что желтые коты преобладают и показывает даже синих котов желтоватыми, а на запрос о новых данных выдает зеленых котов. С последующими циклами синий цвет и вовсе заменяется зеленоватым, переходя затем в желтый.

«Загрязнение» данными, сгенерированными ИИ, приводит к искажению восприятия реальности моделями. Даже когда исследователи обучали модели не создавать слишком много повторяющихся ответов, они обнаружили, что коллапс все равно происходит, поскольку ИИ начинает выдавать ошибочные ответы, чтобы избежать частого повторения данных.

Как решить проблему

Исследователи выделили два пути, которые позволяют избежать коллапса модели.

Первый — сохранение оригинального дата-сета, полностью или в основном созданного людьми, и предотвращение его смешивания с данными от ИИ. В этом случае модель можно периодически переобучать на этих данных или полностью обновлять с их использованием. Второй путь, который может уберечь от деградации в качестве ответов и сократить количество ошибок, — повторное введение в обучение ИИ нового очищенного антропогенного дата-сета.

Исследователи отмечают, что это потребует создания некоего механизма массовой маркировки или же усилий со стороны создателей контента или ИИ-компаний, которые позволят разделить данные от людей и машин. Также важно обеспечить справедливое представление менее популярной информации в дата-сете как с точки зрения количества, так и качества и точного описания характеристик. Это серьезный вызов, поскольку модели сложно обучать на редких событиях.

Хочешь стать одним из более 100 000 пользователей, кто регулярно использует kiozk для получения новых знаний?
Не упусти главного с нашим telegram-каналом: https://kiozk.ru/s/voyrl

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

«Люди не смогут отличить, что реально, а что воображаемо» «Люди не смогут отличить, что реально, а что воображаемо»

Пять кратких историй успеха, достигнутого в том числе и выходцами из России

РБК
Безопасно ли прыгать в сухие листья Безопасно ли прыгать в сухие листья

Прыжки в кучи сухих листьев могут представлять опасность для здоровья

ТехИнсайдер
Много шума — и ничего Много шума — и ничего

Антирейтинг — топ-7 наиболее значимых технологических провалов нашего времени

РБК
Как подключить телефон к машине: 3 способа Как подключить телефон к машине: 3 способа

Зачем подключать телефон к машине и как это сделать?

РБК
«У нас хватило ума…» «У нас хватило ума…»

Как завершалась холодная война между СССР и США?

Дилетант
Все управляют всеми Все управляют всеми

Бизнес переживает смену управленческой парадигмы

Ведомости
Итоги царствования Александра III Итоги царствования Александра III

Железный царь: как Александр III усилил Россию и избежал войн?

Знание – сила
В этот раз я не родился курьером В этот раз я не родился курьером

Ведь доставлять можно не только продукты... можно нести что-то большее

Правила жизни
На границе двух миров На границе двух миров

Порой они кажутся стражами, охраняющими прибрежную полоску песка

Наука и жизнь
5 привычек, которые бесят всех врачей 5 привычек, которые бесят всех врачей

Почему врач не может поставить вам правильный диагноз?

Maxim
Москва — Дагестан Москва — Дагестан

У дагестанцев есть уникальное умение — перенимать новое и сохранять самость

Seasons of life
Пластыри от прыщей: как они устроены и действительно ли помогают избавиться от высыпаний Пластыри от прыщей: как они устроены и действительно ли помогают избавиться от высыпаний

Работают ли патчи от прыщей или это просто маркетинг?

ТехИнсайдер
Свежая зелень Свежая зелень

Компактная ванная: пример выверенной планировки и сложной колористики

Идеи Вашего Дома
Экономика свечного заводика: как построить с нуля бренд ароматов для дома Экономика свечного заводика: как построить с нуля бренд ароматов для дома

Как скромное начинание выросло в полноценное производство?

Inc.
Очищают ли растения воздух в доме? Очищают ли растения воздух в доме?

Как комнатные растения могут избавить нас от избытка углекислого газа

Наука и жизнь
Курьер последней доставки Курьер последней доставки

Данила был курьером на платформе «ВсеВезем»

Правила жизни
Вадим Бакунев Вадим Бакунев

Вадим Бакунев: генеральный директор «Руки вверх Production»

Правила жизни
Обычный лед оказался флексоэлектрическим Обычный лед оказался флексоэлектрическим

Лед проявил сегнетоэлектрические свойства

N+1
Илья Соболев Илья Соболев

Илья Соболев: начинал свою карьеру в красноярской команде КВН «Левый берег»

Правила жизни
Оазис в городе Оазис в городе

Функциональный современный интерьер без привязки к стилевым решениям

Идеи Вашего Дома
Мысли камня Мысли камня

Зачем вам читать мысли камня? В целом – незачем. Как и все остальное

Правила жизни
Вадим Селезнев Вадим Селезнев

Вадим Селезнев: вместе с однокурсником шесть лет играл в команде КВН DasISTfak’t

Правила жизни
Курьерист Курьерист

Уже давно никто никому не звонит. Мне, например, звонит только мама

Правила жизни
Что бы предпринять Что бы предпринять

Пошаговое руководство для всех, кто каждое утро мечтает начать работать на себя

VOICE
Место встречи, а не экскурсия Место встречи, а не экскурсия

Как сделать культуру и искусство доступными и понятными для широкой аудитории?

Монокль
Как продлить жизнь букету цветов: актуальный лайфхак к 1 сентября Как продлить жизнь букету цветов: актуальный лайфхак к 1 сентября

Как продлить жизнь растениям в вазе с научной точки зрения?

ТехИнсайдер
Алексей Екс Алексей Екс

Алексей Екс: сценарист, участник Высшей лиги КВН

Правила жизни
Алексей Москалёв: «Старение – не обособленный процесс, а совокупность взаимосвязанных биологических каскадов, среди которых выделяются хроническое воспаление, гликирование и окислительный стресс» Алексей Москалёв: «Старение – не обособленный процесс, а совокупность взаимосвязанных биологических каскадов, среди которых выделяются хроническое воспаление, гликирование и окислительный стресс»

Что сейчас известно о природе долголетия?

Здоровье
Я поднимаю свой — вокал Я поднимаю свой — вокал

Вечный спор физиков и лириков: можно ли стать певцом в зрелом возрасте?

ЖАРА Magazine
Вот так кульбаба! Вот так кульбаба!

Пик жизни кульбабы наступает именно тогда, когда все уже готовятся к зиме

Наука и жизнь
Открыть в приложении