Что такое «коллапс модели», чем он угрожает развитию ИИ и человека

Сегодня активно обсуждается так называемый «коллапс модели», явление при котором нейросеть деградирует и перестает работать. Но насколько реалистичны эти прогнозы и что вообще такое этот «коллапс модели»? С этим попробовал разобраться Аарон Дж. Сносвелл научный сотрудник по вопросам ИИ, Квинслендского технологического университета.

Владимир Губайловский

Когда модели изображений искусственного интеллекта обучаются на собственных результатах, они могут создавать искаженные изображения, изуродованные пальцы или странные узоры. Изображения, созданные Sina Alemohammad and others.

Обсуждавшийся еще 2023 году, но ставший популярным совсем недавно «коллапс модели» относится к гипотетическому сценарию, при котором будущие системы ИИ деградируют, потому что обучаются на данных генерируемых ИИ.

Современные системы ИИ строятся на основе машинного обучения. Программисты закладывают математическую структуру, но реальный «интеллект» появляется в результате обучения системы на определенных дата-сетах.

Это не любые данные. Современным генеративным системам ИИ нужны высококачественные данные, причем в большом количестве.

Сколько надо данных

«Чтобы обучить GPT-3, OpenAI понадобилось более 650 миллиардов английских слов текста — примерно в 200 раз больше, чем вся английская Википедия. Но для этого требовалось собрать почти в 100 раз больше исходных данных из интернета и 98% которых было затем отфильтровано и отброшено», — пишет Аарон Дж. Сносвелл со ссылкой на статью, размещенную на сервере arxiv.

Чтобы получить эти данные, крупные технологические компании, такие как OpenAI, Google, Meta (признана экстремистской организацией на территории РФ) и Nvidia, постоянно сканируют интернет, собирая терабайты контента, чтобы «накормить» машины. Но после появления в 2022 году широкодоступных и полезных систем генеративного ИИ люди все чаще загружают и делятся контентом, частично или полностью созданным ИИ.

В 2023 году исследователи начали задумываться о том, нельзя ли обойтись для обучения только данными, созданными ИИ, вместо данных, сгенерированных человеком.

Для этого есть огромные стимулы. Контент, созданный ИИ гораздо дешевле, чем данные, созданные человеком. Кроме того, его собирание не вызывает сомнений с этической и юридической точек зрения. На него ни у кого нет авторских прав, кроме компании которая его создает.

Что такое «коллапс модели», чем он угрожает развитию ИИ и человека

Сколько надо данных

Рекомендуемые статьи

Как себя вести, если ваша собака в чем-то провинилась?

Собрали в подборку семь роковых леди кинематографа, способных на многое

Как на примере роботов ПМЭФ можно проследить путь прорывной технологии

Книги из коллекции Евгения Петросяна, общей стоимостью в 3 млн рублей

Обратить старость вспять реально, причем на это понадобится всего один день

Не каждая хозяйка знает, что меламиновые губки подходят не для всякой работы

Линейка стрелкового оружия семейства КОРД расширяется

Знакомо ли вам такое понятие, как «лоскутная» семья?

В люксовом яхтинге гигантоманию сменила компактность

Как инженерам удалось разработать шестиногого микроробота Picotaur

«Субстанция»: яростная просьба отстать от женщин и их внешности

Фотограф Максим Чуркин каждую съемку превращает в живопись музейного уровня

Выразительный современный интерьер с французским акцентом

Росина Сефиен – о том, как одеваться, если ты плюс-сайз

Почему многие неосознанно избегают своего счастья?

Какие болевые точки отрасли энергетики видны специалистам?

Что такое предвзятость подтверждения и как она влияет на нас

Массаж лица: теория и практика

Пианист Константин Купервейс вспоминает о работе с легендами

Повадки и поведение дроздов заслуживают отдельного внимания!

Кам Гаффарян, был пионером в области коммерческих космических полетов на МКС

На краю деревни, среди леса стоит дом, в который хочется привести каждого

Как выглядит изнутри туристическая отрасль на архипелаге Шпицберген

Какие растения помогут поддерживать здоровье экосистемы под родной крышей

Ученые провели 26 томографий беременной, чтобы оценить изменения ее мозга

Арктика – главный и наиболее чувствительный индикатор климатических изменений

Почему нам так больно расставаться с друзьями?

Отрывок из книги «Аптайм. Оптимальный способ управления временем и энергией»

Ученые обнаружили нервные клетки, которые вызывают кашель или чихание у мышей

Теннисистка Анастасия Пивоварова поделилась своими рецептами успеха