Самые известные AI-модели, такие как GPT-3, обучены на гигантских датасетах

Популярная механикаHi-Tech

Накликали беду: как правильно применять AI в работе с небольшим количеством данных

Когда люди слышат словосочетание «искусственный интеллект», многие представляют большие массивы данных. В этом есть смысл – самые известные AI-модели, такие как GPT-3, обучены на гигантских датасетах. Тем не менее, большинство методов обучения моделей страдают от так называемого “data hunger”, когда модели требуются десятки и сотни тысяч примеров для обучения, а также от чрезмерно высоких ресурсных затрат. Тем не менее, чаще всего данных в наличии у компаний сравнительно мало. Это может быть связано с политикой сбора данных, отсутствием единых правил хранения. А еще стоимостью разметки, так как для подготовки использования данных в AI-системе часто необходимо привлекать квалифицированных специалистов.

Рассмотрим один из популярных на сегодняшний день кейсов – основанную на AI проверку договоров (Kira Systems, Embedica). Предположим, что вы решили сделать аналогичную систему внутри компании, для этого вам потребуется множество договоров с правками юристов, чтобы обучить модель. Если с самими текстами проблем не будет, то получить размеченные данные окажется довольно сложно – к процессу нужно будет подключить целый штат специалистов. И даже спустя несколько месяцев дорогостоящей работы у вас будет всего несколько тысяч размеченных документов. А это никак нельзя назвать большими данными.

Чтобы подобные системы работали, компаниям нужно научиться строить AI-решения с данными из «наличия». 

Проблема малых данных в AI

Чтобы изучить новый материал, человеку не нужны сотни тысяч примеров, достаточно прочитать пару статей. Почему же ИИ так не может? 

В действительности человеческий мозг не обучается на маленьком объеме данных. Подумайте, ведь мы с рождения потребляем непрерывный поток информации через все органы чувств и только спустя несколько месяцев такого обучения начинаем говорить, различать объекты и людей, и то не всегда правильно. К моменту взросления нам уже не требуется много данных, чтобы решать простейшие задачи по распознаванию лиц друзей или чтению нового материала. Что касается юристов, с которых мы начинали, то даже профессионал своего дела за многолетнюю практику исследует тысячи, а не сотни тысяч договоров. Но ему это и не нужно, ведь он знает главное – язык. Так можно ли строить ИИ-системы, основываясь на том же принципе? 

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Как ученые отправляют послания иным цивилизациям и сколько нам ждать ответа? Как ученые отправляют послания иным цивилизациям и сколько нам ждать ответа?

METI — попытки передачи межзвездных посланий

Популярная механика
Кнопка перезагрузки: история писательницы, которая потеряла дом и нашла смысл жизни Кнопка перезагрузки: история писательницы, которая потеряла дом и нашла смысл жизни

Отрывок из книги «Дикая тишина»: как "нормальный" образ жизни может надоесть

Forbes
Мазепа: гетман, меценат, изменник Мазепа: гетман, меценат, изменник

Иван Мазепа — гетман, интриган и политик, совершивший роковые ошибки

Дилетант
Твои первые губы: главные вопросы об уколах красоты — отвечает косметолог Твои первые губы: главные вопросы об уколах красоты — отвечает косметолог

И хочется, и колется… Страшно делать инъекции красоты? Главные вопросы

VOICE
Криптобудущее Криптобудущее

Жизненный цикл цивилизаций и наступающая эпоха свободы

Популярная механика
Светлана Жарова. Мой дядя Миша Светлана Жарова. Мой дядя Миша

О дяде Мише ходили слухи, что он бабник и пьяница — неправда!

Коллекция. Караван историй
Читая кожа лица: правила питания, подходящий продукты и секреты ухода Читая кожа лица: правила питания, подходящий продукты и секреты ухода

Здоровая и чистая кожа – это прежде всего правильное питание

VOICE
«Неестественный отбор: Генная инженерия и человек будущего»: Как далеко мы можем зайти в изменении генома? «Неестественный отбор: Генная инженерия и человек будущего»: Как далеко мы можем зайти в изменении генома?

О развитии генетических технологий и новых этических дилеммах

N+1
Полезная сладость: как клубника помогает худеть и другие малоизвестные факты о любимом десерте россиян Полезная сладость: как клубника помогает худеть и другие малоизвестные факты о любимом десерте россиян

Чем полезна клубника для организма?

Вокруг света
47 лет вместе и вдруг развод? История любви Алишера Усманова и Ирины Винер 47 лет вместе и вдруг развод? История любви Алишера Усманова и Ирины Винер

Вспоминаем их удивительную историю любви Алишера Усманова и Ирины Винер

VOICE
Два слоя графена помогли перовскитным солнечным элементам проработать 5000 часов Два слоя графена помогли перовскитным солнечным элементам проработать 5000 часов

Внешний слой графена защищает солнечный элемент от кислорода и воды

N+1
Веселый град Веселый град

О бурной, веселой и криминальной жизни Праги до Тридцатилетней войны

Вокруг света
«Мой муж внезапно умер, и я осталась одна с двумя сыновьями. Не знаю, как жить дальше» «Мой муж внезапно умер, и я осталась одна с двумя сыновьями. Не знаю, как жить дальше»

Как справиться с горем утраты и найти в себе силы жить дальше?

Psychologies
Песня победы Песня победы

История о неперспективных детях, человеческих ценностях и музыке

СНОБ
Чем полезен шалфей и как добавить его в рацион Чем полезен шалфей и как добавить его в рацион

Нужно ли вам купить шалфей прямо сейчас?

РБК
Держи голову в холоде, а живот — в голоде Держи голову в холоде, а живот — в голоде

Как связаны температура тела, метаболизм и продолжительность жизни?

Здоровье
Скелеты в шкафу: как и когда одежда выдает твою самооценку — разбор стилиста Скелеты в шкафу: как и когда одежда выдает твою самооценку — разбор стилиста

Можно ли по одному костюму определить, что о себе думает женщина?

VOICE
Ссоры с пожилыми родителями: как их избежать Ссоры с пожилыми родителями: как их избежать

Почему иногда мы с пожилыми родителями становимся словно чужими?

Psychologies
7 знаковых лекарств, поднявших медицину на новый уровень 7 знаковых лекарств, поднявших медицину на новый уровень

Как неожиданные и странные открытия век за веком двигали прогресс вперед

ТехИнсайдер
Астрономы нашли звезду с самым разнообразным содержанием тяжелых элементов Астрономы нашли звезду с самым разнообразным содержанием тяжелых элементов

HD 222925 — звезда с самым разнообразным химическим составом

N+1
5 вещей, которыми нельзя пренебрегать после пластики груди 5 вещей, которыми нельзя пренебрегать после пластики груди

5 правил, о которых ты ни в коем случае не должна забывать после пластики груди

Cosmopolitan
Степень смешения: почему ушедшим западным брендам непросто придумать новые названия Степень смешения: почему ушедшим западным брендам непросто придумать новые названия

Как ни крути, McDonald's, SvetoCopy, OBI — теперь только за границей

Forbes
8 проблем с бюстгальтером и их решения 8 проблем с бюстгальтером и их решения

Бюстгальтер стал плохо сидеть?

VOICE
«Москвич» для москвичей: стоит ли возрождать советские бренды «Москвич» для москвичей: стоит ли возрождать советские бренды

Если применять мифологему СССР, то только чтобы создавать что-то новое

Forbes
Останки из Суздальского Ополья указали на плохое здоровье средневековых жителей поселения Останки из Суздальского Ополья указали на плохое здоровье средневековых жителей поселения

Ученые исследовали останки 26 человек с памятника Михали-3

N+1
В главной роли: как найти истинного себя? В главной роли: как найти истинного себя?

Как найти и не потерять собственное «Я» среди своих целей и обязанностей?

Psychologies
Секретный старый порт: почему стоит отправиться в турецкий город Гечек Секретный старый порт: почему стоит отправиться в турецкий город Гечек

У туристов Гечек славится мягким климатом и длинным купальным сезоном

Forbes
География чтения: 5 книг о Северной Африке География чтения: 5 книг о Северной Африке

Книги о загадочном континенте, который манит авантюристов и путешественников

Вокруг света
Политические конфликты в семье: как их разрешать? Политические конфликты в семье: как их разрешать?

Как быть, когда конфликты раскалывают семью и дружбу?

Psychologies
Московский Нострадамус Московский Нострадамус

Это имя уже почти три столетия служит синонимом тайных знаний

Дилетант
Открыть в приложении