Самые известные AI-модели, такие как GPT-3, обучены на гигантских датасетах

Популярная механикаHi-Tech

Накликали беду: как правильно применять AI в работе с небольшим количеством данных

Когда люди слышат словосочетание «искусственный интеллект», многие представляют большие массивы данных. В этом есть смысл – самые известные AI-модели, такие как GPT-3, обучены на гигантских датасетах. Тем не менее, большинство методов обучения моделей страдают от так называемого “data hunger”, когда модели требуются десятки и сотни тысяч примеров для обучения, а также от чрезмерно высоких ресурсных затрат. Тем не менее, чаще всего данных в наличии у компаний сравнительно мало. Это может быть связано с политикой сбора данных, отсутствием единых правил хранения. А еще стоимостью разметки, так как для подготовки использования данных в AI-системе часто необходимо привлекать квалифицированных специалистов.

Рассмотрим один из популярных на сегодняшний день кейсов – основанную на AI проверку договоров (Kira Systems, Embedica). Предположим, что вы решили сделать аналогичную систему внутри компании, для этого вам потребуется множество договоров с правками юристов, чтобы обучить модель. Если с самими текстами проблем не будет, то получить размеченные данные окажется довольно сложно – к процессу нужно будет подключить целый штат специалистов. И даже спустя несколько месяцев дорогостоящей работы у вас будет всего несколько тысяч размеченных документов. А это никак нельзя назвать большими данными.

Чтобы подобные системы работали, компаниям нужно научиться строить AI-решения с данными из «наличия». 

Проблема малых данных в AI

Чтобы изучить новый материал, человеку не нужны сотни тысяч примеров, достаточно прочитать пару статей. Почему же ИИ так не может? 

В действительности человеческий мозг не обучается на маленьком объеме данных. Подумайте, ведь мы с рождения потребляем непрерывный поток информации через все органы чувств и только спустя несколько месяцев такого обучения начинаем говорить, различать объекты и людей, и то не всегда правильно. К моменту взросления нам уже не требуется много данных, чтобы решать простейшие задачи по распознаванию лиц друзей или чтению нового материала. Что касается юристов, с которых мы начинали, то даже профессионал своего дела за многолетнюю практику исследует тысячи, а не сотни тысяч договоров. Но ему это и не нужно, ведь он знает главное – язык. Так можно ли строить ИИ-системы, основываясь на том же принципе? 

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Как ученые отправляют послания иным цивилизациям и сколько нам ждать ответа? Как ученые отправляют послания иным цивилизациям и сколько нам ждать ответа?

METI — попытки передачи межзвездных посланий

Популярная механика
Одна вокруг света: голубая лагуна и испытание джунглями Одна вокруг света: голубая лагуна и испытание джунглями

170-я серия о кругосветном путешествии москвички Ирины Сидоренко: Амазония

Forbes
Папа может всё что угодно: 6 мифов об отцовском декрете Папа может всё что угодно: 6 мифов об отцовском декрете

Почему так непопулярен отцовский декрет в нашей стране?

Cosmopolitan
Олег Рой: «Я все время в движении» Олег Рой: «Я все время в движении»

Олег Рой — о жизни, творчестве и об изменениях в обществе

Лиза
Как пилотов защищают от серьезных аварий в «Формуле-1»? Как пилотов защищают от серьезных аварий в «Формуле-1»?

Как работает система защиты пилотов в «Формуле-1»?

Maxim
Лягушки получили змеиную ДНК благодаря паразитам Лягушки получили змеиную ДНК благодаря паразитам

Горизонтальный перенос ДНК произошел между змеями и лягушками не менее 54

N+1
Если вены создают проблемы Если вены создают проблемы

Секреты, которые помогают ногам оставаться здоровыми и красивыми

Лиза
Кристина Кретова и Игорь Цвирко: Кристина Кретова и Игорь Цвирко:

Кристина Кретова и Игорь Цвирко рассказывают о балете и своей любви

Караван историй
Цена бодрости: вред и польза энергетических напитков Цена бодрости: вред и польза энергетических напитков

Так ли вредны энергетические напитки, как о них говорят?

VOICE
Личинки одиночных ос съели собственных братьев и сестер Личинки одиночных ос съели собственных братьев и сестер

Как личинки одиночных ос решили проблему нехватки пищи в гнезде

N+1
Новые Новые

Круизные лайнеры не гарантируют выживания пассажиров в кораблекрушении

ТехИнсайдер
Что почитать о мультивселенных: 3 ярких фантастических романа о параллельных мирах Что почитать о мультивселенных: 3 ярких фантастических романа о параллельных мирах

Романы о множественных реальностях

ТехИнсайдер
От них ждали «чудо-кнопку», с которой всё быстро учится, но так не бывает: как растёт приложение-школа китайского Laoshi От них ждали «чудо-кнопку», с которой всё быстро учится, но так не бывает: как растёт приложение-школа китайского Laoshi

Предприниматель Сергей Кондрашов учит россиян китайскому больше 10 лет

VC.RU
Страдающее искусство: 7 громких случаев арт-вандализма Страдающее искусство: 7 громких случаев арт-вандализма

Громкие случаи нападения на искусство

Правила жизни
«Мне грозит одиночество, и это ужасно» «Мне грозит одиночество, и это ужасно»

«Не вижу смысла в дальнейшей одинокой жизни»

Psychologies
Эти аномалии Эти аномалии

Данные о путешествии Voyager 2 в межзвездное пространство и выводы

ТехИнсайдер
«Загадка нестареющей медузы»: Как наука замедляет старение. Секреты природы и достижения науки, которые помогут приблизиться к вечной жизни «Загадка нестареющей медузы»: Как наука замедляет старение. Секреты природы и достижения науки, которые помогут приблизиться к вечной жизни

Как научные открытия приближают нас к вечной жизни? Отрывок из книги

N+1
Поле под контролем Поле под контролем

Почвенный агрохиманализ как способ сокращения затрат

Агроинвестор
5 самых крутых «Москвичей», которые хочет иметь каждый автомобилист 5 самых крутых «Москвичей», которые хочет иметь каждый автомобилист

Dспомним прошлое легендарного отечественного бренда «Москвич»

ТехИнсайдер
Гаплонедостаточность уличили в развитии тяжелой формы стафилококковой инфекции Гаплонедостаточность уличили в развитии тяжелой формы стафилококковой инфекции

Недостаток деубиквитиназы привел к тяжелому течению стафилококковой инфекции

N+1
Держи голову в холоде, а живот — в голоде Держи голову в холоде, а живот — в голоде

Как связаны температура тела, метаболизм и продолжительность жизни?

Здоровье
Нейросеть от DeepMind научилась решать 604 задачи разных типов Нейросеть от DeepMind научилась решать 604 задачи разных типов

Исследователи из DeepMind разработали мультимодальную нейросеть

N+1
Лучшие фильмы Ирана Лучшие фильмы Ирана

Разбираемся, что из себя представляет иранское кино

Maxim
Веселый град Веселый град

О бурной, веселой и криминальной жизни Праги до Тридцатилетней войны

Вокруг света
Почему мы не запоминаем все наши сны? Почему мы не запоминаем все наши сны?

Забывать сны — это нормально или нет?

ТехИнсайдер
Тихое насилие: как он унижает тебя, ни слова не говоря Тихое насилие: как он унижает тебя, ни слова не говоря

Что такое тихое насилие и как оно проявляется?

VOICE
Как эффективно использовать моменты, когда ничего не хочется делать Как эффективно использовать моменты, когда ничего не хочется делать

Как вести себя, чтобы зарядиться энергией

Psychologies
Бедный Рюрик… Бедный Рюрик…

Кто такой Рюрик?

Дилетант
Почему в СССР тапочки прижились только после смерти Сталина Почему в СССР тапочки прижились только после смерти Сталина

Почему тапки прижились в СССР лишь в 60-х годах

Cosmopolitan
Как «Евгения Онегина» читали современники Пушкина. Отрывок из книги проекта «Полка» Как «Евгения Онегина» читали современники Пушкина. Отрывок из книги проекта «Полка»

Отрывок из книги «Полка: О главных книгах русской литературы»

СНОБ
Открыть в приложении