Самые известные AI-модели, такие как GPT-3, обучены на гигантских датасетах

Популярная механикаHi-Tech

Накликали беду: как правильно применять AI в работе с небольшим количеством данных

Когда люди слышат словосочетание «искусственный интеллект», многие представляют большие массивы данных. В этом есть смысл – самые известные AI-модели, такие как GPT-3, обучены на гигантских датасетах. Тем не менее, большинство методов обучения моделей страдают от так называемого “data hunger”, когда модели требуются десятки и сотни тысяч примеров для обучения, а также от чрезмерно высоких ресурсных затрат. Тем не менее, чаще всего данных в наличии у компаний сравнительно мало. Это может быть связано с политикой сбора данных, отсутствием единых правил хранения. А еще стоимостью разметки, так как для подготовки использования данных в AI-системе часто необходимо привлекать квалифицированных специалистов.

Рассмотрим один из популярных на сегодняшний день кейсов – основанную на AI проверку договоров (Kira Systems, Embedica). Предположим, что вы решили сделать аналогичную систему внутри компании, для этого вам потребуется множество договоров с правками юристов, чтобы обучить модель. Если с самими текстами проблем не будет, то получить размеченные данные окажется довольно сложно – к процессу нужно будет подключить целый штат специалистов. И даже спустя несколько месяцев дорогостоящей работы у вас будет всего несколько тысяч размеченных документов. А это никак нельзя назвать большими данными.

Чтобы подобные системы работали, компаниям нужно научиться строить AI-решения с данными из «наличия». 

Проблема малых данных в AI

Чтобы изучить новый материал, человеку не нужны сотни тысяч примеров, достаточно прочитать пару статей. Почему же ИИ так не может? 

В действительности человеческий мозг не обучается на маленьком объеме данных. Подумайте, ведь мы с рождения потребляем непрерывный поток информации через все органы чувств и только спустя несколько месяцев такого обучения начинаем говорить, различать объекты и людей, и то не всегда правильно. К моменту взросления нам уже не требуется много данных, чтобы решать простейшие задачи по распознаванию лиц друзей или чтению нового материала. Что касается юристов, с которых мы начинали, то даже профессионал своего дела за многолетнюю практику исследует тысячи, а не сотни тысяч договоров. Но ему это и не нужно, ведь он знает главное – язык. Так можно ли строить ИИ-системы, основываясь на том же принципе? 

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Как ученые отправляют послания иным цивилизациям и сколько нам ждать ответа? Как ученые отправляют послания иным цивилизациям и сколько нам ждать ответа?

METI — попытки передачи межзвездных посланий

Популярная механика
Ирина Шейк 25 лет спустя: как выглядит мама русской модели, покорившей мир Ирина Шейк 25 лет спустя: как выглядит мама русской модели, покорившей мир

Ольга Шайхлисламова со знаменитой дочерью Ириной Шейк невероятно похожи

VOICE
10 простых привычек, которые помогают поднять настроение 10 простых привычек, которые помогают поднять настроение

Настроение поднять очень просто — достаточно знать о том, как работает тело

Популярная механика
Борьба с самим собой. В прокат выходит «Клон» — хит фестиваля «Санденс» Борьба с самим собой. В прокат выходит «Клон» — хит фестиваля «Санденс»

«Клон» — триллер о ненависти к самому себе

СНОБ
Сменить колею: что не так с транспортной политикой в России Сменить колею: что не так с транспортной политикой в России

Почему транспортная политика в России не работает

Forbes
Психолог, психотерапевт, психиатр, психоаналитик: в чем разница? Психолог, психотерапевт, психиатр, психоаналитик: в чем разница?

Попробуем разобраться, чем отличается психолог от психотерапевта и психиатра

Psychologies
Как правильно мыть голову: инструкция и советы экспертов Как правильно мыть голову: инструкция и советы экспертов

Обязательно ли мыть голову или можно сбрызнуть ее сухим шампунем?

РБК
«Мятежная клетка: Рак, эволюция и новая наука о жизни». Как мы пришли к эволюционно-экологическому осмыслению рака «Мятежная клетка: Рак, эволюция и новая наука о жизни». Как мы пришли к эволюционно-экологическому осмыслению рака

Отрывок из книги об онкологии «Мятежная клетка» — как изучается рак у животных?

N+1
Телефон с двумя SIM-картами садится в 2 раза быстрее: миф или правда? Телефон с двумя SIM-картами садится в 2 раза быстрее: миф или правда?

Гаджет с двумя сим-картами потребляет больше энергии или нет?

CHIP
Музей боли и страха: выставка одежды жертв насилия с их историями Музей боли и страха: выставка одежды жертв насилия с их историями

Зачем нужны выставки, посвященные жертвам насилия?

VOICE
Топ-10 самых популярных авто в России. Реальные цены и наличие у дилеров Топ-10 самых популярных авто в России. Реальные цены и наличие у дилеров

Какие автомобили пользуются популярностью у россиян даже во время обвала рынка

РБК
Как купить подержанный смартфон — отвечают эксперты Как купить подержанный смартфон — отвечают эксперты

На что нужно обратить внимание в первую очередь, если приобретаешь телефон с рук

Maxim
Это не сложно и не дорого: как перестать бояться начать здоровый образ жизни Это не сложно и не дорого: как перестать бояться начать здоровый образ жизни

ЗОЖ — не для тебя, потому что придется во всем себя ограничивать? Разбираемся

VOICE
60 лет жизни в капсуле: удивительная история Марты Мейсон 60 лет жизни в капсуле: удивительная история Марты Мейсон

Стойкости Марты Мейсон можно только аппладировать

VOICE
Как придумали и запустили «Вояджер». Отрывок из книги об исследованиях планет Солнечной системы Как придумали и запустили «Вояджер». Отрывок из книги об исследованиях планет Солнечной системы

Отрывок из книги «Разведчики внешних планет»

СНОБ
Как хитроумные инженеры несколько раз изобретали швейную машинку Как хитроумные инженеры несколько раз изобретали швейную машинку

В 1755 году немецкий инженер Карл Визенталь изобрел швейную иглу

ТехИнсайдер
Худрук театра Моссовета Евгений Марчелли: Худрук театра Моссовета Евгений Марчелли:

Худрук театра Моссовета Евгений Марчелли не сторонник радикальных перемен

Караван историй
Гормоны и не только: 9 вещей, которые необходимо знать о менструальном цикле Гормоны и не только: 9 вещей, которые необходимо знать о менструальном цикле

Главные вопросы о менструальном цикле

Psychologies
Наука собирать грибы Наука собирать грибы

Не одно десятилетие грибники спорят друг с другом, как правильно собирать грибы

Наука и жизнь
Полстакана черники в день снизило риск когнитивного снижения у людей среднего возраста Полстакана черники в день снизило риск когнитивного снижения у людей среднего возраста

Черника улучшает память, контроль и речь у людей людей в возрасте 50-65 лет

N+1
Письмо каждой, кто считает себя неудачницей в 30 лет Письмо каждой, кто считает себя неудачницей в 30 лет

Письмо женщинам, которые перешагнули тридцатилетний рубеж

Psychologies
Задержка месячных на 5 дней при отрицательном тесте: стоит ли волноваться Задержка месячных на 5 дней при отрицательном тесте: стоит ли волноваться

Почему может возникнуть задержка месячных?

VOICE
5 опасных растений, которые вы никогда не должны трогать: запомните их! 5 опасных растений, которые вы никогда не должны трогать: запомните их!

Прикосновение к этим растениям могут убить

ТехИнсайдер
Лягушки получили змеиную ДНК благодаря паразитам Лягушки получили змеиную ДНК благодаря паразитам

Горизонтальный перенос ДНК произошел между змеями и лягушками не менее 54

N+1
«Парфетки» и «мовешки»: как жилось воспитанницам института благородных девиц «Парфетки» и «мовешки»: как жилось воспитанницам института благородных девиц

Выпускниц института презрительно называли кисейными барышнями. Но как им жилось?

VOICE
«Миллионные расходы»: как законопроект о такси изменит жизнь водителей и агрегаторов «Миллионные расходы»: как законопроект о такси изменит жизнь водителей и агрегаторов

Почему новый законопроект о такис критикуют агрегаторы?

Forbes
Действующий персонаж: как зарабатывать на героях метавселенной Действующий персонаж: как зарабатывать на героях метавселенной

Основатель Superplastic Пол Будниц создает персонажей в метавселенной

Forbes
Малина круглый год Малина круглый год

«Юнионпарк» построил тепличный комплекс для выращивания ягоды за 400 млн руб.

Агроинвестор
Роман Хилари Мантел «Сердце бури» о Французской революции Роман Хилари Мантел «Сердце бури» о Французской революции

«Сердце бури» — это масштабный эпос об истории Великой французской революции

СНОБ
Как выбрать недорогой спальный мешок Как выбрать недорогой спальный мешок

При покупке спальника нужно применять инженерный подход

Maxim
Открыть в приложении