Как устроены малые языковые модели и в чем их преимущества перед большими?

РБКHi-Tech

SLM схватывают на лету

Как устроены малые языковые модели и в чем их преимущества перед большими моделями

Автор: Сергей Лукашкин, к. ф.-м. н., эксперт по цифровой трансформации, ранее работал в научно-образовательном центре «Цифровые технологии в образовании» ВШМ СПбГУ

Справка от ChatGPT

SLM (Small Language Model) — в сфере ИИ это языковая модель с ограниченным числом параметров, предназначенная для обработки и предсказания слов или фраз в контексте предыдущих слов. Основная цель SLM — предсказать следующее слово или последовательность слов, исходя из предыдущего контекста. Такие модели используют методы машинного обучения для анализа текста и могут быть обучены на больших корпусах данных для повышения точности предсказаний. SLM широко применяются в задачах обработки естественного языка, например в системах автозамены, автодополнения, в машинном переводе, распознавании речи и генерации текста.

Что такое SLM и LLM

Малые языковые модели, в отличие от больших языковых моделей (LLM), обученных на огромных массивах данных, используют небольшие объемы информации, но лучшего качества, поэтому работают точнее.

Четкого разделения между LLM и SLM пока что нет. Одни относят к большим языковым моделям те, что работают с 100 млн и более параметров, а к малым — от 1 млн до 10 млн. Другие называют цифры 100+ млрд и 10 млрд соответственно. Но речь идет не только о числе параметров, но и объеме данных, физических размерах и нейронной архитектуре. Если упростить, то малая языковая модель — это та, что требует в разы меньше ресурсов при обучении и анализе данных, чем большая.

Microsoft объявила SLM — малые языковые модели — одним из главных трендов 2025 года в сфере искусственного интеллекта. Изучаем, в чем отличие SLM от больших моделей LLM, как они работают и где могут использоваться

Как они работают

В отличие от универсальных LLM малые модели предназначены для решения узкоспециализированных задач, с которыми справляются заметно лучше. Чтобы извлечь максимум из меньшего набора данных, в SLM используют разные методы:

Дистилляция: когда данные от предварительно обученной LLM передаются к малой модели. Обрезка и квантизация: когда сокращают объемы представления параметров с 32 до 8 или даже 2 бит, уменьшая размеры и требования к ресурсам, а также количество ошибок.

Более эффективные архитектуры: исследователи постоянно разрабатывают новые нейронные архитектуры, предназначенные специально для SLM, чтобы оптимизировать их работу.

Чтобы научить малую модель «думать» так же хорошо, как большая, разработчики настраивают малые модели специальным образом. В итоге SLM не слепо копируют поведение LLM, а выбирают другие стратегии решения задач. Например, отвечая на объемный вопрос, они сначала разбивают его на части и решают пошагово, а не целиком. Это помогает экономить ресурсы и получать такие же точные результаты.

В чем главные плюсы

Исследования показывают, что у SLM перед LLM по крайней мере несколько важных преимуществ:

Экономичность. Обучение LLM требует колоссальных затрат: на одну модель уходит в среднем от $9 млн до $23 млн, а модели вроде GPT-3 расходуют до 1,3 тыс. МВт/ч — это как если бы вы смотрели Netflix 1,6 млн часов. В основе больших моделей — архитектура Transformer, которая по мере увеличения данных требует все больше памяти и вычислительных мощностей. SLM потребляют гораздо меньше памяти и других ресурсов, что делает их более доступными. К примеру, чтобы обучить PaLM от Google, потребовалось больше 6 тыс. супермощных чипов TPU v4, тогда как для обучения малой модели OPT от Meta (признана экстремистской организацией на территории РФ) AI понадобилось всего 992 графических процессора Nvidia A100 по 80 Гб каждый. Для малых моделей достаточно оперативной памяти в 16 Гб или меньше, если речь идет о мобильных версиях.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

«Нет причин не продлить нашу жизнь до 200 лет и даже до 1000» «Нет причин не продлить нашу жизнь до 200 лет и даже до 1000»

Как мировая наука и бизнес борются со старением

РБК
Буль-буль Буль-буль

Фантастический рассказ Владислава Кулигина «Буль-буль»

Знание – сила
Александр Чулок: «Мы не стараемся угадать будущее, мы хотим его создать» Александр Чулок: «Мы не стараемся угадать будущее, мы хотим его создать»

Прогнозист Александр Чулок — о том, чем станет ИИ для общества в будущем

РБК
Банановые перспективы российских субтропиков Банановые перспективы российских субтропиков

Инвесторы хотят импортозаместить экзотические фрукты

Агроинвестор
7 обычных продуктов, которые смертельно опасны, если их съесть слишком много 7 обычных продуктов, которые смертельно опасны, если их съесть слишком много

Ты наверняка и не подозревал, что в твоем кухонном шкафу есть яды!

Maxim
Александр Лабас: не авангардист, не соцреалист Александр Лабас: не авангардист, не соцреалист

Голос А. Лабаса — сложный, полифоничный, подчас ускользающий от прямых смыслов

Монокль
Хуже станет всем Хуже станет всем

ВТО прогнозирует сокращение в 5 раз американо-китайской торговли

Ведомости
Через санкции к росту Через санкции к росту

Как российская экономика ищет способы сотрудничества с глобальными игроками

Эксперт
Страховка с биткойном Страховка с биткойном

Как работают инвестиционные полисы с привязкой к биткойну

Ведомости
Традиционная стабильность Традиционная стабильность

Какое место в энергетике будущего будут занимать уголь, нефть и газ

Ведомости
Соло-мама Соло-мама

Каких ошибок стоит избегать женщинам, которые растят детей в одиночку

Лиза
Сезон слабого зернового экспорта Сезон слабого зернового экспорта

Основная причина сокращения поставок зерна по итогам сезона 2024/25

Агроинвестор
Архив богини Фауны Архив богини Фауны

Зоологический музей Московского университета – «отражение самой природы»

Знание – сила
Что следует знать начинающему инвестору Что следует знать начинающему инвестору

Что надо знать, когда планируете начать инвестировать?

Наука и техника
Сити-брейк Сити-брейк

Идеальные города России для семейного уик-энда

Лиза
Стимулы вместо принуждения Стимулы вместо принуждения

Чем биржевая торговля сельхозпродукцией может быть интересна бизнесу

Агроинвестор
Кадровый агропотенциал Кадровый агропотенциал

Роль государства и бизнеса в решении проблемы дефицита персонала

Агроинвестор
«Пишите… А. Куприн» «Пишите… А. Куприн»

Эмиграция сложилась для Куприна не просто трудно, а скорее — трагически

Дилетант
Рабби Давид из люфтваффе Рабби Давид из люфтваффе

В 2019 году Бундестаг одобрил введение в Германии военного раввината

Дилетант
Вместо фастфуда Вместо фастфуда

ЗОЖ-аналоги бургеров, шаурмы и не только

Лиза
Мошенники делают ставки Мошенники делают ставки

Как мошенники используют аккаунты граждан в букмекерских конторах

Ведомости
Мурат Абулкатинов: Не надо пытаться быть больше, чем ты есть Мурат Абулкатинов: Не надо пытаться быть больше, чем ты есть

Режиссер Мурат Абулкатинов — о том, что ему нравится в шекспировской драматургии

Ведомости
Из портов на биржу Из портов на биржу

Угольщики стремятся расширить сбыт на внутреннем рынке на фоне падения экспорта

Ведомости
Есть ли у Европы армия Есть ли у Европы армия

О потенциале собственной армии Евросоюза и перспективах ее участия вне НАТО

Монокль
Весна императора Весна императора

Цезарь — политик-хищник, с чьим именем неотрывно связана Римская империя

Знание – сила
Главное – остаться незамеченным Главное – остаться незамеченным

В чем состоит военная (а возможно, и не только) хитрость стелс-технологии?

Наука и техника
Мир экзопланет: самые странные экзопланеты Мир экзопланет: самые странные экзопланеты

Как появляются пульсарные планеты, планеты-зомби и бланеты

Наука и техника
О чем молчат рекорды HoReCa О чем молчат рекорды HoReCa

Будут ли все последствия смещения потребления с кухни в ресторан положительными?

Агроинвестор
ФГИС вам в помощь ФГИС вам в помощь

Как работают внедренные в агроотрасль информсистемы

Агроинвестор
О пользе «бумажной волокиты» О пользе «бумажной волокиты»

На каком языке говорили евреи, вернувшиеся из вавилонского пленения?

Знание – сила
Открыть в приложении