Как устроены малые языковые модели и в чем их преимущества перед большими?

РБКHi-Tech

SLM схватывают на лету

Как устроены малые языковые модели и в чем их преимущества перед большими моделями

Автор: Сергей Лукашкин, к. ф.-м. н., эксперт по цифровой трансформации, ранее работал в научно-образовательном центре «Цифровые технологии в образовании» ВШМ СПбГУ

Справка от ChatGPT

SLM (Small Language Model) — в сфере ИИ это языковая модель с ограниченным числом параметров, предназначенная для обработки и предсказания слов или фраз в контексте предыдущих слов. Основная цель SLM — предсказать следующее слово или последовательность слов, исходя из предыдущего контекста. Такие модели используют методы машинного обучения для анализа текста и могут быть обучены на больших корпусах данных для повышения точности предсказаний. SLM широко применяются в задачах обработки естественного языка, например в системах автозамены, автодополнения, в машинном переводе, распознавании речи и генерации текста.

Что такое SLM и LLM

Малые языковые модели, в отличие от больших языковых моделей (LLM), обученных на огромных массивах данных, используют небольшие объемы информации, но лучшего качества, поэтому работают точнее.

Четкого разделения между LLM и SLM пока что нет. Одни относят к большим языковым моделям те, что работают с 100 млн и более параметров, а к малым — от 1 млн до 10 млн. Другие называют цифры 100+ млрд и 10 млрд соответственно. Но речь идет не только о числе параметров, но и объеме данных, физических размерах и нейронной архитектуре. Если упростить, то малая языковая модель — это та, что требует в разы меньше ресурсов при обучении и анализе данных, чем большая.

Microsoft объявила SLM — малые языковые модели — одним из главных трендов 2025 года в сфере искусственного интеллекта. Изучаем, в чем отличие SLM от больших моделей LLM, как они работают и где могут использоваться

Как они работают

В отличие от универсальных LLM малые модели предназначены для решения узкоспециализированных задач, с которыми справляются заметно лучше. Чтобы извлечь максимум из меньшего набора данных, в SLM используют разные методы:

Дистилляция: когда данные от предварительно обученной LLM передаются к малой модели. Обрезка и квантизация: когда сокращают объемы представления параметров с 32 до 8 или даже 2 бит, уменьшая размеры и требования к ресурсам, а также количество ошибок.

Более эффективные архитектуры: исследователи постоянно разрабатывают новые нейронные архитектуры, предназначенные специально для SLM, чтобы оптимизировать их работу.

Чтобы научить малую модель «думать» так же хорошо, как большая, разработчики настраивают малые модели специальным образом. В итоге SLM не слепо копируют поведение LLM, а выбирают другие стратегии решения задач. Например, отвечая на объемный вопрос, они сначала разбивают его на части и решают пошагово, а не целиком. Это помогает экономить ресурсы и получать такие же точные результаты.

В чем главные плюсы

Исследования показывают, что у SLM перед LLM по крайней мере несколько важных преимуществ:

Экономичность. Обучение LLM требует колоссальных затрат: на одну модель уходит в среднем от $9 млн до $23 млн, а модели вроде GPT-3 расходуют до 1,3 тыс. МВт/ч — это как если бы вы смотрели Netflix 1,6 млн часов. В основе больших моделей — архитектура Transformer, которая по мере увеличения данных требует все больше памяти и вычислительных мощностей. SLM потребляют гораздо меньше памяти и других ресурсов, что делает их более доступными. К примеру, чтобы обучить PaLM от Google, потребовалось больше 6 тыс. супермощных чипов TPU v4, тогда как для обучения малой модели OPT от Meta (признана экстремистской организацией на территории РФ) AI понадобилось всего 992 графических процессора Nvidia A100 по 80 Гб каждый. Для малых моделей достаточно оперативной памяти в 16 Гб или меньше, если речь идет о мобильных версиях.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Резерв на будущее Резерв на будущее

Как развиваются технологии хранения энергии

РБК
Варя Семак Варя Семак

Зин по сверхновому искусству Петербурга от художницы Вари Семак

Собака.ru
Заводы-маяки Заводы-маяки

Как российская промышленность осваивает цифровые технологии

Эксперт
Почему телефон долго заряжается: 8 самых популярных причин Почему телефон долго заряжается: 8 самых популярных причин

Все случаи, следствием которых может стать медленная зарядка аккумулятора

CHIP
Почитать. Топ-10 Почитать. Топ-10

Книги об истории обуви, искусстве и первом кризисе Русской церкви

Дилетант
Листоносы собрали падалицу Листоносы собрали падалицу

Зоологи обнаружили свидетельства, что рукокрылые подбирают пищу с земли

N+1
Футбольный бог из машины Футбольный бог из машины

О работе ИИ, который подбирает потенциальных новичков в футболе

Ведомости
Отключили мобильный интернет: новая реальность российского цифрового пространства Отключили мобильный интернет: новая реальность российского цифрового пространства

Кто страдает от отключений интернета и как бизнесу адаптироваться к этому

Inc.
Минута славы Минута славы

Как снимать в путешествиях видео, которые станут популярными в соцсетях

Лиза
Эта привычка может повысить риск развития деменции на 43% Эта привычка может повысить риск развития деменции на 43%

Употребление большого количества сахара может повысить риск развития деменции

ТехИнсайдер
Леопардовые тюлени поют песни, похожие на детские стишки Леопардовые тюлени поют песни, похожие на детские стишки

Ученые обнаружили, что песни леопардовых тюленей похожи на детские стишки

ТехИнсайдер
Безопасно ли ходить, ездить и плавать под ЛЭП: спрашивают многие, знают единицы Безопасно ли ходить, ездить и плавать под ЛЭП: спрашивают многие, знают единицы

Есть ли риск поражения молнией и могут ли навредить электромагнитные поля от ЛЭП

ТехИнсайдер
10 фильмов про Супермена, от худших к лучшим 10 фильмов про Супермена, от худших к лучшим

Самые лучшие и самые худшие фильмы про Супермена

Maxim
Анафилаксию при пищевой аллергии у мышей объяснили наследственностью Анафилаксию при пищевой аллергии у мышей объяснили наследственностью

Ученые разобрались в природе анафилактического шока при пищевой аллергии

N+1
Есть ли жизнь на Марсе? Есть ли жизнь на Марсе?

Пройдемся по имеющимся фактам в вопросе о жизни на Марсе

Наука и техника
5 фактов из истории пива, которые вы скорее всего не знали 5 фактов из истории пива, которые вы скорее всего не знали

Что пили российские императоры и кто придумал пиво со вкусом борща?

Maxim
Мир экзопланет: что для космоса «норма»? Мир экзопланет: что для космоса «норма»?

Уже можно говорить о планетах необычных. Как выглядят «обычные» – установлено

Наука и техника
Из мужского гардероба — в одежду для Барби: как розовый стал женским цветом Из мужского гардероба — в одежду для Барби: как розовый стал женским цветом

Как розовый стал воплощением гендерных стереотипов

Forbes
Что наша жизнь — стрельба Что наша жизнь — стрельба

Случаи в истории кинематографа, когда пуля оказалась умной и настоящей

Weekend
«Женщине должен нравиться ее мужчина» «Женщине должен нравиться ее мужчина»

В этой паре оба актеры, и детей в семье у Зои Бербер и Максима Белбородова двое

OK!
Ольга Аросева: Михаил Державин называл ее «водородной бомбой», а Ширвиндт деликатно отмечал, что «характер у нее не сахар» Ольга Аросева: Михаил Державин называл ее «водородной бомбой», а Ширвиндт деликатно отмечал, что «характер у нее не сахар»

«Чего только ей не тащили: от конфет и коньяка до борщей в банках и селедки»

Коллекция. Караван историй
Молодой Цезарь Молодой Цезарь

Карьера Цезаря могла бы оборваться, едва начавшись, равно как и его жизнь...

Знание – сила
Крым: вкусные маршруты Крым: вкусные маршруты

Полуостров – рай для гурманов и любителей гастрономического туризма

Лиза
Почему поколение Z уходит из корпораций и выбирает франшизы Почему поколение Z уходит из корпораций и выбирает франшизы

Почему зумеры выбирают вместо корпоративной стабильности предпринимательство?

Forbes
Наука в фантастике: эпизоды истории Наука в фантастике: эпизоды истории

Сказочная повесть — фантастика с просветительской задачей

Наука и жизнь
Невидимая опасность Невидимая опасность

Что делать, чтобы не подхватить грибок?

Лиза
«Покажи ручку!» 3 причины приучить себя подавать сигналы рукой «Покажи ручку!» 3 причины приучить себя подавать сигналы рукой

Несколько важных причин подавать сигналы рукой, когда едешь на велосипеде

ТехИнсайдер
Низкомолекулярный оральный агонист ГПП-1 помог снизить массу тела Низкомолекулярный оральный агонист ГПП-1 помог снизить массу тела

ГПП-1 помог снизить массу тела при ожирении без сахарного диабета

N+1
Полет Fram2 Полет Fram2

Командиром этого полета был Ван Чунь – миллионер, оплативший полет участников

Наука и техника
Легенда Сибири Легенда Сибири

Словно драгоценную чашу держит Бурятия священный Байкал

Лиза
Открыть в приложении