Как устроены малые языковые модели и в чем их преимущества перед большими?

РБКHi-Tech

SLM схватывают на лету

Как устроены малые языковые модели и в чем их преимущества перед большими моделями

Автор: Сергей Лукашкин, к. ф.-м. н., эксперт по цифровой трансформации, ранее работал в научно-образовательном центре «Цифровые технологии в образовании» ВШМ СПбГУ

Справка от ChatGPT

SLM (Small Language Model) — в сфере ИИ это языковая модель с ограниченным числом параметров, предназначенная для обработки и предсказания слов или фраз в контексте предыдущих слов. Основная цель SLM — предсказать следующее слово или последовательность слов, исходя из предыдущего контекста. Такие модели используют методы машинного обучения для анализа текста и могут быть обучены на больших корпусах данных для повышения точности предсказаний. SLM широко применяются в задачах обработки естественного языка, например в системах автозамены, автодополнения, в машинном переводе, распознавании речи и генерации текста.

Что такое SLM и LLM

Малые языковые модели, в отличие от больших языковых моделей (LLM), обученных на огромных массивах данных, используют небольшие объемы информации, но лучшего качества, поэтому работают точнее.

Четкого разделения между LLM и SLM пока что нет. Одни относят к большим языковым моделям те, что работают с 100 млн и более параметров, а к малым — от 1 млн до 10 млн. Другие называют цифры 100+ млрд и 10 млрд соответственно. Но речь идет не только о числе параметров, но и объеме данных, физических размерах и нейронной архитектуре. Если упростить, то малая языковая модель — это та, что требует в разы меньше ресурсов при обучении и анализе данных, чем большая.

Microsoft объявила SLM — малые языковые модели — одним из главных трендов 2025 года в сфере искусственного интеллекта. Изучаем, в чем отличие SLM от больших моделей LLM, как они работают и где могут использоваться

Как они работают

В отличие от универсальных LLM малые модели предназначены для решения узкоспециализированных задач, с которыми справляются заметно лучше. Чтобы извлечь максимум из меньшего набора данных, в SLM используют разные методы:

Дистилляция: когда данные от предварительно обученной LLM передаются к малой модели. Обрезка и квантизация: когда сокращают объемы представления параметров с 32 до 8 или даже 2 бит, уменьшая размеры и требования к ресурсам, а также количество ошибок.

Более эффективные архитектуры: исследователи постоянно разрабатывают новые нейронные архитектуры, предназначенные специально для SLM, чтобы оптимизировать их работу.

Чтобы научить малую модель «думать» так же хорошо, как большая, разработчики настраивают малые модели специальным образом. В итоге SLM не слепо копируют поведение LLM, а выбирают другие стратегии решения задач. Например, отвечая на объемный вопрос, они сначала разбивают его на части и решают пошагово, а не целиком. Это помогает экономить ресурсы и получать такие же точные результаты.

В чем главные плюсы

Исследования показывают, что у SLM перед LLM по крайней мере несколько важных преимуществ:

Экономичность. Обучение LLM требует колоссальных затрат: на одну модель уходит в среднем от $9 млн до $23 млн, а модели вроде GPT-3 расходуют до 1,3 тыс. МВт/ч — это как если бы вы смотрели Netflix 1,6 млн часов. В основе больших моделей — архитектура Transformer, которая по мере увеличения данных требует все больше памяти и вычислительных мощностей. SLM потребляют гораздо меньше памяти и других ресурсов, что делает их более доступными. К примеру, чтобы обучить PaLM от Google, потребовалось больше 6 тыс. супермощных чипов TPU v4, тогда как для обучения малой модели OPT от Meta (признана экстремистской организацией на территории РФ) AI понадобилось всего 992 графических процессора Nvidia A100 по 80 Гб каждый. Для малых моделей достаточно оперативной памяти в 16 Гб или меньше, если речь идет о мобильных версиях.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Алексей Осадчий: «Один из самых сложных вызовов — интерпретация активности мозга» Алексей Осадчий: «Один из самых сложных вызовов — интерпретация активности мозга»

Как работают интерфейсы «мозг — компьютер», сможем ли мы лечить деменцию?

РБК
Группа GORODA: «В России есть достойные музыканты» Группа GORODA: «В России есть достойные музыканты»

Группа GORODA стремительно ворвалась на музыкальную сцену, став ярким открытием

ЖАРА Magazine
Павел Воронин: «В ближайшие три года ИИ-решения начнут приносить реальную экономию бизнесу» Павел Воронин: «В ближайшие три года ИИ-решения начнут приносить реальную экономию бизнесу»

Гендиректор МТС Web Services Павел Воронин — об автоматизации и нейросетях

РБК
Львинохвостые макаки, или Вандеру Львинохвостые макаки, или Вандеру

Львинохвостые макаки – очень капризные и не желающие быть фотомоделями

Знание – сила
Быстрее, мощнее, эффективнее Быстрее, мощнее, эффективнее

Как при росте возможностей ИИ снизить его ресурсопотребление

РБК
Урожаи вырастут на поливе Урожаи вырастут на поливе

Что сдерживает распространение ирригационных технологий

Агроинвестор
Александр Чулок: «Мы не стараемся угадать будущее, мы хотим его создать» Александр Чулок: «Мы не стараемся угадать будущее, мы хотим его создать»

Прогнозист Александр Чулок — о том, чем станет ИИ для общества в будущем

РБК
Братские портреты Братские портреты

Братские портреты навсегда остались бы неизвестными, если бы не парное сочетание

Дилетант
Роман Мурадов Роман Мурадов

Роман Мурадов сочетает оригинальную рисовку с литературностью

Правила жизни
20 легендарных мультфильмов для всех возрастов, которые должен посмотреть каждый хоть раз в жизни 20 легендарных мультфильмов для всех возрастов, которые должен посмотреть каждый хоть раз в жизни

Мультики, которые стоит посмотреть всем вне зависимости от возраста

Правила жизни
«Я художник. Что мне делать?»: ответы на 9 важных вопросов об арт-мире и о вашем месте в нем «Я художник. Что мне делать?»: ответы на 9 важных вопросов об арт-мире и о вашем месте в нем

Что делать, если вы решили классифицировать себя как художник? Куда податься?

Esquire
От бобра до банкротства: 1670–2025 От бобра до банкротства: 1670–2025

История самой старой компании Северной Америки

Деньги
Дышать или не дышать: насколько эффективна дорогостоящая ксенонотерапия Дышать или не дышать: насколько эффективна дорогостоящая ксенонотерапия

Ксенонотерапия: что это за метод, безопасен ли он и насколько полезен в лечении?

Forbes
Культ личности Культ личности

Как повысить самооценку и изменить жизнь к лучшему

Лиза
ИИ в школе: инструмент или угроза? ИИ в школе: инструмент или угроза?

Внедрение ИИ — неизбежный этап. Какова будущая роль учителя в новой системе?

Монокль
Обратная связь планеты Обратная связь планеты

Почему Арктика — самое «горячее» место на планете?

Наука и жизнь
Аграрий 2.0: 10 профессий, показывающих, как технологии меняют сельское хозяйство Аграрий 2.0: 10 профессий, показывающих, как технологии меняют сельское хозяйство

От сити-фермеров до агроинженеров — спектр новых профессий впечатляет

Maxim
Свидание с Россией Свидание с Россией

Губернатор Ярославской области — чем заняться и где остановиться в регионе

RR Люкс.Личности.Бизнес.
Спаривание черного ягуара впервые запечатлели в природе Спаривание черного ягуара впервые запечатлели в природе

Самка-меланистка совокупилась с пятнистым самцом в одном из национальных парков

N+1
Одно из самых опасных транспортных средств: как погибла Мэри Уорд — первая в мире жертва автомобильного ДТП Одно из самых опасных транспортных средств: как погибла Мэри Уорд — первая в мире жертва автомобильного ДТП

Кто такая Мэри Уорд и как она связана с первым в мире ДТП

ТехИнсайдер
Многофакторность климата Многофакторность климата

Факторы, которые способствуют росту средней температуры в полярных областях

Знание – сила
От нефтеотдачи к суверенитету От нефтеотдачи к суверенитету

Как в нефтегазовой отрасли сформировать независимую производственную систему

Ведомости
Отели Отели

Отели, которым нет равных, для самых взыскательных гостей

RR Люкс.Личности.Бизнес.
Это-большечем-фильмы Это-большечем-фильмы

Почему иранский кинематограф внезапно стал так важен?

Seasons of life
Москва слезам не верит Москва слезам не верит

Актриса Марина Александрова — о сериалах, театре и work-life балансе

Moodboard
Дарвиновский музей: по пути эволюции Дарвиновский музей: по пути эволюции

О сегодняшнем дне Дарвиновского музея

Наука и жизнь
Вместо дефолта — неукротимая инфляция Вместо дефолта — неукротимая инфляция

Мир продолжает жить в кредит, но менять никто ничего не планирует, да и не может

Монокль
Тимофеев-Ресовский, зоология и век информации Тимофеев-Ресовский, зоология и век информации

Об отношениях Тимофеева-Ресовского с зоологией

Знание – сила
«Хаббл» увидел пару из белого карлика и голубого бродяги «Хаббл» увидел пару из белого карлика и голубого бродяги

«Хаббл» подтвердил рождение голубого бродяги от пары с белым карликом

N+1
День, когда родился новый мир День, когда родился новый мир

2 сентября – день, когда победа не завершила войну, а изменила ее форму

Знание – сила
Открыть в приложении