Как устроены малые языковые модели и в чем их преимущества перед большими?

РБКHi-Tech

SLM схватывают на лету

Как устроены малые языковые модели и в чем их преимущества перед большими моделями

Автор: Сергей Лукашкин, к. ф.-м. н., эксперт по цифровой трансформации, ранее работал в научно-образовательном центре «Цифровые технологии в образовании» ВШМ СПбГУ

Справка от ChatGPT

SLM (Small Language Model) — в сфере ИИ это языковая модель с ограниченным числом параметров, предназначенная для обработки и предсказания слов или фраз в контексте предыдущих слов. Основная цель SLM — предсказать следующее слово или последовательность слов, исходя из предыдущего контекста. Такие модели используют методы машинного обучения для анализа текста и могут быть обучены на больших корпусах данных для повышения точности предсказаний. SLM широко применяются в задачах обработки естественного языка, например в системах автозамены, автодополнения, в машинном переводе, распознавании речи и генерации текста.

Что такое SLM и LLM

Малые языковые модели, в отличие от больших языковых моделей (LLM), обученных на огромных массивах данных, используют небольшие объемы информации, но лучшего качества, поэтому работают точнее.

Четкого разделения между LLM и SLM пока что нет. Одни относят к большим языковым моделям те, что работают с 100 млн и более параметров, а к малым — от 1 млн до 10 млн. Другие называют цифры 100+ млрд и 10 млрд соответственно. Но речь идет не только о числе параметров, но и объеме данных, физических размерах и нейронной архитектуре. Если упростить, то малая языковая модель — это та, что требует в разы меньше ресурсов при обучении и анализе данных, чем большая.

Microsoft объявила SLM — малые языковые модели — одним из главных трендов 2025 года в сфере искусственного интеллекта. Изучаем, в чем отличие SLM от больших моделей LLM, как они работают и где могут использоваться

Как они работают

В отличие от универсальных LLM малые модели предназначены для решения узкоспециализированных задач, с которыми справляются заметно лучше. Чтобы извлечь максимум из меньшего набора данных, в SLM используют разные методы:

Дистилляция: когда данные от предварительно обученной LLM передаются к малой модели. Обрезка и квантизация: когда сокращают объемы представления параметров с 32 до 8 или даже 2 бит, уменьшая размеры и требования к ресурсам, а также количество ошибок.

Более эффективные архитектуры: исследователи постоянно разрабатывают новые нейронные архитектуры, предназначенные специально для SLM, чтобы оптимизировать их работу.

Чтобы научить малую модель «думать» так же хорошо, как большая, разработчики настраивают малые модели специальным образом. В итоге SLM не слепо копируют поведение LLM, а выбирают другие стратегии решения задач. Например, отвечая на объемный вопрос, они сначала разбивают его на части и решают пошагово, а не целиком. Это помогает экономить ресурсы и получать такие же точные результаты.

В чем главные плюсы

Исследования показывают, что у SLM перед LLM по крайней мере несколько важных преимуществ:

Экономичность. Обучение LLM требует колоссальных затрат: на одну модель уходит в среднем от $9 млн до $23 млн, а модели вроде GPT-3 расходуют до 1,3 тыс. МВт/ч — это как если бы вы смотрели Netflix 1,6 млн часов. В основе больших моделей — архитектура Transformer, которая по мере увеличения данных требует все больше памяти и вычислительных мощностей. SLM потребляют гораздо меньше памяти и других ресурсов, что делает их более доступными. К примеру, чтобы обучить PaLM от Google, потребовалось больше 6 тыс. супермощных чипов TPU v4, тогда как для обучения малой модели OPT от Meta (признана экстремистской организацией на территории РФ) AI понадобилось всего 992 графических процессора Nvidia A100 по 80 Гб каждый. Для малых моделей достаточно оперативной памяти в 16 Гб или меньше, если речь идет о мобильных версиях.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Овечкин Овечкин

Как Овечкин пытается расколоть гретцкий орех

СНОБ
Камни не для всех Камни не для всех

Алмазы подорожают более чем на 50% к 2027 году: надо ли в них инвестировать

Ведомости
Александр Чулок: «Мы не стараемся угадать будущее, мы хотим его создать» Александр Чулок: «Мы не стараемся угадать будущее, мы хотим его создать»

Прогнозист Александр Чулок — о том, чем станет ИИ для общества в будущем

РБК
Маме не говори: 12 вещей, которые родителям не нужно знать о твоем мужчине Маме не говори: 12 вещей, которые родителям не нужно знать о твоем мужчине

О чем не стоит рассказывать даже маме?

VOICE
Шевели мозгами Шевели мозгами

Чтобы серое вещество не превратилось в серую массу, нужны постоянные нагрузки

GQ
Опасно ли летать на старых самолетах и почему их до сих пор так много Опасно ли летать на старых самолетах и почему их до сих пор так много

Почему авиакомпании используют самолеты, которые можно называть пожилыми?

Maxim
В натуре разборки В натуре разборки

Что происходит с косметической империей бизнесмена Андрея Трубникова?

Esquire
Параллельщики. Carwin — о главных ошибках при поиске машины за рубежом Параллельщики. Carwin — о главных ошибках при поиске машины за рубежом

Как отличить реального поставщика от хорошо замаскированного обманщика

РБК
Тропические болота нивелировали успехи арктических в поглощении углерода Тропические болота нивелировали успехи арктических в поглощении углерода

Почему снижается продуктивность болот, поглощающих углерод

N+1
VOX VOX

VOX — культовое место тихой роскоши, где встречаются знаменитости

Собака.ru
Для чего нужен магниевый анод в бойлерах накопительного типа? Для чего нужен магниевый анод в бойлерах накопительного типа?

От чего и как именно защищает магниевый анод в бойлере косвенного нагрева?

CHIP
Переходи на зеленый Переходи на зеленый

Мода на экосексуальность и привычки, полезные для тебя и для природы

Лиза
Вопрос психологу: что мешает нам экономить и как изменить свое отношение к деньгам Вопрос психологу: что мешает нам экономить и как изменить свое отношение к деньгам

Почему экономия часто кажется наказанием и как можно изменить это восприятие

Правила жизни
От вил до мема От вил до мема

Краткая история «Американской готики» Гранта Вуда

Weekend
Без крыши дороже Без крыши дороже

Стоят ли кабриолеты своих денег

Деньги
Какие виды меда бывают и как получают разные сорта Какие виды меда бывают и как получают разные сорта

Обратимся к пчеловодству, чтобы узнать, как получают разные сорта меда

ТехИнсайдер
Зумеры признались, людей какого возраста они считают старыми Зумеры признались, людей какого возраста они считают старыми

Молодежь считает, что старость начинается гораздо раньше, чем вы думали

Maxim
Что о вас говорит ваше любимое спортивное упражнение? Что о вас говорит ваше любимое спортивное упражнение?

Наши любимые упражнения могут зависеть от типа нашей личности!

ТехИнсайдер
Нарыли контент Нарыли контент

Звездные фермеры, которые учат выращивать урожай и разводить скот

RR Люкс.Личности.Бизнес.
Зачем каждому садоводу нужно иметь при себе перекись водорода: 6 полезных применений аптечного средства Зачем каждому садоводу нужно иметь при себе перекись водорода: 6 полезных применений аптечного средства

В саду и огороде перекись водорода может творить чудеса!

ТехИнсайдер
Чистая правда Чистая правда

Хорошо умываться – значит, до «скрипа» кожи? Все с точностью до наоборот

Лиза
Hастроение – прованс Hастроение – прованс

Создаем в квартире уютный деревенский стиль

Лиза
Главная по костюмам: как Эдит Хэд одевала Голливуд и получила восемь «Оскаров» Главная по костюмам: как Эдит Хэд одевала Голливуд и получила восемь «Оскаров»

История Эдит Хэд — самой титулованной женщины за всю историю премии «Оскар»

Forbes
«Покажи свой бюджет»: к чему ведет молодежный тренд на публичную экономию «Покажи свой бюджет»: к чему ведет молодежный тренд на публичную экономию

Что нового узнали зумеры об экономии и к чему ведут их потребительские привычки

Forbes
Рожденные революцией Рожденные революцией

Как технологическая революция полностью изменит привычные нам гаджеты

Правила жизни
Феномен текста: человек vs ИИ Феномен текста: человек vs ИИ

Способен ли искусственный интеллект писать тексты или даже мыслить как человек?

Монокль
Это что за лабубу? Это что за лабубу?

Какие игрушки выбирают дети и почему

Новый очаг
Что открыть в нежилом помещении: топ-5 бизнес-идей Что открыть в нежилом помещении: топ-5 бизнес-идей

Под какой бизнес можно сдать нежилое помещение, чтобы получать прибыль?

Inc.
Болит слева, но не сердце! Болит слева, но не сердце!

Боль в груди: сердечные и несердечные причины – как различить?

Здоровье
Что будет в небе после МКС Что будет в небе после МКС

Через пять лет над Землёй будут работать станции разных стран, а не одна МКС

Монокль
Открыть в приложении