Как устроены малые языковые модели и в чем их преимущества перед большими?

РБКHi-Tech

SLM схватывают на лету

Как устроены малые языковые модели и в чем их преимущества перед большими моделями

Автор: Сергей Лукашкин, к. ф.-м. н., эксперт по цифровой трансформации, ранее работал в научно-образовательном центре «Цифровые технологии в образовании» ВШМ СПбГУ

Справка от ChatGPT

SLM (Small Language Model) — в сфере ИИ это языковая модель с ограниченным числом параметров, предназначенная для обработки и предсказания слов или фраз в контексте предыдущих слов. Основная цель SLM — предсказать следующее слово или последовательность слов, исходя из предыдущего контекста. Такие модели используют методы машинного обучения для анализа текста и могут быть обучены на больших корпусах данных для повышения точности предсказаний. SLM широко применяются в задачах обработки естественного языка, например в системах автозамены, автодополнения, в машинном переводе, распознавании речи и генерации текста.

Что такое SLM и LLM

Малые языковые модели, в отличие от больших языковых моделей (LLM), обученных на огромных массивах данных, используют небольшие объемы информации, но лучшего качества, поэтому работают точнее.

Четкого разделения между LLM и SLM пока что нет. Одни относят к большим языковым моделям те, что работают с 100 млн и более параметров, а к малым — от 1 млн до 10 млн. Другие называют цифры 100+ млрд и 10 млрд соответственно. Но речь идет не только о числе параметров, но и объеме данных, физических размерах и нейронной архитектуре. Если упростить, то малая языковая модель — это та, что требует в разы меньше ресурсов при обучении и анализе данных, чем большая.

Microsoft объявила SLM — малые языковые модели — одним из главных трендов 2025 года в сфере искусственного интеллекта. Изучаем, в чем отличие SLM от больших моделей LLM, как они работают и где могут использоваться

Как они работают

В отличие от универсальных LLM малые модели предназначены для решения узкоспециализированных задач, с которыми справляются заметно лучше. Чтобы извлечь максимум из меньшего набора данных, в SLM используют разные методы:

Дистилляция: когда данные от предварительно обученной LLM передаются к малой модели. Обрезка и квантизация: когда сокращают объемы представления параметров с 32 до 8 или даже 2 бит, уменьшая размеры и требования к ресурсам, а также количество ошибок.

Более эффективные архитектуры: исследователи постоянно разрабатывают новые нейронные архитектуры, предназначенные специально для SLM, чтобы оптимизировать их работу.

Чтобы научить малую модель «думать» так же хорошо, как большая, разработчики настраивают малые модели специальным образом. В итоге SLM не слепо копируют поведение LLM, а выбирают другие стратегии решения задач. Например, отвечая на объемный вопрос, они сначала разбивают его на части и решают пошагово, а не целиком. Это помогает экономить ресурсы и получать такие же точные результаты.

В чем главные плюсы

Исследования показывают, что у SLM перед LLM по крайней мере несколько важных преимуществ:

Экономичность. Обучение LLM требует колоссальных затрат: на одну модель уходит в среднем от $9 млн до $23 млн, а модели вроде GPT-3 расходуют до 1,3 тыс. МВт/ч — это как если бы вы смотрели Netflix 1,6 млн часов. В основе больших моделей — архитектура Transformer, которая по мере увеличения данных требует все больше памяти и вычислительных мощностей. SLM потребляют гораздо меньше памяти и других ресурсов, что делает их более доступными. К примеру, чтобы обучить PaLM от Google, потребовалось больше 6 тыс. супермощных чипов TPU v4, тогда как для обучения малой модели OPT от Meta (признана экстремистской организацией на территории РФ) AI понадобилось всего 992 графических процессора Nvidia A100 по 80 Гб каждый. Для малых моделей достаточно оперативной памяти в 16 Гб или меньше, если речь идет о мобильных версиях.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Ольга Бычкова: «Российская наука застряла между глобальным Югом и Севером» Ольга Бычкова: «Российская наука застряла между глобальным Югом и Севером»

С какими вызовами столкнулась российская наука и как они влияют на работу ученых

РБК
Большие проблемы Вселенной Большие проблемы Вселенной

Астрофизик Геннадий Бисноватый-Коган — о тайнах Вселенной и пути к их разгадке

Монокль
Александр Чулок: «Мы не стараемся угадать будущее, мы хотим его создать» Александр Чулок: «Мы не стараемся угадать будущее, мы хотим его создать»

Прогнозист Александр Чулок — о том, чем станет ИИ для общества в будущем

РБК
Артистка, которую невозможно забыть: 5 знаковых ролей Евгении Добровольской Артистка, которую невозможно забыть: 5 знаковых ролей Евгении Добровольской

Культовые роли Евгении Добровольской, по которым мы будем её помнить

Правила жизни
Как понять, что пора заменить бутылку для воды Как понять, что пора заменить бутылку для воды

О признаках того, что пришло время сменить вашу бутылку для воды

ТехИнсайдер
Зинаида Кириенко. Любовь земная Зинаида Кириенко. Любовь земная

Сыграть в таких картинах и не получить народную СССР — нонсенс

Коллекция. Караван историй
Елизавета Боярская: «Многие боятся сцены, а я от нее кайфую» Елизавета Боярская: «Многие боятся сцены, а я от нее кайфую»

Елизавета Боярская, ее любовь к театральной сцене и будущее искусства в России

СНОБ
Семейный портрет Семейный портрет

Эксклюзивные кадры и интервью Анны Хилькевич и Артура Мартиросяна — для ОK!

OK!
Секреты лабораторий Секреты лабораторий

Косметика будущего сможет адаптироваться под индивидуальные запросы каждого

Лиза
«Биология в фокусе: Естественные отделения университетов Российской империи (1830–1900)» «Биология в фокусе: Естественные отделения университетов Российской империи (1830–1900)»

Почему в начале XIX века в университетах было мало практических занятий

N+1
Научный руководитель национальной генетической инициативы «100 000 + Я» Константин Северинов: Глобальная база геномов привела бы к подлинной революции в медицине Научный руководитель национальной генетической инициативы «100 000 + Я» Константин Северинов: Глобальная база геномов привела бы к подлинной революции в медицине

Как и для чего собирают и расшифровывают геномы в проекте «100 000 + Я»

Ведомости
Сотворить «Онегина» Сотворить «Онегина»

Кто участвует в сотворении «Евгения Онегина» вместе с Пушкиным

Seasons of life
Мультипекарь, сендвичница, электрогриль — чем они отличаются? Мультипекарь, сендвичница, электрогриль — чем они отличаются?

Какой гаджет выбрать, если хочется бутерброд с сыром, омлет или сэндвич?

CHIP
Каким ты будешь, городской бус? Каким ты будешь, городской бус?

Ждать ли нам завтра электробусов в каждом городе?

Наука и жизнь
Книга как искусство Книга как искусство

На протяжении долгих веков книга являлась главным хранителем информации

Знание – сила
«Мадагаскару» — 20! Как создавалась мультфраншиза, заработавшая миллиарды и разлетевшаяся на мемы «Мадагаскару» — 20! Как создавалась мультфраншиза, заработавшая миллиарды и разлетевшаяся на мемы

«Мадагаскар»: след в истории и головокружительный успех

Правила жизни
Пять мифов о кондиционерах Пять мифов о кондиционерах

Из-за каких мифов многие по старинке боятся кондиционеров?

Здоровье
Игорь Жижикин: «Если мне предлагают в семейном фильме роль злодея, стараюсь сделать его нестрашным» Игорь Жижикин: «Если мне предлагают в семейном фильме роль злодея, стараюсь сделать его нестрашным»

Играть плохих русских мне неинтересно, это должно быть что-то другое

Коллекция. Караван историй
TESS отыскал экзогиганта у очень маломассивной звезды TESS отыскал экзогиганта у очень маломассивной звезды

TESS вновь обнаружил экзогиганта у маломассивной звезды

N+1
Жена на доверии Жена на доверии

Покупка недвижимости в гражданском браке: как защитить свои интересы

Лиза
Недолгий триумф «арийской физики» Недолгий триумф «арийской физики»

В какой тупик может завести себя наука, если станет служанкой нацизма

Знание – сила
Когда наши поезда поедут с высокой скоростью Когда наши поезда поедут с высокой скоростью

Российский скоростной поезд: как создают технику для высокоскоростной магистрали

Монокль
Мария Лисовая: «Работоспособность — мой основной инструмент» Мария Лисовая: «Работоспособность — мой основной инструмент»

Актерская профессия — это сплошные вопросы

Коллекция. Караван историй
A Vida Portuguesa A Vida Portuguesa

«А вы уже были в A Vida Portuguesa?»

Seasons of life
Брелок за $5 тыс.: чему бизнес может научиться у Лабубу Брелок за $5 тыс.: чему бизнес может научиться у Лабубу

Лабубу-тренд: эффект сюрприза или ностальгия?

Inc.
Сказка джунглей Сказка джунглей

Как создать в своей квартире тропическую атмосферу

Лиза
Субпродукт из криптовалюты: как устроен фьючерс на ETF на биткоин Субпродукт из криптовалюты: как устроен фьючерс на ETF на биткоин

Зачем Мосбиржа запустила торги фьючерсом на IShares Bitcoin Trust ETF?

Forbes
«Почему вы хотите завоевать весь мир?» «Почему вы хотите завоевать весь мир?»

Страх ядерной войны между США и СССР был настолько высок, что передался детям

Дилетант
«Нет удержу!» Чем улыбнул первый тест-драйв «ушастого Запорожца», проведенный советским журналистом «Нет удержу!» Чем улыбнул первый тест-драйв «ушастого Запорожца», проведенный советским журналистом

«Ушастый Запорожец» — тесный, шумный, тихоходный или совсем иной?

ТехИнсайдер
Анекдотные коменданты Анекдотные коменданты

Генералы Башуцкий и Мартынов прославились как коллективный персонаж анекдотов

Дилетант
Открыть в приложении