Компания Meta выпустила языковую модель, которая понимает устную речь

N+1Hi-Tech

Нейросеть от Meta (признана экстремистской организацией на территории РФ) узнает 4017 языков по устной речи и ответит на 1107 из них

Она обучалась на библейских текстах

Виктория Земляк

036d47669be5b6a9ee36339f7fab444e.jpg
Torre de Babel (Вавилонская башня). Pieter Brueghel the Elder / Wikimedia Commons

Компания Meta (признана экстремистской организацией на территории РФ)* выпустила языковую модель, которая понимает устную речь. Она распознает более 4000 языков и может разговаривать на 1107 из них. Meta (признана экстремистской организацией на территории РФ) считает, что модель поможет сохранить языковое разнообразие в мире. Статья опубликована на сайте компании, код модели доступен на гитхабе.

*Деятельность компании Meta запрещена в России.

Обычно модели распознавания речи обучаются на больших объемах данных: им требуются тысячи часов аудиозаписей. При этом каждой записи должен соответствовать текст, чтобы модель научилась сопоставлять звучащую и письменную речь. Такие большие датасеты можно собрать только для популярных языков, на которых говорит много людей. Всего в мире существует около 7000 языков, но современные системы распознавания речи поддерживают не более 200 из них.

Команда инженеров из компании Meta (признана экстремистской организацией на территории РФ) под руководством Майкла Аули (Michael Auli) обучила большую модель для распознавания речи Massively Multilingual Speech (MMS), которая может общаться на 1107 языках и распознавать 4017. Нейросеть обучалась на религиозных записях. Исследователи собрали два датасета: один с аудиозаписями и соответствующими текстами и второй только с аудиозаписями.

fe065aa4c134af4b7f5dca22405e1e58.jpg
Карта языков, которые поддерживает модель. Фиолетовые и зеленые: определение языка, только фиолетовые: превращение речи в текст. Auli et al. / research.facebook, 2023

Первый датасет состоит из 55 тысяч аудиозаписей, на которых люди зачитывают вслух тексты из Нового Завета. Всего в Новом Завете 27 книг и 260 глав. Данные собирали из трех источников: Faith Comes By Hearing, GoTo.Bible и YouVersion. Во второй датасет попали 7,7 тысяч часов аудиозаписей с сайта Global Recordings Network: это религиозные песни, записи отрывков из Библии и других религиозных текстов.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Открыть в приложении