Компания Meta выпустила языковую модель, которая понимает устную речь

N+1Hi-Tech

Нейросеть от Meta (признана экстремистской организацией на территории РФ) узнает 4017 языков по устной речи и ответит на 1107 из них

Она обучалась на библейских текстах

Виктория Земляк

036d47669be5b6a9ee36339f7fab444e.jpg
Torre de Babel (Вавилонская башня). Pieter Brueghel the Elder / Wikimedia Commons

Компания Meta (признана экстремистской организацией на территории РФ)* выпустила языковую модель, которая понимает устную речь. Она распознает более 4000 языков и может разговаривать на 1107 из них. Meta (признана экстремистской организацией на территории РФ) считает, что модель поможет сохранить языковое разнообразие в мире. Статья опубликована на сайте компании, код модели доступен на гитхабе.

*Деятельность компании Meta запрещена в России.

Обычно модели распознавания речи обучаются на больших объемах данных: им требуются тысячи часов аудиозаписей. При этом каждой записи должен соответствовать текст, чтобы модель научилась сопоставлять звучащую и письменную речь. Такие большие датасеты можно собрать только для популярных языков, на которых говорит много людей. Всего в мире существует около 7000 языков, но современные системы распознавания речи поддерживают не более 200 из них.

Команда инженеров из компании Meta (признана экстремистской организацией на территории РФ) под руководством Майкла Аули (Michael Auli) обучила большую модель для распознавания речи Massively Multilingual Speech (MMS), которая может общаться на 1107 языках и распознавать 4017. Нейросеть обучалась на религиозных записях. Исследователи собрали два датасета: один с аудиозаписями и соответствующими текстами и второй только с аудиозаписями.

fe065aa4c134af4b7f5dca22405e1e58.jpg
Карта языков, которые поддерживает модель. Фиолетовые и зеленые: определение языка, только фиолетовые: превращение речи в текст. Auli et al. / research.facebook, 2023

Первый датасет состоит из 55 тысяч аудиозаписей, на которых люди зачитывают вслух тексты из Нового Завета. Всего в Новом Завете 27 книг и 260 глав. Данные собирали из трех источников: Faith Comes By Hearing, GoTo.Bible и YouVersion. Во второй датасет попали 7,7 тысяч часов аудиозаписей с сайта Global Recordings Network: это религиозные песни, записи отрывков из Библии и других религиозных текстов.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Черная-черная пятница: как нас подсаживают на иглу бесконтрольного шопинга и при чем тут скидки и маркетплейсы Черная-черная пятница: как нас подсаживают на иглу бесконтрольного шопинга и при чем тут скидки и маркетплейсы

Шопоголизм: как распознать в себе зависимость и избавиться от нее?

Psychologies
Искусство жить не напрягаясь: несколько правил французской эффективности Искусство жить не напрягаясь: несколько правил французской эффективности

Отрывок из книги «Французское искусство жить не напрягаясь»

Forbes
От Альмодовара до Скорсезе: 10 лучших короткометражных фильмов известных режиссеров От Альмодовара до Скорсезе: 10 лучших короткометражных фильмов известных режиссеров

10 коротких метров мировых режиссеров, которые точно стоит посмотреть

Forbes
В прокат выходит «Непосредственно Каха. Другой фильм» В прокат выходит «Непосредственно Каха. Другой фильм»

MAXIM посмотрел черную комедию одним из первых

Maxim
Лучшие фильмы про сумасшедших и душевнобольных. Часть II Лучшие фильмы про сумасшедших и душевнобольных. Часть II

Фильмы о том, как безумие и ментальные проблемы влияют на людей и окружающих

Maxim
«Летят журавли» и «Вероника»: как два режиссера переосмысляют одну пьесу о войне «Летят журавли» и «Вероника»: как два режиссера переосмысляют одну пьесу о войне

Чем привлекает сегодня режиссеров исторический материал?

Forbes
«Я была малолеткой, никто не желал мне помогать»: почему женщины идут в проституцию «Я была малолеткой, никто не желал мне помогать»: почему женщины идут в проституцию

Отрывок из книги Роберта Колкера «Исчезнувшие девушки»

Forbes
Как наладить аллергический фон: какие продукты исключить, а какие — добавить Как наладить аллергический фон: какие продукты исключить, а какие — добавить

Как ослабить симптомы аллергии, а то и вовсе свести на нет?

Psychologies
«Честно признаться, начался ад»: Арсений Бородин рассказал о романе с Настей Ивлеевой «Честно признаться, начался ад»: Арсений Бородин рассказал о романе с Настей Ивлеевой

Певец Арсений Бородин разоткровенничался об отношениях с Настей Ивлеевой

VOICE
Австралийские муравьи притворились мертвыми всей колонией Австралийские муравьи притворились мертвыми всей колонией

Зоологи обнаружили муравьев, которые притворяются мертвыми всей колонией

N+1
Проблемы с сексом, тайная любовница Гитлера на протяжении 16 лет и жена на 36 часов: тяжелая судьба красавицы Евы Браун Проблемы с сексом, тайная любовница Гитлера на протяжении 16 лет и жена на 36 часов: тяжелая судьба красавицы Евы Браун

Имя Гитлера на слуху у всех, но что нам известно про любовницу и жену?

ТехИнсайдер
Как перестать бороться с сорняками и превратить врага в союзника Как перестать бороться с сорняками и превратить врага в союзника

Ещё вчера трава была вашим врагом, а сегодня это ваш друг и лучший помощник!

Наука и жизнь
Скажи мне «да»: как научиться «культуре согласия»? Скажи мне «да»: как научиться «культуре согласия»?

Оказывается, умение сказать «да» дается тоже непросто, особенно женщинам

VOICE
Арктика, Антарктика Арктика, Антарктика

Путешествие на край Земли – не красивое выражение, а вполне реальный маршрут

Новый очаг
Аккумуляторная независимость Аккумуляторная независимость

TI решил расспросить экспертов о том, какова сейчас ситуация с литием в России

ТехИнсайдер
В неолитической керамике из Италии нашли остатки мака и оливкового масла В неолитической керамике из Италии нашли остатки мака и оливкового масла

Ученые исследовали остатки содержимого в керамических изделиях эпохи неолита

N+1
Тест только для умных: 5 вопросов о «Титанике», с которыми столкнулись знатоки «Что? Где? Когда?» Тест только для умных: 5 вопросов о «Титанике», с которыми столкнулись знатоки «Что? Где? Когда?»

Знатоков эти вопросы чуть не потопили. А чтобы ответить, нужна только смекалка!

Maxim
Как голос ИИ может помочь в лечении депрессии и тревоги: вы поразитесь! Как голос ИИ может помочь в лечении депрессии и тревоги: вы поразитесь!

Могут ли роботы помочь в лечении депрессии?

ТехИнсайдер
«Огарок во тьме» «Огарок во тьме»

Жизнь Ричарда Докинза в науке

N+1
Яблони в цвету. какое чудо! Яблони в цвету. какое чудо!

Декоративные яблони — садовая группа, переживающая новый расцвет

Наука и жизнь
IBM хочет построить квантовый компьютер объемом 100 000 кубит IBM хочет построить квантовый компьютер объемом 100 000 кубит

IBM объявила о планах создания квантового компьютера объемом 100 000 кубит

ТехИнсайдер
Книга Надежды: как поддержать себя и родных при страшном диагнозе Книга Надежды: как поддержать себя и родных при страшном диагнозе

«Утро наступает всегда» — рассказ о том, как жить с тяжелым диагнозом

Psychologies
«Мама пожертвовала собой и привезла меня в Америку»: Мила Йовович опубликовала редкие фото «Мама пожертвовала собой и привезла меня в Америку»: Мила Йовович опубликовала редкие фото

Мила Йовович рассказала, на что решилась ее мать ради будущего дочери

VOICE
Как родители-манипуляторы мешают самореализации выросших детей Как родители-манипуляторы мешают самореализации выросших детей

Как суметь помочь себе и перестать вестись на детские паттерны поведения?

Psychologies
5 сокровищ Шри-Ланки 5 сокровищ Шри-Ланки

Впечатления от отдыха на Шри-Ланке превзойдут все самые смелые мечты

Лиза
Что такое масложор и как от него избавиться Что такое масложор и как от него избавиться

Масложор — это повышенный расход моторного масла на угар в цилиндрах ДВС

РБК
Великие открытия: Давид Ливингстон и его путешествие по Южной Африке Великие открытия: Давид Ливингстон и его путешествие по Южной Африке

До Ливингстона половина Африканского материка казалась безжизненною пустыней

Вокруг света
И Джаред Лето — гигантский кот: худшие образы звезд на Met Gala-2023 И Джаред Лето — гигантский кот: худшие образы звезд на Met Gala-2023

В этом году Бал Института костюма выдался богатным на «мемные» аутфиты

VOICE
Эль-Ниньо и Ла-Нинья случаются все чаще при глобальном потеплении Эль-Ниньо и Ла-Нинья случаются все чаще при глобальном потеплении

Глобальное потепление делает климат все более неустойчивым и непредсказуемым

ТехИнсайдер
13 лучших комедий эпохи видеокассет 13 лучших комедий эпохи видеокассет

Вспоминаем фильмы, на которых выросли все современные комики

Maxim
Открыть в приложении