ИИ и машинное обучение могут стать спасением для редких и исчезающих языков мира

Популярная механикаHi-Tech

Лингвистический гомункул

Текст: Роман Фишман

Из 7,3 млрд человек больше половины разговаривают на одном из десяти крупнейших языков. Большая часть текстов в интернете написаны на английском или севернокитайском (мандаринском) – это вызывает опасения, что вскоре они вовсе вытеснят языки менее распространенные. Однако судьба малых языков в сети развивается совершенно противоположным образом.

В безопасности

Русский язык и в Сети, и в офлайне занимает вполне достойное восьмое место среди крупнейших. Благодаря широкому распространению в России интернета на нем говорят в общей сложности 103 млн пользователей – почти 3% от их общего числа в мире. В одной только русскоязычной «Википедии» наберется почти 1,4 млн страниц, а из 10 млн самых посещаемых сайтов 6,4% написаны на русском. Все это создает внушительную базу текстов, существующих параллельно на русском и других крупных языках. А она позволяет использовать стандартные, статистические подходы к созданию систем машинного перевода между такими языковыми парами.

Одинаковые статьи в версиях «Википедии» на разных языках, переводы религиозных канонов и классических литературных произведений дополняются колоссальным объемом нового материала. Такие страницы часто легко обнаружить по названиям документов, которые могут отличаться лишь указанием RU или ENG. А если учесть характерные последовательности специальных символов, редких слов, цифр и другие особенности, то можно автоматически дополнять исходный набор еще бόльшим числом параллельных текстов. Неудивительно, что заняты этим в основном крупные интернет-компании, поисковики, которые индексируют многие миллиарды страниц на разных языках.

Однако начало современному статистическому подходу положили разработчики IBM Research. Еще в 1980-х они работали с массивом документов канадского парламента, которые обязательно переводятся на английский и французский, и предложили рассматривать текст на одном языке как полученный по сильно зашумленному каналу – а значит, «с ошибками» – текст другого языка. В такой модели «шумного канала» в исходные фразы требуется вносить исправление за исправлением, пока они не превратятся в аналогичные фразы уже на новом языке.

Это и делается на основе статистики параллельного употребления слов в одинаковых фразах на разных языках. При этом система может учитывать правила морфологии (образования и изменения слов) и синтаксиса (построения предложений), а качество машинного перевода проверяют люди, пока он не достигнет приемлемого уровня. «И хрюкотали зелюки, как мюмзики в мове», – интерпретирует оригинальный текст онлайн-система переводов Google; заметно, что машине знакомы параллельные фразы на английском и русском, и это простейший вариант.

Под угрозой

Определить, что же такое языки, и отделить их от диалектов, удается не всегда, так что даже точное число человеческих языков назвать не возьмется, наверное, никто. Обычные оценки колеблются в пределах от 6000 до 7000, причем выпускаемый ЮНЕСКО «Атлас языков мира, находящихся под угрозой исчезновения» выделяет среди них 2473, существование которых в будущем совсем не гарантировано. Цыганский и эрзянский, идиш и крымско-татарский практически не осваиваются молодыми поколениями, их носители стареют, использование сокращается.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

И снова на сверхзвуке И снова на сверхзвуке

Новое поколение пассажирских сверхзвуковых самолетов

Популярная механика
Немного науки в арктической воде Немного науки в арктической воде

Что исследователи знают о косолапых пловцах

Weekend
Умная материя Умная материя

Армия нанороботов сделает нашу жизнь окончательной фантастикой

Популярная механика
Наш паровоз вперед летит Наш паровоз вперед летит

Одна из новинок проката — фильм режиссера Андрея Волгина «Красный шелк»

Монокль
«Без этого мы не страна» «Без этого мы не страна»

Без производства микроэлектроники невозможно считаться суверенной страной

Эксперт
«Чистейший образец» «Чистейший образец»

Составить цельный образ Натальи Николаевны Гончаровой — сложная задача

Дилетант
Чтение и перезапись мозга Чтение и перезапись мозга

Через пять лет появится работающее устройство для чтения мыслей и воспоминаний

Популярная механика
Я — сноб: коллекционер Антон Козлов Я — сноб: коллекционер Антон Козлов

Коллекционер Антон Козлов — про искусство собирать современный арт

СНОБ
Актер сериала «Универ. Молодые» Влад Прохоров рассказал, какие качества в девушках ценит больше всего Актер сериала «Универ. Молодые» Влад Прохоров рассказал, какие качества в девушках ценит больше всего

Актер Влад Прохоров рассказал о своих главных требованиях к девушкам

VOICE
«Дорожная карта» для наблюдений за погодой «Дорожная карта» для наблюдений за погодой

Минсельхоз совместно с Росгидрометом планируют развивать систему метеостанций

Агроинвестор
Первая среди равных Первая среди равных

Мысли и наблюдения первой женщины-победительницы в кругосветной гонке

Y Magazine
Шаги на чердаке: жуткая история о нераскрытом убийстве в Хинтеркайфеке Шаги на чердаке: жуткая история о нераскрытом убийстве в Хинтеркайфеке

Более 100 лет назад на ферме Андреаса Грубера произошла страшная трагедия

ТехИнсайдер
«Золотая середина»: какую дистанцию выстроить руководителю между собой и сотрудниками «Золотая середина»: какую дистанцию выстроить руководителю между собой и сотрудниками

Какие ошибки чаще всего совершают менеджеры, и как найти баланс в дистанции

Inc.
На всякий случай На всякий случай

Как работает система страхования в спорте

Ведомости
Само совершенство Само совершенство

Что скрывается за яркой внешностью и почему мы пытаемся этим поднять самооценку

Лиза
Есть контакт Есть контакт

Как установить и почувствовать связь со своим телом

Grazia
Символ на перекрестке современных философий Символ на перекрестке современных философий

Знак — это условность, которая превращает отдельные вещи в их меру

Знание – сила
Ударные АПЛ европейских стран НАТО Ударные АПЛ европейских стран НАТО

Лодки класса «Трафальгар» проектировались для противостояния советским подлодкам

Наука и техника
Леди Гага от декаданса: как маркиза Луиза Казати стала королевой эпатажа Леди Гага от декаданса: как маркиза Луиза Казати стала королевой эпатажа

Как середине XX века итальянская аристократка стала Леди Гагой своего времени

Правила жизни
Женщины, которые нас вдохновляют: писательницы, руководительницы, исследовательницы, — о своих героинях Женщины, которые нас вдохновляют: писательницы, руководительницы, исследовательницы, — о своих героинях

Женщины поделились историями о тех, кто больше всего их вдохновляет

Psychologies
Агрострахование на подъеме Агрострахование на подъеме

Площадь застрахованных площадей увеличилась более чем на треть

Агроинвестор
Богатые тоже богатеют Богатые тоже богатеют

Доходы богатых россиян росли повышенными темпами в конце 2024 г

Ведомости
Падение Падение

Зло, которое все ищут где-то далеко, заключено в каждом отдельном человеке

Правила жизни
Я тебя — что? Я тебя — что?

Как меняется смысл «ты» в культуре, отношениях и восприятии себя?

Seasons of life
Большой вояж Большой вояж

Сравнение Astondoa 377 Coupe и ее модификации с подвесными моторами

Y Magazine
Кто с сердечком кому Кто с сердечком кому

Каким должно быть любовное письмо?

Seasons of life
Прогулка по Казани Прогулка по Казани

«Третья столица» – одно из популярных направлений для короткого путешествия

Лиза
Сергей Курехин Сергей Курехин

Правила жизни музыканта, актера и сценариста Сергея Курехина

Правила жизни
Вкусно и постно Вкусно и постно

Выбираем продукты для здорового рациона в Великий пост

Добрые советы
«Падучая» под контролем «Падучая» под контролем

Что такое эпилепсия и какие подходы к ее лечению предлагает современная наука?

Знание – сила
Открыть в приложении