ИИ и машинное обучение могут стать спасением для редких и исчезающих языков мира

Популярная механикаHi-Tech

Лингвистический гомункул

Текст: Роман Фишман

Из 7,3 млрд человек больше половины разговаривают на одном из десяти крупнейших языков. Большая часть текстов в интернете написаны на английском или севернокитайском (мандаринском) – это вызывает опасения, что вскоре они вовсе вытеснят языки менее распространенные. Однако судьба малых языков в сети развивается совершенно противоположным образом.

В безопасности

Русский язык и в Сети, и в офлайне занимает вполне достойное восьмое место среди крупнейших. Благодаря широкому распространению в России интернета на нем говорят в общей сложности 103 млн пользователей – почти 3% от их общего числа в мире. В одной только русскоязычной «Википедии» наберется почти 1,4 млн страниц, а из 10 млн самых посещаемых сайтов 6,4% написаны на русском. Все это создает внушительную базу текстов, существующих параллельно на русском и других крупных языках. А она позволяет использовать стандартные, статистические подходы к созданию систем машинного перевода между такими языковыми парами.

Одинаковые статьи в версиях «Википедии» на разных языках, переводы религиозных канонов и классических литературных произведений дополняются колоссальным объемом нового материала. Такие страницы часто легко обнаружить по названиям документов, которые могут отличаться лишь указанием RU или ENG. А если учесть характерные последовательности специальных символов, редких слов, цифр и другие особенности, то можно автоматически дополнять исходный набор еще бόльшим числом параллельных текстов. Неудивительно, что заняты этим в основном крупные интернет-компании, поисковики, которые индексируют многие миллиарды страниц на разных языках.

Однако начало современному статистическому подходу положили разработчики IBM Research. Еще в 1980-х они работали с массивом документов канадского парламента, которые обязательно переводятся на английский и французский, и предложили рассматривать текст на одном языке как полученный по сильно зашумленному каналу – а значит, «с ошибками» – текст другого языка. В такой модели «шумного канала» в исходные фразы требуется вносить исправление за исправлением, пока они не превратятся в аналогичные фразы уже на новом языке.

Это и делается на основе статистики параллельного употребления слов в одинаковых фразах на разных языках. При этом система может учитывать правила морфологии (образования и изменения слов) и синтаксиса (построения предложений), а качество машинного перевода проверяют люди, пока он не достигнет приемлемого уровня. «И хрюкотали зелюки, как мюмзики в мове», – интерпретирует оригинальный текст онлайн-система переводов Google; заметно, что машине знакомы параллельные фразы на английском и русском, и это простейший вариант.

Под угрозой

Определить, что же такое языки, и отделить их от диалектов, удается не всегда, так что даже точное число человеческих языков назвать не возьмется, наверное, никто. Обычные оценки колеблются в пределах от 6000 до 7000, причем выпускаемый ЮНЕСКО «Атлас языков мира, находящихся под угрозой исчезновения» выделяет среди них 2473, существование которых в будущем совсем не гарантировано. Цыганский и эрзянский, идиш и крымско-татарский практически не осваиваются молодыми поколениями, их носители стареют, использование сокращается.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Умная материя Умная материя

Армия нанороботов сделает нашу жизнь окончательной фантастикой

Популярная механика
Законы подземных мелодий Законы подземных мелодий

Репортаж из столичного метро: чем живут музыканты под землей

Монокль
Что естественно, то прекрасно Что естественно, то прекрасно

Нас будут окружать вещи, соавторами которых наравне с людьми выступят компьютеры

Популярная механика
Тихая охота Тихая охота

Как правильно и безопасно собирать грибы осенью

Лиза
Транспорт будущего Транспорт будущего

Вот уже шесть лет мы пишем про летающие автомобили и стоим рядом с прототипами

ТехИнсайдер
10 неожиданных вопросов группе X4 10 неожиданных вопросов группе X4

Группа X4 — о финансовых приоритетах и детских утренниках

VOICE
Ледокол и птица с хоботом Ледокол и птица с хоботом

Журавлиный профиль кранов безошибочно подсказывает: где-то рядом порт или верфь

Популярная механика
Как подключить телефон к машине: 3 способа Как подключить телефон к машине: 3 способа

Зачем подключать телефон к машине и как это сделать?

РБК
Мария Стерникова о Валерии Носике: «Он был человеком необыкновенной доброты и света» Мария Стерникова о Валерии Носике: «Он был человеком необыкновенной доброты и света»

«Он, как волшебник, прилетал ненадолго со съемок, а внизу его уже ждала машина»

Коллекция. Караван историй
В этот раз я не родился курьером В этот раз я не родился курьером

Ведь доставлять можно не только продукты... можно нести что-то большее

Правила жизни
Бренды и тренды Бренды и тренды

Будущее автомобилей направлено исключительно вверх

Men Today
Александр Гронский и Алина Глазун Александр Гронский и Алина Глазун

Арт-паверкапл художницы Алины Глазун и фотографа Александра Гронского

Собака.ru
5 привычек, которые бесят всех врачей 5 привычек, которые бесят всех врачей

Почему врач не может поставить вам правильный диагноз?

Maxim
Олег Мельников: «Спрос на банковское сопровождение контрактов растет из года в год» Олег Мельников: «Спрос на банковское сопровождение контрактов растет из года в год»

О значении механизма банковского сопровождения и его будущих возможностях

Ведомости
Кто даст мне сто долларов? Кто даст мне сто долларов?

Аукционные дома Sotheby’s и Christie’s: инструкция по применению

Weekend
Последнее думающее поколение. Кто на самом деле воспитывает наших детей Последнее думающее поколение. Кто на самом деле воспитывает наших детей

Как ИИ становится цифровым воспитателем

Inc.
Мария Маркова Мария Маркова

Мария Маркова, актриса театра и кино, стендап-комик

Правила жизни
Обычный лед оказался флексоэлектрическим Обычный лед оказался флексоэлектрическим

Лед проявил сегнетоэлектрические свойства

N+1
4 признака того, что в морозильной камере установлена неправильная температура 4 признака того, что в морозильной камере установлена неправильная температура

Как понять, что морозилка работает неправильно?

ТехИнсайдер
Защита для маленьких Защита для маленьких

Как малый и средний бизнес решает задачу обеспечения информбезопасности

Ведомости
Выгорание, импульсивные траты и срывы: всё, что вы хотели знать о СДВГ у взрослых Выгорание, импульсивные траты и срывы: всё, что вы хотели знать о СДВГ у взрослых

СДВГ: разбираемся, как взрослым жить с этим состоянием

Men Today
Повышенная тревожность Повышенная тревожность

Почему дети начинают тревожиться, и чем тут могут помочь взрослые?

Здоровье
Экономика свечного заводика: как построить с нуля бренд ароматов для дома Экономика свечного заводика: как построить с нуля бренд ароматов для дома

Как скромное начинание выросло в полноценное производство?

Inc.
Док из машины Док из машины

Может ли нейросеть заменить терапевта, когда по-настоящему больно?

VOICE
Гейхеры & Cо Гейхеры & Cо

Надо ли заводить гейхеры и насколько они будут обременительны в уходе

Наука и жизнь
Дорогой лапши Дорогой лапши

Китайская лапша давно свернула с Великого шелкового пути

Seasons of life
Флагман дальнего плавания Флагман дальнего плавания

Bering 165 — это судно с отвесным форштевнем и высоким бортом до миделя

Y Magazine
Оазис в городе Оазис в городе

Функциональный современный интерьер без привязки к стилевым решениям

Идеи Вашего Дома
Максим Заяц Максим Заяц

Максим Заяц: белорусский комик из Минска, музыкант

Правила жизни
Сделаем в лучшем виде Сделаем в лучшем виде

Работает ли революционная идея типажей Кибби-Ларсон?

VOICE
Открыть в приложении