ИИ и машинное обучение могут стать спасением для редких и исчезающих языков мира

Популярная механикаHi-Tech

Лингвистический гомункул

Текст: Роман Фишман

Из 7,3 млрд человек больше половины разговаривают на одном из десяти крупнейших языков. Большая часть текстов в интернете написаны на английском или севернокитайском (мандаринском) – это вызывает опасения, что вскоре они вовсе вытеснят языки менее распространенные. Однако судьба малых языков в сети развивается совершенно противоположным образом.

В безопасности

Русский язык и в Сети, и в офлайне занимает вполне достойное восьмое место среди крупнейших. Благодаря широкому распространению в России интернета на нем говорят в общей сложности 103 млн пользователей – почти 3% от их общего числа в мире. В одной только русскоязычной «Википедии» наберется почти 1,4 млн страниц, а из 10 млн самых посещаемых сайтов 6,4% написаны на русском. Все это создает внушительную базу текстов, существующих параллельно на русском и других крупных языках. А она позволяет использовать стандартные, статистические подходы к созданию систем машинного перевода между такими языковыми парами.

Одинаковые статьи в версиях «Википедии» на разных языках, переводы религиозных канонов и классических литературных произведений дополняются колоссальным объемом нового материала. Такие страницы часто легко обнаружить по названиям документов, которые могут отличаться лишь указанием RU или ENG. А если учесть характерные последовательности специальных символов, редких слов, цифр и другие особенности, то можно автоматически дополнять исходный набор еще бόльшим числом параллельных текстов. Неудивительно, что заняты этим в основном крупные интернет-компании, поисковики, которые индексируют многие миллиарды страниц на разных языках.

Однако начало современному статистическому подходу положили разработчики IBM Research. Еще в 1980-х они работали с массивом документов канадского парламента, которые обязательно переводятся на английский и французский, и предложили рассматривать текст на одном языке как полученный по сильно зашумленному каналу – а значит, «с ошибками» – текст другого языка. В такой модели «шумного канала» в исходные фразы требуется вносить исправление за исправлением, пока они не превратятся в аналогичные фразы уже на новом языке.

Это и делается на основе статистики параллельного употребления слов в одинаковых фразах на разных языках. При этом система может учитывать правила морфологии (образования и изменения слов) и синтаксиса (построения предложений), а качество машинного перевода проверяют люди, пока он не достигнет приемлемого уровня. «И хрюкотали зелюки, как мюмзики в мове», – интерпретирует оригинальный текст онлайн-система переводов Google; заметно, что машине знакомы параллельные фразы на английском и русском, и это простейший вариант.

Под угрозой

Определить, что же такое языки, и отделить их от диалектов, удается не всегда, так что даже точное число человеческих языков назвать не возьмется, наверное, никто. Обычные оценки колеблются в пределах от 6000 до 7000, причем выпускаемый ЮНЕСКО «Атлас языков мира, находящихся под угрозой исчезновения» выделяет среди них 2473, существование которых в будущем совсем не гарантировано. Цыганский и эрзянский, идиш и крымско-татарский практически не осваиваются молодыми поколениями, их носители стареют, использование сокращается.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Что естественно, то прекрасно Что естественно, то прекрасно

Нас будут окружать вещи, соавторами которых наравне с людьми выступят компьютеры

Популярная механика
Что скрывается за модным словом «роялти» ? Что скрывается за модным словом «роялти» ?

Пассивный доход на интеллектуальной собственности: как работает роялти?

Наука и техника
Восток и его обитатели Восток и его обитатели

В озере Восток под ледовым щитом Антарктиды есть жизнь

Популярная механика
Борьба за наследство Борьба за наследство

Диадохи: наследники Александра Македонского, развалившие его империю

Дилетант
Драгоценное зернышко Драгоценное зернышко

Золотодобыча в современных условиях

Популярная механика
«Был честен с собой и со своим ремеслом»: каким был путь в искусстве Карла Брюллова «Был честен с собой и со своим ремеслом»: каким был путь в искусстве Карла Брюллова

Каким был путь в искусстве Карла Брюллова и как его показывают в музеях

Forbes
Совершенно не секретно Совершенно не секретно

Какая бы ни приключилась беда, рядом обязательно прозвучит страшное слово HAARP

Популярная механика
Расписки при ДТП: как пишутся и какими бывают Расписки при ДТП: как пишутся и какими бывают

Как пишется расписка при ДТП и когда этого делать не стоит

РБК
Австралиец нашел прижизненные фотографии вымершего почти сто лет назад бандикута Австралиец нашел прижизненные фотографии вымершего почти сто лет назад бандикута

Куратор музея обнаружил в архивах черно-белые фотографии бандикута

N+1
Инвесторы стали избирательнее и осторожнее Инвесторы стали избирательнее и осторожнее

Агробизнес продолжает планировать инвестиции в развитие

Агроинвестор
Первый среди неравных: дизайнер Ясухиро Михара Первый среди неравных: дизайнер Ясухиро Михара

Ясухиро Михара: как японский дизайн кроссовок покорил мир

Правила жизни
Что такое DDoS-атака и как она работает Что такое DDoS-атака и как она работает

Объясняем, что такое DDoS и как оно работает

ТехИнсайдер
«Делать то, что умеешь». Андрей Золотарев — о простых радостях жизни, режиссерских планах и меме с Траволтой «Делать то, что умеешь». Андрей Золотарев — о простых радостях жизни, режиссерских планах и меме с Траволтой

Сценарист Андрей Золотарев — о полном метре и просроченных дедлайнах

Правила жизни
Алексей Смертин: Трактор на поле, философ в пустыне Алексей Смертин: Трактор на поле, философ в пустыне

Алексей Смертин пробежал ультрамарафон по Сахаре

Men Today
Мост в небесах Мост в небесах

Некоторые современные мосты сооружают только для того, чтобы заинтриговать

Знание – сила
Жизнь и открытия Степана Куторги: от классиков до звероящеров Жизнь и открытия Степана Куторги: от классиков до звероящеров

«Удивительные ошибки» гения: как российский ученый открыл звероящеров

Наука и техника
Торговые войны на металлическом фундаменте Торговые войны на металлическом фундаменте

Мировой рынок металлов переживает историческую трансформацию

Ведомости
Мост – это мир со своими законами Мост – это мир со своими законами

Наш сегодняшний разговор – не о фантастике, а о фантастических мостах

Знание – сила
Как Гарвард придумал систему отбора из-за неприязни к евреям и зачем ему спортсмены Как Гарвард придумал систему отбора из-за неприязни к евреям и зачем ему спортсмены

Какие механизмы ведут к сдвигам в поведении и убеждениях людей?

Forbes
Нефть, газ и будущее Нефть, газ и будущее

Стремление заглянуть в будущее — неотъемлемая часть человеческой натуры.

Ведомости
Возможно, у вас уже все есть: разбор гардероба в 4 простых правилах Возможно, у вас уже все есть: разбор гардероба в 4 простых правилах

Почему бы не заняться разбором гардероба прямо сейчас?

Правила жизни
«Простая геометрическая фигура»: какую историю пережил «Черный квадрат» Малевича «Простая геометрическая фигура»: какую историю пережил «Черный квадрат» Малевича

История успеха наследия художника Казимира Малевича

Forbes
Терапия бездельем: что такое бедроттинг и почему зумеры полюбили валяться в постели Терапия бездельем: что такое бедроттинг и почему зумеры полюбили валяться в постели

Bed rotting: обычная лень или способ восстановить силы?

Forbes
«Покажи ручку!» 3 причины приучить себя подавать сигналы рукой «Покажи ручку!» 3 причины приучить себя подавать сигналы рукой

Несколько важных причин подавать сигналы рукой, когда едешь на велосипеде

ТехИнсайдер
Легенда Сибири Легенда Сибири

Словно драгоценную чашу держит Бурятия священный Байкал

Лиза
Зеленый доктор Зеленый доктор

Чем больше «травы» – тем меньше вес

Лиза
Где на Руси отдыхать хорошо Где на Руси отдыхать хорошо

Лучшие места в России по версии Men Today

Men Today
Мир экзопланет: что для космоса «норма»? Мир экзопланет: что для космоса «норма»?

Уже можно говорить о планетах необычных. Как выглядят «обычные» – установлено

Наука и техника
«Хотеть пять звезд, спа и три ресторана — это не стратегия». Президент Cosmos Hotel Group — об ошибках начинающих отельеров «Хотеть пять звезд, спа и три ресторана — это не стратегия». Президент Cosmos Hotel Group — об ошибках начинающих отельеров

Каких ошибок следует избегать отельеру и почему за малыми городами будущее?

Inc.
Мальчик и дерево Мальчик и дерево

Как важно держаться корней в прямом и переносном смысле

Men Today
Открыть в приложении