ИИ и машинное обучение могут стать спасением для редких и исчезающих языков мира

Популярная механикаHi-Tech

Лингвистический гомункул

Текст: Роман Фишман

Из 7,3 млрд человек больше половины разговаривают на одном из десяти крупнейших языков. Большая часть текстов в интернете написаны на английском или севернокитайском (мандаринском) – это вызывает опасения, что вскоре они вовсе вытеснят языки менее распространенные. Однако судьба малых языков в сети развивается совершенно противоположным образом.

В безопасности

Русский язык и в Сети, и в офлайне занимает вполне достойное восьмое место среди крупнейших. Благодаря широкому распространению в России интернета на нем говорят в общей сложности 103 млн пользователей – почти 3% от их общего числа в мире. В одной только русскоязычной «Википедии» наберется почти 1,4 млн страниц, а из 10 млн самых посещаемых сайтов 6,4% написаны на русском. Все это создает внушительную базу текстов, существующих параллельно на русском и других крупных языках. А она позволяет использовать стандартные, статистические подходы к созданию систем машинного перевода между такими языковыми парами.

Одинаковые статьи в версиях «Википедии» на разных языках, переводы религиозных канонов и классических литературных произведений дополняются колоссальным объемом нового материала. Такие страницы часто легко обнаружить по названиям документов, которые могут отличаться лишь указанием RU или ENG. А если учесть характерные последовательности специальных символов, редких слов, цифр и другие особенности, то можно автоматически дополнять исходный набор еще бόльшим числом параллельных текстов. Неудивительно, что заняты этим в основном крупные интернет-компании, поисковики, которые индексируют многие миллиарды страниц на разных языках.

Однако начало современному статистическому подходу положили разработчики IBM Research. Еще в 1980-х они работали с массивом документов канадского парламента, которые обязательно переводятся на английский и французский, и предложили рассматривать текст на одном языке как полученный по сильно зашумленному каналу – а значит, «с ошибками» – текст другого языка. В такой модели «шумного канала» в исходные фразы требуется вносить исправление за исправлением, пока они не превратятся в аналогичные фразы уже на новом языке.

Это и делается на основе статистики параллельного употребления слов в одинаковых фразах на разных языках. При этом система может учитывать правила морфологии (образования и изменения слов) и синтаксиса (построения предложений), а качество машинного перевода проверяют люди, пока он не достигнет приемлемого уровня. «И хрюкотали зелюки, как мюмзики в мове», – интерпретирует оригинальный текст онлайн-система переводов Google; заметно, что машине знакомы параллельные фразы на английском и русском, и это простейший вариант.

Под угрозой

Определить, что же такое языки, и отделить их от диалектов, удается не всегда, так что даже точное число человеческих языков назвать не возьмется, наверное, никто. Обычные оценки колеблются в пределах от 6000 до 7000, причем выпускаемый ЮНЕСКО «Атлас языков мира, находящихся под угрозой исчезновения» выделяет среди них 2473, существование которых в будущем совсем не гарантировано. Цыганский и эрзянский, идиш и крымско-татарский практически не осваиваются молодыми поколениями, их носители стареют, использование сокращается.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Время людей Время людей

Антропоцен – время, когда человек оказывает глобальное влияние на всю планету

Популярная механика
Под винным соусом Под винным соусом

Секрет, над которым бились столетиями: что делать, если любимая обиделась

VOICE
Что естественно, то прекрасно Что естественно, то прекрасно

Нас будут окружать вещи, соавторами которых наравне с людьми выступят компьютеры

Популярная механика
В турецкой пещере нашли практически целую корзину позднего бронзового века В турецкой пещере нашли практически целую корзину позднего бронзового века

Археологи обнаружили в турецкой пещере Инёню практически целую древнюю корзину

N+1
Человек, который придумывает будущее Человек, который придумывает будущее

Компания с российскими корнями разрабатывает уникальные технологии для авто

Популярная механика
Пока не кончилось Пока не кончилось

Каково это — увидеть финал того, что длилось много серий

Weekend
Гибкое время Фабиана Офнера Гибкое время Фабиана Офнера

Как по частям собрать момент, которого никогда не было

Популярная механика
«Путь к диалогу человека с Богом открыт каждому» «Путь к диалогу человека с Богом открыт каждому»

В чем в сущности своей различаются восточная и западная ветви христианства?

Монокль
Юрий Кузнецов: «Зарабатывать деньги меня учили Абдулов и Миронов» Юрий Кузнецов: «Зарабатывать деньги меня учили Абдулов и Миронов»

В театре завидовали: Кузнецов провинциал, а все снимается и снимается!

Караван историй
Баба-Яга и все-все-все: (очень) краткая история сказок в отечественном кино Баба-Яга и все-все-все: (очень) краткая история сказок в отечественном кино

Историю жанра сказочных фильмов, ключевые периоды и важнейшие имена

СНОБ
Это не шутки: что такое мемкоины Это не шутки: что такое мемкоины

Можно ли разбогатеть на меме с собачкой или лягушонком

VC.RU
Как экс-сотрудник «Яндекса» запустил сервис ремонта гаджетов, который взлетел за счет дружелюбного отношения к клиентам Как экс-сотрудник «Яндекса» запустил сервис ремонта гаджетов, который взлетел за счет дружелюбного отношения к клиентам

Отрывок из книги «Сделано по-настоящему» о предпринимателях (не)перфекционистах

Inc.
Немое кино Немое кино

Истории, которых не было, но которые могли бы быть

Автопилот
8 заветных желаний 8 заветных желаний

Как же заставить силу воображения работать? Надо превратить мечты в планы

Лиза
Историческая сага: 5 книг для ценителей масштабных историй Историческая сага: 5 книг для ценителей масштабных историй

Романы-саги, которые позволят рассмотреть мировые события с разных точек зрения

Maxim
«Привет, я псих из палаты номер шесть»: история мужчины, который попал в клинику неврозов «Привет, я псих из палаты номер шесть»: история мужчины, который попал в клинику неврозов

Что, если на самом деле психиатрическая больница — это не так уж и страшно?

Psychologies
Транспорт, который удивляет: как инновации помогают при передвижении по городу Транспорт, который удивляет: как инновации помогают при передвижении по городу

Технологические тренды, развивающиеся в сфере городского транспорта в регионах

ФедералПресс
Виктор Логинов: «После премьеры «Счастливы вместе» многие говорили: это же я, это про меня, у меня жена такая же» Виктор Логинов: «После премьеры «Счастливы вместе» многие говорили: это же я, это про меня, у меня жена такая же»

В 90-х годах казалось, что российский кинематограф закончился

Коллекция. Караван историй
Где взять силы зимой? Где взять силы зимой?

Простые способы, которые помогут вам вернуть энергетический потенциал

Добрые советы
Три короны Возрождения: Данте, Петрарка, Боккаччо Три короны Возрождения: Данте, Петрарка, Боккаччо

Что мы знаем о трех родоначальниках Возрождения: Данте, Петрарке, Боккаччо?

Знание – сила
У кого и как чаще всего развивается зависимость: 3 основные стадии У кого и как чаще всего развивается зависимость: 3 основные стадии

Зависимость: где эта роковая точка невозврата и кому стоит быть осторожнее?

Psychologies
Я с тобой Я с тобой

Оксана Лаврентьева доказывает, что настоящую любовь два человека создают сами

VOICE
«Африка-Алкебулан: sentio ergo sum» «Африка-Алкебулан: sentio ergo sum»

Чему нам следует поучиться у Африки и африканцев?

Знание – сила
5 лучших и 5 худших сладостей для вашего здоровья 5 лучших и 5 худших сладостей для вашего здоровья

Бывают ли полезные сладости?

ТехИнсайдер
Время последних Время последних

Последний солдат Второй мировой и другие люди, на которых все закончилось

Weekend
Высокий полет Высокий полет

Посреди большого тура, между концертами Zivert чудом вырвалась к нам на съемку

VOICE
Снова всегда Снова всегда

Как Чарли Кауфман сводит все концы со всеми началами

Weekend
Что делать, если шелушится кожа вокруг ногтей: 8 простых лайфхаков Что делать, если шелушится кожа вокруг ногтей: 8 простых лайфхаков

Как придать коже возле ногтей здоровый вид?

VOICE
Тихая охота биотехнологов Тихая охота биотехнологов

Почему грибы становятся кандидатом в «эликсиры долголетия и молодости»

Монокль
Слишком позитивно: почему идея всегда быть в ресурсе не работает в реальной жизни Слишком позитивно: почему идея всегда быть в ресурсе не работает в реальной жизни

Как миф о «ресурсе» создает неоправданные ожидания и двойные стандарты

Forbes
Открыть в приложении