ИИ и машинное обучение могут стать спасением для редких и исчезающих языков мира

Популярная механикаHi-Tech

Лингвистический гомункул

Текст: Роман Фишман

Из 7,3 млрд человек больше половины разговаривают на одном из десяти крупнейших языков. Большая часть текстов в интернете написаны на английском или севернокитайском (мандаринском) – это вызывает опасения, что вскоре они вовсе вытеснят языки менее распространенные. Однако судьба малых языков в сети развивается совершенно противоположным образом.

В безопасности

Русский язык и в Сети, и в офлайне занимает вполне достойное восьмое место среди крупнейших. Благодаря широкому распространению в России интернета на нем говорят в общей сложности 103 млн пользователей – почти 3% от их общего числа в мире. В одной только русскоязычной «Википедии» наберется почти 1,4 млн страниц, а из 10 млн самых посещаемых сайтов 6,4% написаны на русском. Все это создает внушительную базу текстов, существующих параллельно на русском и других крупных языках. А она позволяет использовать стандартные, статистические подходы к созданию систем машинного перевода между такими языковыми парами.

Одинаковые статьи в версиях «Википедии» на разных языках, переводы религиозных канонов и классических литературных произведений дополняются колоссальным объемом нового материала. Такие страницы часто легко обнаружить по названиям документов, которые могут отличаться лишь указанием RU или ENG. А если учесть характерные последовательности специальных символов, редких слов, цифр и другие особенности, то можно автоматически дополнять исходный набор еще бόльшим числом параллельных текстов. Неудивительно, что заняты этим в основном крупные интернет-компании, поисковики, которые индексируют многие миллиарды страниц на разных языках.

Однако начало современному статистическому подходу положили разработчики IBM Research. Еще в 1980-х они работали с массивом документов канадского парламента, которые обязательно переводятся на английский и французский, и предложили рассматривать текст на одном языке как полученный по сильно зашумленному каналу – а значит, «с ошибками» – текст другого языка. В такой модели «шумного канала» в исходные фразы требуется вносить исправление за исправлением, пока они не превратятся в аналогичные фразы уже на новом языке.

Это и делается на основе статистики параллельного употребления слов в одинаковых фразах на разных языках. При этом система может учитывать правила морфологии (образования и изменения слов) и синтаксиса (построения предложений), а качество машинного перевода проверяют люди, пока он не достигнет приемлемого уровня. «И хрюкотали зелюки, как мюмзики в мове», – интерпретирует оригинальный текст онлайн-система переводов Google; заметно, что машине знакомы параллельные фразы на английском и русском, и это простейший вариант.

Под угрозой

Определить, что же такое языки, и отделить их от диалектов, удается не всегда, так что даже точное число человеческих языков назвать не возьмется, наверное, никто. Обычные оценки колеблются в пределах от 6000 до 7000, причем выпускаемый ЮНЕСКО «Атлас языков мира, находящихся под угрозой исчезновения» выделяет среди них 2473, существование которых в будущем совсем не гарантировано. Цыганский и эрзянский, идиш и крымско-татарский практически не осваиваются молодыми поколениями, их носители стареют, использование сокращается.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Геолог на Марсе Геолог на Марсе

Каково работать бок о бок с Curiosity в марсианской пустыне

Популярная механика
Болотный хлопок Болотный хлопок

Пушица — растение с мягким пушком, которое растёт на болотах

Наука и жизнь
Что естественно, то прекрасно Что естественно, то прекрасно

Нас будут окружать вещи, соавторами которых наравне с людьми выступят компьютеры

Популярная механика
10 маминых фраз, которые помогают во взрослой жизни 10 маминых фраз, которые помогают во взрослой жизни

Что говорить ребенку, чтобы он вырос гармоничным и счастливым человеком?

Psychologies
Топор плывет Топор плывет

В середине прошлого десятилетия в море вышло судно странной наружности

Популярная механика
«Я живу свою жизнь»: о чём мечтает и к чему стремится серебряный призер Паралимпийских игр в Париже в 2024 Зоя Щурова «Я живу свою жизнь»: о чём мечтает и к чему стремится серебряный призер Паралимпийских игр в Париже в 2024 Зоя Щурова

Как живут люди с диагнозом Spina bifida? Рассказала паралимпийская чемпионка

VOICE
Целого мира мало Целого мира мало

Человечеству грозит дефицит самых простых минеральных ресурсов

Популярная механика
Дело жизни Дело жизни

Известные шеф-повара об их истоках и пути в профессии

Grazia
«Она была актрисою» «Она была актрисою»

О своих страхах и надеждах, красоте и эпохе рассказала актриса Ангелина Стречина

OK!
Это у нас семейное: что происходит с институтом семьи и брака? Это у нас семейное: что происходит с институтом семьи и брака?

Успевают ли семейные отношения за стремительно меняющимся миром?

Правила жизни
«Чувствовала себя коровой»: как грудное вскармливание становится для женщин проблемой «Чувствовала себя коровой»: как грудное вскармливание становится для женщин проблемой

Что переживают женщины, которые только начинают грудное вскармливание

Forbes
Неарийские корни Неарийские корни

Автор романа «Почётные арийки» — о том, почему он взялся за эту сложную тему

RR Люкс.Личности.Бизнес.
Искусственный интеллект в деле Искусственный интеллект в деле

6 возможностей нейросетей в быту: подсказки от эксперта

Лиза
Без молотка и орехокола: 4 дейтвенных совета, как просто и быстро очистить грецкие орехи от скорлупы Без молотка и орехокола: 4 дейтвенных совета, как просто и быстро очистить грецкие орехи от скорлупы

Очистить гору орехов можно в домашних условиях и без особых усилий

ТехИнсайдер
Через гены к экономической эффективности Через гены к экономической эффективности

В России создается собственная база данных для генотипирования КРС

Агроинвестор
10 вредных пищевых привычек: как поймать себя на них 10 вредных пищевых привычек: как поймать себя на них

Пищевое поведение, которое может нанести ощутимый вред здоровью

Psychologies
Энергетика: маневры за перекрестком Энергетика: маневры за перекрестком

Масштабы перекрестного субсидирования в энергетике сильно преувеличены

Монокль
Движение вверх Движение вверх

8 необычных вариантов оформления потолка в квартире

Лиза
От нефтеразведки до торговли: как российские компании применяют нейросети От нефтеразведки до торговли: как российские компании применяют нейросети

В каких сферах применяют ИИ и каких результатов удалось добиться?

Inc.
Основательный подход Основательный подход

Sirena 48 Hybrid — первая модель с гибридной моторной установкой верфи Sirena

Y Magazine
Цвет и его имя Цвет и его имя

В каком порядке народы приобретали чувствительность к цветам спектра?

Знание – сила
Женские секреты Женские секреты

Лучшие идеи для обустройства туалетного столика в спальне

Лиза
«Это__была__мечта» «Это__была__мечта»

Группе Uma2rman — 20 лет! История их успеха напоминает череду счастливых случаев

OK!
Альберт Эйнштейн и Нильс Бор Альберт Эйнштейн и Нильс Бор

Элементы сравнительного жизнеописания

Наука и жизнь
Молодые годы Колчака Молодые годы Колчака

Александр Колчак — не только военный, но и ученый-океанограф

Знание – сила
Тайный путь Тайный путь

Ювелирный эксперт Елена Веселая рассказала RR о своих ювелирных путешествиях

RR Люкс.Личности.Бизнес.
Что такое сложные углеводы и в каких продуктах они содержатся Что такое сложные углеводы и в каких продуктах они содержатся

Почему приоритет в питании отдают сложным углеводам?

РБК
В погоне за трендами В погоне за трендами

Как следить за всеми модными веяниями и удачно внедрять их в свой гардероб

Лиза
Шеф, а что с зарплатой? Шеф, а что с зарплатой?

Почему тебе давно не повышали оклад и как изменить ситуацию

Лиза
7 лучших киногероев-скуфов, которыми мы гордимся 7 лучших киногероев-скуфов, которыми мы гордимся

Иногда даже лысеющий мужичок с пончиками может вдохновить на перемены

Maxim
Открыть в приложении