Распознать любой ценой: как искусственный интеллект научился понимать арабский язык
Каждому из нас хотелось бы говорить на любом языке мира, не прилагая к этому никаких усилий. При этом мы примерно понимаем, что овладеть английским чуть легче, чем китайским, а испанским - легче, чем арабским. Кажется, что у искусственного интеллекта с лингвистикой вообще не должно возникнуть никаких проблем. Но так ли это на самом деле, расскажет Владимир Арлазаров, к.т.н., генеральный директор компании Smart Engines.
Самое интересное, что шкала сложности изучения языков действительного существует. Например, американский Институт зарубежной службы при Госдепе делит все языки на 4 категории в зависимости от того, сколько часов нужно носителям английского языка на их изучение до уровня свободного владения. Самые сложные языки — это арабский, китайский, корейский и японский, и на их изучение придется потратить не менее 2200 часов. Тогда как на испанский, к примеру, не более 600 часов.
В этой статье мы расскажем, допустимо ли считать арабский язык сложным для человека и искусственного интеллекта (спойлер — да), и почему распознавание арабской вязи — это отдельная ачивка для ИИ.
Что делает арабский таким сложным для человека?
Чтобы ответить на этот вопрос, достаточно вспомнить знаменитый анекдот:
— Ты француз?
— Да.
— О, а скажи что-нибудь на арабском?
Особенность номер один — это отсутствие единого арабского. Арабский язык является основным языком сразу во многих странах мира, что неизбежно ведет к возникновению различных местных диалектов, отличающихся друг от друга так же сильно, как русский от польского, и ни у одного из этих диалектов нет письменного варианта.