Голоса. Как учат разговаривать голосовые помощники
В 2013 году на экраны вышел фильм Спайка Джонса «Она» о романе одинокого писателя с операционной системой. Несмотря на кажущуюся абсурдность, это оказалась удивительно трогательная и пронзительная история любви. В оригинальном фильме операционную систему озвучивала Скарлетт Йоханссон, а в российской версии она говорила голосом Татьяны Шитовой.
Через пять лет у меня дома появилась «Яндекс.Станция» – и заговорила со мной тем же голосом. Так фантастика стала реальностью. А еще через день Алиса, которая жила в «Станции», ночью вмешалась в наш интимный разговор с женой – кстати, очень в тему. Жена после этого потребовала убрать Алису из спальни и в целом невзлюбила электронных помощников с женскими голосами.
На днях «Сбер» представил сразу три новых голосовых ассистента – Сбера, Джой и Афину, причем две последние, судя по голосам, тоже томные красотки. На подходе Марвин из МТС. Оставив в стороне сложнейшие технологии распознавания и синтеза речи, мы расспросили создателей голосовых помощников, как из машины делают личность.
Личности
«Виртуальный ассистент – традиционный набор каких-то умений, – рассказывает Денис Филиппов, директор по технологиям и разработке SberDevices, компании экосистемы «Сбера», один из создателей Джой, Афины и Сбера. – Мы спрашиваем – виртуальный помощник отвечает, например, какая сегодня погода, курс доллара, или ставит музыку, то есть выполняет определенные задачи, "полезности"».
Но голосовой помощник разговаривает, симулируя человеческие эмоции, вызывая у пользователя некий образ и связывая его с продуктом. Такую способность называют эмпатией, если это слово можно применить к машине. И с ней непросто: у виртуальных ассистентов многомиллионная аудитория, и всем надо угодить. Какой голос лучше – мужской или женский? Томный или деловой? Мою жену, например, раздражают ассистенты с соблазнительными женскими голосами, а мне не очень нравится общаться с брутальными мужчинами-помощниками.
Разработчики идут разными путями. «Сбер», например, запустил сразу трех персонажей обоих полов, «Яндекс» – только Алису, а МТС – Марвина. Но при этом Алиса умеет распознавать голоса и, если понимает, что с ней говорит ребенок, включает специальный детский режим. В этом режиме у голосового ассистента меняется манера общения: Алиса начинает обращаться на «ты» и использовать другой словарный запас. Потому что для ребенка она прежде всего друг, а если разговаривать на «вы», беседа получится более отрешенной и холодной.
Создатель Марвина Аркадий Сандлер сформулировал требование к ассистенту так: «Пусть на этот раз помощник будет не роботом, не женского пола и, возможно, даже не человеком». «Он очаровательный, остроумный, иногда трогательный, иногда мудрый, – делится спичрайтер Марвина, киносценарист Ольга Никифорова. – Инопланетянин, философ из расы пухнашей, умеющий прыгать между мирами. Космический бродяга, чей свежий, часто оригинальный взгляд на многие земные процессы радует, веселит или изумляет пользователя».
У каждого разработчика изначально есть своеобразная «библия персонажа» – многостраничный документ, где подробно описано, кто он такой, что ему нравится, а что нет, чего он боится, как относится к разным вещам. Там же дается свод жизненных правил ассистента – например, никогда не материться и не причинять вред человеку.
Школа
Очень важно, на каких именно данных обучаются виртуальные помощники. «Если предложить им, условно, одну только "Википедию", получится очень скучно и сухо, словно говоришь с толковым словарем, – рассказывает руководитель продукта «Алиса» Андрей Законов. – Если обучать на «ВКонтакте», будет излишне молодежно и сленгово». Точно так, как в виноделии применяется купаж – смешивание в определенной пропорции разных видов алкоголя, в обучении голосовых ассистентов важно сочетание источников информации. Например, персонаж Алисы любит книги, ей изначально «скармливали» много русской литературы, поэтому в ее репликах порой проскакивают цитаты, что-то окололитературное. «Периодически нас спрашивают: что это за странная фраза? Откуда она тут появилась? – говорит Андрей. – А это из стихотворения Цветаевой или Бродского, например». Мужской персонаж Сбер – знаток современных технологий. Афина – интеллектуал, с которой интересно поговорить на разные темы. Джой больше про развлечения,