Электроды на лице и шее позволили нейросети озвучить беззвучную речь
Американские исследователи создали прототип системы, которая считывает беззвучную речь при помощи электродов на лице и шее и превращает ее в слышимую речь с помощью нейросети. Потенциально это позволяет создать Bluetooth-гарнитуру, позволяющую разговаривать по телефону, не издавая звуков, или искусственный голосовой аппарат для людей с травмами гортани. Авторы представили разработку на конференции EMNLP 2020 и получили награду за лучшую статью.
При чтении мы обычно не просто видим слова и понимаем их суть, но и проговариваем их про себя, не издавая при этом никаких звуков. Этот процесс называется субвокализацией. Особенность субвокализации заключается в том, что, хотя мы и не произносим слова вслух, мозг все равно заставляет мышцы голосового тракта двигаться, пускай и намного меньше, чем при обычной вокализованной речи. Инженеры довольно давно научились использовать эти сокращения мыщц и считывать их с помощью различных методов, в основном при помощи электромиографии, которая регистрирует электрическую активность мышц.
В основном нейромышечные интерфейсы для распознавания субковализации используют для превращения беззвучной речи в текст. Дэвид Гэдди (David Gaddy) и Дэн Кляйн (Dan Klein) из Калифорнийского университета в Беркли создали алгоритм для превращения беззвучной речи в слышимую. Ранее другие исследователи уже решали эту задачу: на человеке закрепляли электроды и он произносил текст, а параллельно с этим исследователи записывали звук и электрическую активность. Затем они обучали алгоритм на парах звук-электрическая активность, что позволяло восстановить первое из второго. Этот подход изначально закладывает в результаты неточность, потому что электрическая активность мышц голосового аппарата при слышимой и неслышимой речи похожа, но не идентична.