Что кроется за понятием общения для робота, рассказали инженеры

Популярная механикаHi-Tech

Я слышу голоса: общительный массив для дружелюбного робота

Компания Promobot

Самая главная формула успеха – умение общаться с людьми, любил повторять небезызвестный Теодор Рузвельт. В случае робота эта формула принимает критическое значение, ведь без способности к общению робот превращается в обычный, пусть и высокотехнологичный механизм. Что кроется за понятием общения для робота, рассказали инженеры компании «Промобот» Валерий Титов и Владислав Сазонов. И как выяснилось, пара «микрофон-динамик» здесь устарела ещё в прошлом веке, а найти подходящую «голову» практически невозможно.

Для людей слышать и понимать речь собеседника - обыденное дело. Человек слышит, человек отвечает. Но когда речь заходит о том, чтобы нас услышал и понял не человек, а робот, начинаются проблемы. Общение с роботом может проходить в сложных условиях: множество источников шума, несколько одновременно говорящих с разных сторон людей. Обычные микрофоны могут реагировать даже на речь самого робота.

В своей жизни человек даже не замечает, насколько сложен процесс общения с технической точки зрения. Чтобы научить роботов «Промобота» общаться, нам пришлось найти идеальные уши, рот и главное - научить их правильно работать.

«Хонда» для российского робота

Для идеального слуха роботу требуется две вещи: хорошие уши и надежная голова, способная понять, что же уловили уши. Решением вполне может стать аппаратно-программный комплекс на базе микрофонного массива.

С набором микрофонов всё просто: на корпусе робота их можно разместить там, где требуется. С программным обеспечением всё значительно сложнее. Дело в том, что работая с ушами, голова должна как минимум:

  • вырезать в услышанном речь робота;
  • очистить звук от шума;
  • определить, есть ли в услышанном и очищенном речь;
  • определить источник речи;
  • сформировать луч (по английски эта процедура называется beamforming), чтобы усилить исходный звуковой сигнал от источника;
  • распознать речь в звуковой дорожке после всех манипуляций.

Как правило, последний шаг выносится за пределы зоны ответственности микрофонного массива.

2d8e8f77f8d368eb6c00e2cffae50b93.jpg

Готовых решений на мировом рынке оказалось не так много. Наиболее перспективной нам показалась совместная разработка Японского исследовательского института Хонды и Киотского университета под названием HARK (Honda research institute Japan Audition for Robots with Kyoto university).

fcbb8549de0635ab33b54e956020e205.jpg

HARK изначально проектировалась для роботов, работающих в антропоморфной среде, где требуется услышать и разобрать команды от человека. Это ПО с открытым кодом можно было связать с Robot Operating System (ROS), процесс обработки звука с микрофонов легко настраивался. Дополнительным преимуществом стала заявленная возможность одновременного определения нескольких источников звука. Казалось, это то, что нам нужно! Японцы настолько очаровали нас своей разработкой, что мы скоропостижно перестали искать альтернативу.

Смертельные миллиметры звука

Для первых тестов в 2014 году мы использовали микрофонный массив RASP LC на 8 микрофонах. Четыре располагались на центральной части груди корпуса робота, вокруг экрана; три - на верхней части груди, ближе к шее; и один - сзади по центру, у основания шеи. Уже после первого теста мы выявили две проблемы критического уровня: вибрация и сложность расчётов.

89dca29813daca49524d1349e942bcec.jpg

Дело в том, что робот сам по себе – это механизм с огромным количеством движущихся деталей. И каждое движение создавало так называемые наводки на микрофон – фоновый шум, требующий постоянного анализа.

Вторая проблема заключалась в обработке полученных аудиоданных. Разработчики HARK заложили два принципиально разных подхода аналитики аудиопотоков. Первый назван геометрическим и сводится к точному (до десятых долей миллиметра) описанию расположения микрофонов в пространстве с учетом их направлений. Второй, без специального названия, опирается на калибровочную модель. Её создают путем многократной записи через массив одной и той же записи с разных точек пространства вокруг массива.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Магний в рационе: 10 продуктов, которые стоит есть женщинам после 50 лет Магний в рационе: 10 продуктов, которые стоит есть женщинам после 50 лет

В каких продуктах магния больше всего

Популярная механика
Слышат ли нас растения Слышат ли нас растения

Полезны ли разговоры с растениями?

Популярная механика
«Осторожно, в небе металлолом» — Что делают со старыми авиалайнерами «Осторожно, в небе металлолом» — Что делают со старыми авиалайнерами

Почему пассажирские авиалайнеры так рано списывают?

ТехИнсайдер
Разрыв шаблона Разрыв шаблона

Крокодилы оказались птицами, а киты — родственниками лошадей

Вокруг света
Груминг: что это такое и как авторитет и статус становятся инструментами насилия Груминг: что это такое и как авторитет и статус становятся инструментами насилия

Чем груминг отличается от растления или домогательства?

Psychologies
Опять двойка: Водянова, Керри и другие звезды, которые плохо учились в школе Опять двойка: Водянова, Керри и другие звезды, которые плохо учились в школе

Чтобы достичь успеха в жизни, совсем не обязательно быть отличником в школе

Cosmopolitan
От Maybach с золотом до BMW из вторсырья: 7 необычных концепт-каров От Maybach с золотом до BMW из вторсырья: 7 необычных концепт-каров

Концепт-кары Мюнхенского автосалона

РБК
Эффект шепчущей галереи помог создать активную акустическую среду Эффект шепчущей галереи помог создать активную акустическую среду

Физики построили резонатор на модах шепчущей галереи

N+1
На лице написано На лице написано

Чем помогут косметологи, если нужно добиться внимания окружающих

Tatler
«Теряюсь, когда на меня кричат»: как защитить себя в стрессовых ситуациях? «Теряюсь, когда на меня кричат»: как защитить себя в стрессовых ситуациях?

Почему мы приходим в замешательство и не можем себя защитить?

Psychologies
В новом цвете В новом цвете

5 простых способов креативного окрашивания стен

Лиза
Ностальгия по лету: ироничные комиксы, в которых себя узнает каждая девушка Ностальгия по лету: ироничные комиксы, в которых себя узнает каждая девушка

Эпичные жизненные ситуации, с которыми сталкиваются девушки летом

Cosmopolitan
Гардероб взаймы: как развивается аренда одежды и что она может дать мужской моде Гардероб взаймы: как развивается аренда одежды и что она может дать мужской моде

Разбираемся, почему в последнее время возникает все больше рентал-сервисов

Esquire
5 необычных вещей, которые массово воруют в разных странах 5 необычных вещей, которые массово воруют в разных странах

Что воруют в США, Новой Зеландии, Венесуэле и Италии?

Maxim
Соседи из будущего Соседи из будущего

Профессии, которые в будущем могут принадлежать роботам

Вокруг света
Или Цезарь ‒ или ничто Или Цезарь ‒ или ничто

Цезарь и печенье с шоколадной крошкой: блюда, появившиеся случайным образом

Psychologies
Войти в колею Войти в колею

Что такое послеотпускной синдром и как его преодолеть

Лиза
Терраформирование Марса: можно ли вдохнуть жизнь в пески Красной планеты? Терраформирование Марса: можно ли вдохнуть жизнь в пески Красной планеты?

Насколько реально терраформирование Красной планеты

Популярная механика
Что такое броулифт: пугающая техника, которой исправляют татуаж Что такое броулифт: пугающая техника, которой исправляют татуаж

Неудачный перманентный макияж бровей не такая уж редкая история

Cosmopolitan
А я не согласна! А я не согласна!

В каких ситуация стоит спорить с начальством, а в каких разумнее промолчать?

Лиза
«Муж начал рыдать на моих родах, и мне пришлось его выгнать из палаты» «Муж начал рыдать на моих родах, и мне пришлось его выгнать из палаты»

Иногда успокаивать приходится вовсе не рожениц, а будущих отцов

Psychologies
Вечность между нами Вечность между нами

Художник Чжан Хуань готовится к большому путешествию на другие планеты

Harper's Bazaar
По следам суперпаводков Алтая По следам суперпаводков Алтая

Какая сила требовалась для того, чтобы создать огромные природные террасы?

Наука и жизнь
20 лет теракту 11 сентября. Вспоминаем этот день в 20 фотографиях 20 лет теракту 11 сентября. Вспоминаем этот день в 20 фотографиях

11 сентября 2001 года в Нью-Йорке был совершен крупнейший теракт в истории

Esquire
Грустные истории журнала «Ералаш»: 6 трагических судеб звёзд киножурнала Грустные истории журнала «Ералаш»: 6 трагических судеб звёзд киножурнала

6 актёров «Ералаша», чья судьба сложилась трагически

Cosmopolitan
Квантовая теория против гравитации: неужели они в самом деле так отличаются? Квантовая теория против гравитации: неужели они в самом деле так отличаются?

Как примирить два противоречивых столпа современной физики?

Популярная механика
Как перестать быть вежливым и полюбить безумное порно Как перестать быть вежливым и полюбить безумное порно

О реконструкции непристойности в фильме Раду Жуде «Безумное кино для взрослых»

Weekend
«Язык не поворачивался назвать ее мамой». Истории сироты и матери, лишенной ребенка «Язык не поворачивался назвать ее мамой». Истории сироты и матери, лишенной ребенка

Почему детям лучше оставаться в родной семье? Реальные истории

СНОБ
Правила жизни Гарри Бардина Правила жизни Гарри Бардина

Правила жизни советского мультипликатора Гарри Бардина

Esquire
Ваня Дмитриенко: «Я чувствую себя победителем» Ваня Дмитриенко: «Я чувствую себя победителем»

Как Ваня Дмитриенко стал открытием 2021-го года

Esquire
Открыть в приложении