Как искусственный интеллект работает со звуком

Популярная механикаHi-Tech

С машинами на одном языке: как компьютеры «слышат» музыку и для чего используют этот навык

Эксперименты с генерацией музыки с помощью искусственного интеллекта начались еще в 50-х годах прошлого века. С тех пор нейросети научились «понимать» и распознавать песни, определять наши вкусы в стриминговых сервисах и даже писать музыкальные произведения на основании данных о движении небесных тел. Как искусственный интеллект работает со звуком и какие прорывные продукты, созданные «кибер-композиторами», мы будем использовать в будущем, рассказывают специалисты «Яндекса».

Как компьютер «видит» звук?

Чтобы машина могла распознать или даже написать мелодию, ей необходимо познакомиться с сотнями музыкальных примеров. Но как поместить звук внутрь компьютерной нейросети, каким образом она может их воспринять? Вспомним учебник физики за девятый класс: источником звука всегда является колеблющееся тело. Это может быть мембрана барабана, натянутая струна или диффузор динамика в наших колонках. Колебания этих тел передаются по воздуху в виде множества волн, попадают на барабанную перепонку человека, раздражают окончания слуховых нервов, и мы слышим звук.

У машины этот процесс протекает иначе. Чтобы она «услышала» музыку, ее нужно преобразовать в набор цифр, понятный компьютеру. Преобразование в цифровой код происходит благодаря процессам дискретизации и квантования. Информация приходит в компьютер в виде непрерывной звуковой волны, «переведенной» в электрический ток. Чтобы описать ее на языке цифр, специальный преобразователь «нарезает» эту волну на очень маленькие отрезки длиной в несколько миллисекунд. Это дискретизация — процесс, когда непрерывная волна становится поделенной на части, то есть дискретной. Однако даже в самых крохотных отрезках звук представляет собой продолжительный кусочек волны. Для удобства преобразователь «округляет» его значения, измеренные во время дискретизации, и представляет в виде точки. Такой процесс называется квантованием.

В итоге вся волна превращается в набор точек, которым остается только присвоить цифровые коды. Другими словами, мы получаем большой набор цифр, описывающий каждый фрагмент песни. Эти числа можно внести в одну большую таблицу, а можно отобразить наглядно в виде спектрограммы. Так называют графическое изображение звуков в системе координат, где по вертикальной оси располагаются звуковые частоты (от высоких звуков до низких), а по горизонтальной — время. Чем теплее и ярче цвет на спектрограмме, тем интенсивнее звук в этом месте. Описать спектрограмму словами непросто, так что лучше сразу посмотрите, как она выглядит.

06b98161ad1203ae0bfc1ef4cbccf906.png
wikipedia.org

Еще более наглядное объяснение этого процесса дается в рамках «Урока Цифры» от Яндекса — «Цифровое искусство: музыка и IT». В этом проекте эксперты компании рассказывают о музыкальной оцифровке, теории звука, системах рекомендаций в медиасервисах, а после теоретической части участники могут попробовать самостоятельно продолжить композицию. Уроки и задания предназначены для школьников, но взрослым они тоже будут интересны.

Как ИИ распознает музыку и рекомендует песни?

Способность искусственного интеллекта представлять музыку цифровым кодом нашла практическое применение в нашей жизни. Именно благодаря спектрограммам нейросети анализируют и распознают музыку, чтобы, например, с помощью Shazam находить похожие треки. Когда приложение «слышит» композицию, оно сравнивает ее спектрограмму со множеством других из базы данных и отыскивает совпадения. При этом искусственный интеллект распознает мелодию даже сквозь помехи вроде голосов за соседним столиком или шума машин.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

5 полезных привычек, которые помогут экономить 5 полезных привычек, которые помогут экономить

Эти советы позволят вам не тратить лишние деньги, которых так часто не хватает

Популярная механика
Ошибка с библиотекой msvcp140.dll: как от нее избавиться Ошибка с библиотекой msvcp140.dll: как от нее избавиться

Ошибка библиотеки msvcp140.dll: что это за ошибка, и как ее исправить

CHIP
Почему капитанский мостик находится в корме, если с носа обзор лучше Почему капитанский мостик находится в корме, если с носа обзор лучше

Где должен быть установлен капитанский мостик — на корме или на носу корабля?

ТехИнсайдер
Открытый свету Открытый свету

Небольшой садовый домик с летней террасой

Идеи Вашего Дома
Почему вам может быть трудно переключаться между задачами Почему вам может быть трудно переключаться между задачами

Почему у нас так плохо получается работать в режиме многозадачности?

ТехИнсайдер
Авария на АПЛ «Комсомолец»: как экипажу удалось спастись с подводной лодки Авария на АПЛ «Комсомолец»: как экипажу удалось спастись с подводной лодки

Кто не знает выражения «Куда ты денешься с подводной лодки?»

ТехИнсайдер
Не опустевшее гнездо Не опустевшее гнездо

Почему иногда подросшие «птенцы» не покидают родительский дом?

Psychologies
«Познакомьтесь с собой. Как гены, микробы и нейроны делают нас теми, кто мы есть» «Познакомьтесь с собой. Как гены, микробы и нейроны делают нас теми, кто мы есть»

До какой степени наши привычки и склонности опираются на генетику

N+1
Молодой мужчина бронзового века страдал от хронического аппендицита Молодой мужчина бронзового века страдал от хронического аппендицита

Палеопатологи исследовали останки индивида из Чехии

N+1
18 самых непростительных и дурацких ошибок, которые каждый совершает на кухне 18 самых непростительных и дурацких ошибок, которые каждый совершает на кухне

Проверь, что ты делаешь не так на кухне, и запомни, как делать все так

Maxim
Что гравитационные волны рассказали нам о Вселенной Что гравитационные волны рассказали нам о Вселенной

Гравитационных волны помогли решить загадки эволюции галактик

Популярная механика
Отбойник из рога позволил археологам воспроизвести листовидные наконечники Отбойник из рога позволил археологам воспроизвести листовидные наконечники

Ученые исследовали артефакты начала верхнего палеолита, найденные на Алтае

N+1
Тайные и явные факты о фильме «V — значит вендетта» Тайные и явные факты о фильме «V — значит вендетта»

Твой любимый фильм о подполье, сопротивлении и добровольном ношении масок

Maxim
Как, когда и на какую нужно менять тормозную жидкость Как, когда и на какую нужно менять тормозную жидкость

Как работает тормозная жидкость, опасна ли она для вас или машины?

РБК
Что едят беременные? Секреты сбалансированного питания Что едят беременные? Секреты сбалансированного питания

Как питаться при беременности, чтобы меню было полезно для всех

9 месяцев
Проси так, чтобы точно сбылось: 10 секретов для исполнения желаний Проси так, чтобы точно сбылось: 10 секретов для исполнения желаний

Мы узнали у эзотерика, как правильно попросить исполнения желания

VOICE
Инспецы: как во времена Великой депрессии иностранцы ехали в СССР Инспецы: как во времена Великой депрессии иностранцы ехали в СССР

Эти люди бежали из других стран в СССР в надежде спрятаться от Великой депрессии

Cosmopolitan
Нужно ли покупать ребенку мотоцикл: советы для тех, чей сын мечтает об экстремальном спорте Нужно ли покупать ребенку мотоцикл: советы для тех, чей сын мечтает об экстремальном спорте

Основоположник FMX в России — про детский мотоспорт и выбор экипировки

Популярная механика
Из углеродных нанотрубок сделали невесомую броню, которая прочнее кевлара Из углеродных нанотрубок сделали невесомую броню, которая прочнее кевлара

Инженеры создали новый тип сверхлегкого броневого материала

Популярная механика
36 лучших цитат об изменениях, которые помогут тебе двигаться вперед 36 лучших цитат об изменениях, которые помогут тебе двигаться вперед

Что бы ты ни делала, все твои труды будут вознаграждены, а цели - достигнуты

Cosmopolitan
Физики научились хранить кубиты с временным кодированием 20 миллисекунд Физики научились хранить кубиты с временным кодированием 20 миллисекунд

Физики продемонстрировали работу квантовой памяти для хранения кубитов

N+1
Грандиозные и уязвимые: что такое нарциссизм и нужно ли его бояться Грандиозные и уязвимые: что такое нарциссизм и нужно ли его бояться

Кто такие люди-нарциссы и всегда ли нужно рвать с ними отношения?

Forbes
От ткацкого станка к ЭВМ: кто придумал перфокарты, которые легли в основу компьютеров От ткацкого станка к ЭВМ: кто придумал перфокарты, которые легли в основу компьютеров

Перфокарты – предки дискет, дисков, винчестеров, флеш-памяти

ТехИнсайдер
Как эмигрировать и не пожалеть: 5 ошибок, которые легко совершить Как эмигрировать и не пожалеть: 5 ошибок, которые легко совершить

С какими подводными камнями можно столкнуться, начав новую жизнь в другой стране

Psychologies
Что едят Наоми Кэмпбелл и другие топ-модели на ужин — 10 рецептов Что едят Наоми Кэмпбелл и другие топ-модели на ужин — 10 рецептов

Ужинать можно и нужно: знаменитости подсказывают, что они едят на ужин

VOICE
Осторожно: амфибии! Осторожно: амфибии!

Наступает весна, тысячи жаб, лягушек и тритонов отправляются на нерест в водоёмы

Наука и жизнь
Как еще можно использовать средство для мытья посуды: 10 полезных способов, о которых вы не знали Как еще можно использовать средство для мытья посуды: 10 полезных способов, о которых вы не знали

Жидкость для мытья посуды можно использовать не по назначению

Популярная механика
Два секрета молодой кожи японок: просто и гениально! Два секрета молодой кожи японок: просто и гениально!

Как девушки из Японии поддерживают красоту своей кожи?

VOICE
Как понять свои ограничения и найти новые ресурсы Как понять свои ограничения и найти новые ресурсы

В реализации задуманного чаще всего мешают установки, заложенные в детстве

Psychologies
Америку открыл Колумб, но почему это не отразилось в её названии? Америку открыл Колумб, но почему это не отразилось в её названии?

Почему Новый Свет не назван в честь Христофора Колумба?

Популярная механика
Открыть в приложении