Какой размерности должно быть пространство признаков, позволяющих отличать лица?

N+1Наука

Вупи Голдберг в векторах: оцениваем размерность пространства лиц

Денис Федосеев, математик

Всякий раз, когда мы включаем телефон и глядим в камеру, ему приходится решать сложную задачу: понять, его ли хозяин сейчас пытается его включить. По сути, это один из самых близких нам сейчас примеров задачи распознавания образов. Ее можно сформулировать так: пусть у нас имеется большая библиотека фотографий лиц разных людей в разных ракурсах. Как по новой фотографии лица определить, принадлежит ли она кому-то из людей в библиотеке, и если да, то кому именно? Математик Денис Федосеев с мехмата МГУ и его коллеги попытались выяснить, какой размерности должно быть пространство признаков, которые позволят отличить Вупи Голдберг от Шона Коннери.

Чтобы решать задачу распознавания лиц при помощи компьютера, нужно сперва закодировать фотоснимки каким-то понятным компьютеру методом. Конечно, всякая картинка в памяти компьютера уже представлена некоторым кодом — например, многомерным вектором, где каждой его компоненте соответствует пиксель на картинке, а значение компоненты — это, например, представление цвета этого пикселя. Но у такой кодировки есть проблема: коды фотографий одного и того же человека, вообще говоря, не будут иметь между собой ничего общего. Потому что человек-то один, но сами картинки выглядят очень по-разному.

Решение этой проблемы пришло с развитием нейросетей. Не вдаваясь в подробности можно сказать, что нейросеть можно представлять как некий черный ящик, кодирующий фотографии «разумным образом»: так, что фотографии одного и того же человека получают хоть и разные, но в каком-то смысле похожие коды. Говоря более точно, нейросеть сопоставляет каждой фотографии точку в пространстве некоторой большой размерности, причем расстояния между точками, соответствующими одному человеку, достаточно малы по сравнению с размерами полученного облака точек, а точки, отвечающие разным людям, наоборот, более далеки друг от друга.

Лица в векторах

Итак, непонятные фотографии превращены в точки с учетом их принадлежности людям. Но теперь нужно разобраться, в каком смысле они «близки» или «далеки». В самом деле, рассмотрим простой пример. Пусть пространство, в котором живут полученные точки, двумерное — это плоскость. И пусть точки оказались размещены на спирали.

Расстояние на плоскости между красной и желтой точками — длина соединяющего их отрезка — меньше, чем расстояние между желтой и синей. Но если идти вдоль спирали, желтая точка окажется гораздо ближе к синей, чем к красной.

Значит, чтобы решить задачу распознавания образов, нужно понять, какую геометрию имеет множество точек, построенное нейросетью. Вопрос осложняется еще и тем, что объемлющее пространство, в котором живут точки, как правило имеет огромную размерность. Например, некоторые из стандартных в индустрии нейросетей (скажем, ResNet50 и ResNet100) работают с пространством размерности 512. Чтобы понять, насколько это необозримо, приведу пример: возьмем точку в 512-мерном пространстве и для каждой ее координаты скажем только, положительная она или отрицательная. Получим 2512 вариантов, что больше числа атомов в наблюдаемой части Вселенной. То есть для такой размерности даже простейшая попытка классифицировать точки по знаку координат обречена на провал.

К счастью, специалистами в этой науке давно сформулирована — и хотя и не доказана, но многократно экспериментально подтверждена, — так называемая «Гипотеза о многообразии». Она гласит, что точки, полученные из реального мира (например, как говорилось выше, из фотографий людей), сосредоточены в объемлющем пространстве вблизи некоторого многообразия существенно меньшей размерности. И геометрию этого-то многообразия и нужно определить, чтобы эффективно решать задачу распознавания.

Лоскутное одеяло

Многообразие — это, говоря неформально, многомерный «разумный» аналог кривой или поверхности. Пусть, например, у нас есть плоскость, двумерный объект. Если мы вырежем из нее маленький кусочек, получим так называемый двумерный диск. Разрешим себе изгибать этот диск — главное его не разрывать и не склеивать его точки. Теперь будем склеивать из таких изогнутых дисков «лоскутное одеяло». Полученный объект уже может быть устроен «хитрее» диска. Например, из двух изогнутых листов можно склеить сферу, которая на диск совсем не похожа. Это и есть неформальное описание устройства многообразия. В общем случае вместо двумерного диска — кусочка плоскости — нужно брать диски многомерные, кусочки многомерного пространства фиксированной размерности.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

«Мораль. О восстановлении общего блага в эпоху разобщенности» «Мораль. О восстановлении общего блага в эпоху разобщенности»

Чем опасны одиночество и социальная изоляция

N+1
Дэя: «Эстрада - сказка, в которой мне всегда хотелось жить» Дэя: «Эстрада - сказка, в которой мне всегда хотелось жить»

Родители, заметив мою способность, подумали: из нее точно получится певица

Караван историй
Сначала птерозавры лазали по деревьям и только потом поднялись в небо Сначала птерозавры лазали по деревьям и только потом поднялись в небо

Конечности птерозавров ранней мезозойской эры приспособлены для деревьев

ТехИнсайдер
Все виды камер на дорогах: как выглядят, за что штрафуют (памятка) Все виды камер на дорогах: как выглядят, за что штрафуют (памятка)

Все о комплексах видеофиксации, работающих на дорогах России

РБК
Менкипинг: как жены становятся «бесплатными психологами» для мужей и почему так происходит Менкипинг: как жены становятся «бесплатными психологами» для мужей и почему так происходит

Почему мужчины обращаются к своим женам, а не к психологам?

Psychologies
Китайские, глобальные и российские смартфоны Xiaomi: чем они отличаются? Китайские, глобальные и российские смартфоны Xiaomi: чем они отличаются?

Чем отличаются версии Xiaomi для разных рынков?

CHIP
Звук помог пленить спин Звук помог пленить спин

Физики исследовали эффект когерентного пленения спина

N+1
Бурак Озчивит и Фахрие Эвджен: совместимость звездной пары разбирает астролог Бурак Озчивит и Фахрие Эвджен: совместимость звездной пары разбирает астролог

Бурак и Фахрие - одни из самых популярных актеров турецких сериалов

Cosmopolitan
«Купила 5 купальников, и все открытые»: псориаз мешал мне жить, но я справилась «Купила 5 купальников, и все открытые»: псориаз мешал мне жить, но я справилась

История Зарины, которая смогла вывести псориаз в ремиссию

Cosmopolitan
Электрический двигатель на йоде впервые испытали в космосе Электрический двигатель на йоде впервые испытали в космосе

Электрический двигатель на йоде впервые был установлен на спутнике-кубсате

N+1
Космические дожди: опасно ли это для человека Космические дожди: опасно ли это для человека

Земля подвергается космической бомбардировке…

Популярная механика
Тюнинг Тюнинг

Калаш хорош, но его можно сделать еще лучше

Популярная механика
Зоологи подтвердили существование городской популяции леопардов в Сеуле в конце XIX века Зоологи подтвердили существование городской популяции леопардов в Сеуле в конце XIX века

Крупные кошки в Сеуле охотились на собак, а днем прятались среди растительности

N+1
Как найти подходящего психолога Как найти подходящего психолога

Как найти своего психолога, потратив минимум финансов, времени и сил

GQ
Астрономы недосчитались космических лучей в центральной молекулярной зоне Астрономы недосчитались космических лучей в центральной молекулярной зоне

Барьер препятствует проникновению космических лучей в центр нашей галактики

N+1
Дмитрий Блинов Дмитрий Блинов

Как гостю и ресторатору выйти сухими из бурлящих вод комментов и отзывов

Собака.ru
Не только для расслабления Не только для расслабления

Болезни, которые может предотвратить массаж

Лиза
Толстеть или худеть: как вес влияет на женское здоровье – объясняет гинеколог Толстеть или худеть: как вес влияет на женское здоровье – объясняет гинеколог

Так ли важно женщине следить за килограммами?

Cosmopolitan
Как строили Бурдж-Халифа и почему он до сих пор не упал: занимательное видео Как строили Бурдж-Халифа и почему он до сих пор не упал: занимательное видео

Как строили высочайшее здание в мире — Бурдж-Халифа

Популярная механика
5 ситуаций, в которых лучше сдаться, чем продолжать борьбу 5 ситуаций, в которых лучше сдаться, чем продолжать борьбу

Адаптивность и гибкость мышления — показатели здоровой психики

Psychologies
Джентльмен удачи Джентльмен удачи

Александр Цыпкин – писатель, сценарист, а с недавних пор и актер дает советы

Playboy
Сколько приносит майнинг-ферма в месяц? Окупаемость и доходность Сколько приносит майнинг-ферма в месяц? Окупаемость и доходность

Обустройство фермы для майнинга Ethereum

CHIP
Что фильм «Злые и красивые» Миннелли рассказал об изнанке Голливуда Что фильм «Злые и красивые» Миннелли рассказал об изнанке Голливуда

Что можно узнать о Голливуде и его изнанке из фильма «Злые и красивые»

РБК
Углекислый газ выступил катализатором получения амидов Углекислый газ выступил катализатором получения амидов

Ученые предложили экологичный и дешевый метод переамидирования

N+1
Женщина-легенда: почему все фашисты боялись санитарку Марию Байду Женщина-легенда: почему все фашисты боялись санитарку Марию Байду

Подвиг санитарки Марии Байда остался в памяти людей навсегда

Cosmopolitan
Не рыба, но удочка Не рыба, но удочка

Ирина Ладыгина об особых студентах «Большой перемены»

ПУСК
Монетный сор: что не так с созданной последователями Дурова криптовалютой Toncoin Монетный сор: что не так с созданной последователями Дурова криптовалютой Toncoin

Что такое Toncoin и что с ней не так?

Forbes
Батут в гримерке и еще 5 интересных фактов о Дэнни Де Вито Батут в гримерке и еще 5 интересных фактов о Дэнни Де Вито

Дэнни Де Вито несмотря на маленькой рост смог стать всемирным любимцем

Maxim
Надёжная опора Надёжная опора

Частые проблемы, с которыми обращаются к подологу

Здоровье
Жизнь после CEO: уйти, чтобы остаться Жизнь после CEO: уйти, чтобы остаться

Иногда уйти — это лучший способ остаться

Inc.
Открыть в приложении