Какой размерности должно быть пространство признаков, позволяющих отличать лица?

N+1Наука

Вупи Голдберг в векторах: оцениваем размерность пространства лиц

Денис Федосеев, математик

Всякий раз, когда мы включаем телефон и глядим в камеру, ему приходится решать сложную задачу: понять, его ли хозяин сейчас пытается его включить. По сути, это один из самых близких нам сейчас примеров задачи распознавания образов. Ее можно сформулировать так: пусть у нас имеется большая библиотека фотографий лиц разных людей в разных ракурсах. Как по новой фотографии лица определить, принадлежит ли она кому-то из людей в библиотеке, и если да, то кому именно? Математик Денис Федосеев с мехмата МГУ и его коллеги попытались выяснить, какой размерности должно быть пространство признаков, которые позволят отличить Вупи Голдберг от Шона Коннери.

Чтобы решать задачу распознавания лиц при помощи компьютера, нужно сперва закодировать фотоснимки каким-то понятным компьютеру методом. Конечно, всякая картинка в памяти компьютера уже представлена некоторым кодом — например, многомерным вектором, где каждой его компоненте соответствует пиксель на картинке, а значение компоненты — это, например, представление цвета этого пикселя. Но у такой кодировки есть проблема: коды фотографий одного и того же человека, вообще говоря, не будут иметь между собой ничего общего. Потому что человек-то один, но сами картинки выглядят очень по-разному.

Решение этой проблемы пришло с развитием нейросетей. Не вдаваясь в подробности можно сказать, что нейросеть можно представлять как некий черный ящик, кодирующий фотографии «разумным образом»: так, что фотографии одного и того же человека получают хоть и разные, но в каком-то смысле похожие коды. Говоря более точно, нейросеть сопоставляет каждой фотографии точку в пространстве некоторой большой размерности, причем расстояния между точками, соответствующими одному человеку, достаточно малы по сравнению с размерами полученного облака точек, а точки, отвечающие разным людям, наоборот, более далеки друг от друга.

Лица в векторах

Итак, непонятные фотографии превращены в точки с учетом их принадлежности людям. Но теперь нужно разобраться, в каком смысле они «близки» или «далеки». В самом деле, рассмотрим простой пример. Пусть пространство, в котором живут полученные точки, двумерное — это плоскость. И пусть точки оказались размещены на спирали.

Расстояние на плоскости между красной и желтой точками — длина соединяющего их отрезка — меньше, чем расстояние между желтой и синей. Но если идти вдоль спирали, желтая точка окажется гораздо ближе к синей, чем к красной.

Значит, чтобы решить задачу распознавания образов, нужно понять, какую геометрию имеет множество точек, построенное нейросетью. Вопрос осложняется еще и тем, что объемлющее пространство, в котором живут точки, как правило имеет огромную размерность. Например, некоторые из стандартных в индустрии нейросетей (скажем, ResNet50 и ResNet100) работают с пространством размерности 512. Чтобы понять, насколько это необозримо, приведу пример: возьмем точку в 512-мерном пространстве и для каждой ее координаты скажем только, положительная она или отрицательная. Получим 2512 вариантов, что больше числа атомов в наблюдаемой части Вселенной. То есть для такой размерности даже простейшая попытка классифицировать точки по знаку координат обречена на провал.

К счастью, специалистами в этой науке давно сформулирована — и хотя и не доказана, но многократно экспериментально подтверждена, — так называемая «Гипотеза о многообразии». Она гласит, что точки, полученные из реального мира (например, как говорилось выше, из фотографий людей), сосредоточены в объемлющем пространстве вблизи некоторого многообразия существенно меньшей размерности. И геометрию этого-то многообразия и нужно определить, чтобы эффективно решать задачу распознавания.

Лоскутное одеяло

Многообразие — это, говоря неформально, многомерный «разумный» аналог кривой или поверхности. Пусть, например, у нас есть плоскость, двумерный объект. Если мы вырежем из нее маленький кусочек, получим так называемый двумерный диск. Разрешим себе изгибать этот диск — главное его не разрывать и не склеивать его точки. Теперь будем склеивать из таких изогнутых дисков «лоскутное одеяло». Полученный объект уже может быть устроен «хитрее» диска. Например, из двух изогнутых листов можно склеить сферу, которая на диск совсем не похожа. Это и есть неформальное описание устройства многообразия. В общем случае вместо двумерного диска — кусочка плоскости — нужно брать диски многомерные, кусочки многомерного пространства фиксированной размерности.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

«Наука о чужих. Как ученые объясняют возможность жизни на других планетах» «Наука о чужих. Как ученые объясняют возможность жизни на других планетах»

Как инопланетян начали искать с помощью радиотелескопов

N+1
Роалд Хоффманн: Как пережить нобелевскую премию Роалд Хоффманн: Как пережить нобелевскую премию

Роалда Хоффманна мы знаем не только как химика-теоретика

Наука и жизнь
Раскрыт нейронный механизм, который связывает рабочую и долговременную память Раскрыт нейронный механизм, который связывает рабочую и долговременную память

Ученые нашли нейроны гиппокампа, которые отвечают за рабочую и долгую память

ТехИнсайдер
Не перейти черту Не перейти черту

Как научиться защищать свои личные границы

Лиза
Первая минута Первая минута

Как заставить начало разговора работать на результат

kiozk originals
Зубная боль: как защититься от некачественных материалов у стоматолога Зубная боль: как защититься от некачественных материалов у стоматолога

Какие технологии чаще всего подделывают в стоматологиях?

Популярная механика
История о том, как астронавт НАСА чуть не утонул в скафандре во время выхода в открытый космос История о том, как астронавт НАСА чуть не утонул в скафандре во время выхода в открытый космос

Гаррет Райзман едва не стал первым космонавтом, утонувшим в космосе

Популярная механика
Беспроигрышная лотерея Беспроигрышная лотерея

Зачем аналитики и экономисты делают неверные прогнозы и не останавливаются

Forbes
Покорить вершину: такие разные истории успеха в спорте Покорить вершину: такие разные истории успеха в спорте

Подборка книг о победах и поражениях в спорте

Популярная механика
«Работать настолько приятно, что деньги неважны»: кем был создатель «теории потока» Михай Чиксентмихайи «Работать настолько приятно, что деньги неважны»: кем был создатель «теории потока» Михай Чиксентмихайи

История американского психолога Михая Чиксентмихайи

VC.RU
Как отключить быструю зарядку и зачем это нужно Как отключить быструю зарядку и зачем это нужно

Функция быстрой зарядки нужна не всегда и зачастую она лишь вредит аккумулятору

CHIP
Погружение в Африку Погружение в Африку

Маршрут доктора Дэвида Ливингстона вглубь Африки спустя 160 лет

Вокруг света
Сыр с одной шутки: история семейной сыроварни «Папа-сыровар» Сыр с одной шутки: история семейной сыроварни «Папа-сыровар»

Основатели «Папа-сыровар» — о недоверии поставщиков и поиске нужного молока

Inc.
Мал, да удал: короткометражки Дэвида Линча и других известных режиссеров Мал, да удал: короткометражки Дэвида Линча и других известных режиссеров

Неизвестные короткометражки знаменитых режиссеров

Cosmopolitan
Как стать разведчиком: тесты на выявление предубеждений и конформизма Как стать разведчиком: тесты на выявление предубеждений и конформизма

Солдаты идут туда, куда им велели, а разведчики выясняют, надо ли туда идти

Forbes
Цифровое бессмертие: что будет с аккаунтами в iCloud и соцсетях после смерти Цифровое бессмертие: что будет с аккаунтами в iCloud и соцсетях после смерти

Что такое цифровое "наследство"?

Playboy
В Австрии обнаружили следы рудокопов кельтского и римского периодов В Австрии обнаружили следы рудокопов кельтского и римского периодов

Добыча металлов в долине Монтафон началась в III–II веках до нашей эры

N+1
Гендер делу не помеха: женщина, бывший топ-менеджер Google, о предрассудках на работе Гендер делу не помеха: женщина, бывший топ-менеджер Google, о предрассудках на работе

Различие гендеров у фаундеров приводит к улучшению бизнес-показателей

Inc.
Кровавый долг и кровная месть. Отрывок из книги врача-гематолога Кровавый долг и кровная месть. Отрывок из книги врача-гематолога

Книга гематолога «История крови. От первобытных ритуалов к научным открытиям»

СНОБ
Земля – Орбита. Как отправить свое имя в космос? Земля – Орбита. Как отправить свое имя в космос?

Пластина — 10 на 15 мм, а имен — 22 772. Как всё уместить, Карл?

Популярная механика
Социальное — это для всех: почему соцсектор не должен оставаться женской сферой Социальное — это для всех: почему соцсектор не должен оставаться женской сферой

У женщин и правда есть некий «ген доброты»?

Forbes
«Воздушные ворота Ленинграда»: как строился аэровокзал «Пулково» — модернистское здание 70-х, получившее в народе прозвище «пять стаканов» «Воздушные ворота Ленинграда»: как строился аэровокзал «Пулково» — модернистское здание 70-х, получившее в народе прозвище «пять стаканов»

Отрывок из книги «Ленинград: архитектура советского модернизма. 1955−1991»

Esquire
Рогохвост… предприимчивый Рогохвост… предприимчивый

Пленником янтаря оказалось крайне редкое насекомое

Наука и жизнь
Мой ласковый и нежный сталкер: история женщины, для которой преследователь стал единственным родным человеком Мой ласковый и нежный сталкер: история женщины, для которой преследователь стал единственным родным человеком

Историю девушки, которая искала смысл жизни, а нашла телефонного маньяка

Esquire
Вива, Виктория! Вива, Виктория!

Виктория Мирошниченко — о мастерстве перевоплощения и сибирских травах

Grazia
Это Элви Рэй Смит: он мечтал создать анимационный фильм на компьютере, соосновал Pixar, но ушёл из компании из-за Джобса Это Элви Рэй Смит: он мечтал создать анимационный фильм на компьютере, соосновал Pixar, но ушёл из компании из-за Джобса

Элви Рэй Смит убеждал всех, что за компьютерной графикой будущее

VC.RU
Российские ученые передали квантовый сигнал вместе с классическим по одному оптоволокну Российские ученые передали квантовый сигнал вместе с классическим по одному оптоволокну

Российские ученые осуществили квантовую генерацию ключей

N+1
Японские макаки оказались любителями зимней рыбалки Японские макаки оказались любителями зимней рыбалки

Японские макаки из долины Камикочи научились ловить рыбу

N+1
Генетики нашли предков иберийцев ранней бронзы в Центральной Европе Генетики нашли предков иберийцев ранней бронзы в Центральной Европе

Около 4200 лет назад в Южную Испанию пришли мигранты со степным происхождением

N+1
Интерес вместо страха Интерес вместо страха

Как гибридный формат работы влияет на управление людьми

РБК
Открыть в приложении