Как и зачем исследовать логику нейросетей

N+1Hi-Tech

Внимание, черный ящик. Как и зачем исследовать логику нейросетей

Как и зачем исследовать логику нейросетей

Григорий Копиев

Прогресс в машинном обучении, достигнутый за последнее десятилетие, подарил нам как множество новых возможностей, так и неочевидные проблемы: модели машинного обучения стали настолько сложными и большими, что понять логику их действий все труднее. Вместе с Yandex Research, который проводит исследования машинного обучения мирового уровня, рассказываем, как разработчики изучают современные ML-алгоритмы — и почему это стоит делать, даже если они работают хорошо.

Начало обучения

Нейросети на слуху последние несколько лет. Может показаться, что это новый тип алгоритмов. Отчасти так оно и есть: многие архитектуры нейросетей, успевшие стать классическими, появились лишь несколько лет назад. Но идея повторить в машине принцип работы нейронных сетей была реализована на самой заре машинного обучения.

В конце 1950-х годов Фрэнк Розенблатт описал и реализовал «в железе» перцептрон — простейшую архитектуру искусственных нейросетей, которая заложила основу для современных нейросетей (а многослойные перцептроны широко применяются до сих пор).

Розенблатт показал работу перцептрона, обучив его распознавать знаки и символы, что для 1958 года было серьезным успехом. Но, пожалуй, главное достижение и следствие этого заключалось в укреплении идеи, что для создания машины инженеру не нужно вручную прописывать набор правил — они могут родиться сами в виде весов во время обучения.

В дальнейшем ученые придумывали все новые и новые архитектуры моделей машинного обучения, причем не только нейросетевые. И хотя математические операции внутри моделей по отдельности оставались понятными, их количество и взаимное влияние усложняло анализ работы алгоритмов.

Старший исследователь Yandex Research Андрей Малинин объясняет: «Представьте огромный часовой механизм размером с небоскреб, внутри которого крутятся миллиарды шестеренок размером в ноготь — все красиво крутится, но ничего не понятно. Мы можем посмотреть на какой-то локальный кусочек с парой шестеренок, и вроде ясно, как в нем все работает, но неясно, как это встраивается в механизм в целом».

Современная эра

В 2012 году в развитии машинного обучения наметился прорыв, связанный с нейросетью AlexNet. Это сверточная нейросеть для классификации изображений из датасета ImageNet, в котором содержится более 15 миллионов изображений объектов, разбитых на 22 тысячи категорий. Задача бенчмарка ImageNet — определить класс объекта на фотографии. AlexNet удалось выиграть соревнования ImageNet 2012 года, причем с большим отрывом от ближайшего конкурента: частота ошибок при определении пяти самых вероятных объектов составила 15,3 процента против 26,2 у алгоритма со второго места.

Такой успех можно объяснить несколькими причинами. Во-первых, разработчики улучшили архитектуру нейросети, использовав в качестве функции активации редкую для того времени и повсеместно применяемую сейчас ReLU. Во-вторых, хотя это была большая нейросеть, состоявшая из 650 тысяч нейронов и имевшая 60 миллионов параметров, разработчики нашли способ ускорить ее обучение. Они сумели распараллелить обучение сети на два графических процессора. Это была не первая работа, в которой нейросети предлагали обучать на графических процессорах, но, вероятно, первый заметный пример, который показал другим исследователям, что ограничения по вычислительной мощности, сдерживавшие развитие этой области, можно обойти. А значит, размеры моделей и обучающих датасетов можно смело увеличивать.

Спустя шесть лет исследователи из OpenAI проанализировали ключевые работы в области нейросетей и показали, что именно с AlexNet в 2012 году начался рост затрачиваемой на обучение вычислительной мощности. Если раньше она удваивалась каждые два года, следуя закону Мура, то с 2012 года удвоение происходило уже каждые 3–4 месяца. Благодаря такой четкой временной границе OpenAI предложила называть период после 2012 года «современной эрой».

Рост объема вычислений, проводимых при обучении моделей машинного обучения. На графике можно увидеть резкую смену тренда в 2012 году — начало «современной эры». OpenAI

Вместе с увеличением размера нейросетей менялись и подходы к обучению. Стало набирать популярность обучение без учителя на неразмеченных данных.

Хороший пример такого подхода — нейросети GPT, разработанные в OpenAI. Это модели генерации текста, задача которых сводится к предсказанию следующего слова в предложении. Это позволяет писать большие тексты, которые выглядят как результат работы человека, а не машины. Разработчики GPT решили уйти от обучения на ограниченных датасетах с размеченными текстами к самообучению на гигантском объеме самых разных текстов из интернета: GPT-3 обучили на 570 гигабайт текстов. Это позволило модели выучить структуру языка, после чего ее можно быстро дообучить для конкретной задачи, например генерации стихов в стиле любимого поэта, показав всего несколько примеров, а не собирая новый большой датасет.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

6 главных финансовых ошибок, которые люди совершают с 30 до 40 лет 6 главных финансовых ошибок, которые люди совершают с 30 до 40 лет

О деньгах нужно заботиться в любом возрасте, но с 30 до 40 — особенно

Maxim
Исследование показало, какую сексуальную практику предпочитают устойчивые пары Исследование показало, какую сексуальную практику предпочитают устойчивые пары

Секс втроем положительно сказывается на моногамных отношениях

Psychologies
6 признаков глупого человека 6 признаков глупого человека

Как понять, кого нужно избегать? Да и нужно ли на самом деле?

Psychologies
Как «дьявольский» манускрипт XVII века пришлось расшифровывать с помощью DarkNet Как «дьявольский» манускрипт XVII века пришлось расшифровывать с помощью DarkNet

Расшифровка «сатанинской» рукописи XVII века, которой больше 300 лет

ТехИнсайдер
Пауков-скакунчиков заподозрили в способности видеть сны Пауков-скакунчиков заподозрили в способности видеть сны

Зоологи обнаружили у пауков-скакунчиков аналог фазы быстрого сна

N+1
Неожиданные факты о воздухе: чем мы на самом деле дышим Неожиданные факты о воздухе: чем мы на самом деле дышим

Воздух с нами всю жизнь, но так ли хорошо мы его знаем?

ТехИнсайдер
Вороньи уроки Вороньи уроки

Когда кедру было 35 лет, в его кроне свила гнездо серая ворона

Наука и жизнь
Павел Деревянко: «Девчонки считают меня привлекательным» Павел Деревянко: «Девчонки считают меня привлекательным»

Главный по волейболу Паша Деревянко рассказывает про популярность и деньги

Maxim
«Пока не сыграл в ящик»: как составить список самых важных дел «Пока не сыграл в ящик»: как составить список самых важных дел

Как составить bucket list и при этом избежать ошибок?

Psychologies
Вспоминают о съемках, как о ночном кошмаре: как сложилась судьба актеров сериала Вспоминают о съемках, как о ночном кошмаре: как сложилась судьба актеров сериала

"Альф" закончился более 20 лет назад, интересно, что стало с героями сериала?

VOICE
Самые короткие и захватывающие детективные сериалы — посмотри за вечер или за выходные! Самые короткие и захватывающие детективные сериалы — посмотри за вечер или за выходные!

Собрали остросюжетные шоу в формате мини-сериалов

VOICE

У Веры было много талантов, один из них — это умение дружить

Караван историй
5 математических трюков, которые помогут решить любую задачу за секунды 5 математических трюков, которые помогут решить любую задачу за секунды

Простые трюки могут облегчить решение любых повседневных математических задач

ТехИнсайдер
Принцесса и драконы: 7 теорий заговора вокруг гибели Дианы Спенсер Принцесса и драконы: 7 теорий заговора вокруг гибели Дианы Спенсер

За 25 лет после гибели Дианы возникло много конспирологических теорий ее кончины

Правила жизни
Навязанные «удобства» Навязанные «удобства»

Без чего автомобиль может легко обойтись?

Автопилот
Как работает лазерная навигация в роботах-пылесосах и зачем она нужна Как работает лазерная навигация в роботах-пылесосах и зачем она нужна

Что такое лидар в роботах-пылесосах и как он работает?

CHIP
История одной вещи: тамагочи — великий и (немного) ужасный История одной вещи: тамагочи — великий и (немного) ужасный

Вспоминаем историю суперпопулярной японской игры

Правила жизни
Как  наш мозг формирует сигнал: «Бояться!» Как  наш мозг формирует сигнал: «Бояться!»

Страх — одно из важнейших для выживания чувств. Но надо уметь им управлять

ТехИнсайдер
Великий Горби: как страна получила свободу и не воспользовалась ей Великий Горби: как страна получила свободу и не воспользовалась ей

Михаил Горбачев вернул человеку человеческое

Forbes
Почему современные животные не бывают такими огромными, как динозавры? Почему современные животные не бывают такими огромными, как динозавры?

Могут ли возникнуть животные, в сравнении с которыми покажутся карликами слоны?

ТехИнсайдер
Как появилось знаменитое розовое платье Мэрилин Монро Как появилось знаменитое розовое платье Мэрилин Монро

Кто одевал Монро и почему сработал один из самых известных нарядов Монро?

Правила жизни
После людей После людей

Призраки прошлого служат наглядным напоминанием об ошибках человечества

Вокруг света
Машинное обучение предсказало толщину нейтронной кожи свинца Машинное обучение предсказало толщину нейтронной кожи свинца

Физики рассчитали толщину нейтронной оболочки в ядре изотопа свинца-208

N+1
Считавшуюся вымершей магнолию с Гаити переоткрыли спустя 97 лет Считавшуюся вымершей магнолию с Гаити переоткрыли спустя 97 лет

Небольшая популяция магнолий пережила вырубку лесов в горном ущелье

N+1
Суперконтинент Земли раскололся из-за Суперконтинент Земли раскололся из-за

Как сформировались континенты?

ТехИнсайдер
Страх и ненависть в лесу: «Бойся темноты» как пародия на фильм ужасов Страх и ненависть в лесу: «Бойся темноты» как пародия на фильм ужасов

«Бойся темноты» — несостоятельный сценарий и блеклая актерская игра

Forbes
МРТ-сканер в виде пиратской шхуны: как геймификация помогает в работе и жизни МРТ-сканер в виде пиратской шхуны: как геймификация помогает в работе и жизни

Как игры помогают добиваться целей в работе и в жизни?

Forbes
Чахоточный шик: как смертельное заболевание превратилось в элемент моды Чахоточный шик: как смертельное заболевание превратилось в элемент моды

Отрывок из книги «Чахоточный шик. История красоты, моды и недуга»

Forbes
«Эзопов язык уже невозможен»: Ольга Сутулова о переменах в кино и женской повестке «Эзопов язык уже невозможен»: Ольга Сутулова о переменах в кино и женской повестке

Актриса Юля Варшавская — как меняется женская повестка в российском кино

Forbes
Что значит смерть Михаила Горбачева для россиян: комментарий психолога Что значит смерть Михаила Горбачева для россиян: комментарий психолога

Смерть Михаила Горбачева — новая перестройка, но уже в сознании?

Psychologies
Открыть в приложении