Гроссмейстеры больших данных
Когда мы запускали журнал, на визитках наших героев часто встречались аббревиатуры «д. ф.-м. н.», PhD, «д. т. н.», а то и вовсе «чл.-корр. РАН». Лет шесть назад визитки исчезли, зато появились интересные собеседники, которые указывали рейтинг Codeforсes – сайта, где проводятся соревнования по спортивному программированию. Часто по одной этой цифре можно было узнать о человеке гораздо больше, чем из резюме. Но в прошлом году у нас появился первый герой с новым рейтингом – Kaggle.
Kaggle – самая известная в мире платформа для специалистов по Data Science. Она выросла в комьюнити, которое объединило опытных и начинающих исследователей в области анализа данных и машинного обучения. Платформа была запущена в апреле 2010 года как площадка для проведения соревнований по машинному обучению.
Сейчас на Kaggle можно проходить курсы по AI, пользоваться облачными ресурсами для решения задач, общаться со специалистами по всему миру, искать работу и, конечно, участвовать в соревнованиях. В 2017 году платформу Kaggle купила компания Google, усилив свои позиции в сообществе исследователей по искусственному интеллекту и повысив шансы в борьбе за лучших специалистов на рынке.
Мастер над соревнованиями
Всего в Kaggle пять уровней: новичок, участник, эксперт, мастер и гроссмейстер. Причем пройти в высшую лигу, перескакивая через ступени, не получится. Стать гроссмейстером можно в одной из четырех категорий: «соревнование», «блокноты», «наборы данных» и «обсуждение». Самым крутым считается гроссмейстер в соревнованиях.
Новичком пользователь становится автоматически, как только присоединяется к Kaggle. Приняв участие во всех четырех категориях, попадаешь в участники. Переход в следующую категорию, эксперт, обеспечивают медали – например, две бронзовые за соревнования или 50 бронзовых – за обсуждения. Чтобы стать мастером соревнований потребуется одна золотая и две серебряные медали, а для мастера наборов данных – одна золотая и четыре серебряных. Но цель каждого участника (а их уже более 16 млн!) – звание гроссмейстера. В категории соревнований для этого надо иметь пять золотых медалей и еще одно сольное золото – взятое в одиночку. А в категории обсуждений потребуется 50 золотых медалей и 500 наград других достоинств.
Как правило, золотые медали получают первые 10% соревнующихся с лучшими результатами. Серебро – те, кто вошел в топ-20, бронзу – топ-40. При очень большом количестве участников (более 250 команд) условия немного меняются. По словам специалиста по обработке данных Nvidia и гроссмейстера Kaggle Бояна Тунгуза, чтобы получить звание гроссмейстера, нужно разбираться в машинном обучении и прогнозной аналитике лучше, чем кто-либо другой, и при этом постоянно пересматривать гипотезы. Боян был первым, кто пробился в топ-10 во всех четырех категориях Kaggle после участия в 252 соревнованиях и победы в двух.
Когда я лет двадцать назад ездил в исследовательский центр Bell Laboratories, заметил, что на видном месте висит напоминание: здесь в разное время работали 19 нобелевских лауреатов.
Сейчас на сайтах крупнейших компаний в области анализа данных и машинного обучения указывается, сколько там работает мастеров и гроссмейстеров Kaggle. Например, на сегодня в мире всего 312 гроссмейстеров, из них в Nvidia работает 10 из топ-100 и еще 9 – в H2O.ai. Интересно, что 70 гроссмейстеров родом из США, 31 – из Японии, 29 – из России и 25 – из Китая.