Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Не думайте о покупателе: как вырастить стартап, который купит Apple Не думайте о покупателе: как вырастить стартап, который купит Apple

Что необходимо учитывать при создании стартапа, чтобы заинтересовать Apple

Forbes
Самые странные телефоны из прошлого, которые на фоне современных смартфонов выглядят внезпано футуристично Самые странные телефоны из прошлого, которые на фоне современных смартфонов выглядят внезпано футуристично

Футуристичные гаджеты из прошлого: телефон-часы и раскладушка для буддистов

Maxim
«Наука сознания. Современная теория субъективного опыта» «Наука сознания. Современная теория субъективного опыта»

Фрагмент книги «Наука сознания. Современная теория субъективного опыта»

N+1
Животный инстинкт Животный инстинкт

Новая волна интереса к сильным анималистичным композициям

Glamour
2004 год 2004 год

Теракт в Беслане, отмена прямых губернаторских выборов и второй срок Путина

Esquire
Пол Томас Андерсон и Милла Иовович Пол Томас Андерсон и Милла Иовович

Пол Томас Андерсон и Милла Йовович – о фильме «Охотник на монстров»

Maxim
Все начальники делают это Все начальники делают это

Пошаговое руководство по решению (почти) всех проблем менеджера

kiozk originals
Выделение речи из шума приписали медиальному ядру трапециевидного тела Выделение речи из шума приписали медиальному ядру трапециевидного тела

Эта зона мозга называется медиальным ядром трапециевидного тела

N+1
Какой видят Россию иностранцы, которые переехали в нашу страну Какой видят Россию иностранцы, которые переехали в нашу страну

Какой увидели Россию те, кто впервые оказался здесь уже во взрослом возрасте?

GQ
Лифтинг — правда или фейк? Какие процедуры действительно подтягивают кожу лица Лифтинг — правда или фейк? Какие процедуры действительно подтягивают кожу лица

Что в историях о “подтягивающих” средствах правда, а что ложь?

Cosmopolitan
Том Сзаки: «Хороших покупок не бывает» Том Сзаки: «Хороших покупок не бывает»

Почему любая покупка вредит природе

РБК
Сотворение миллиардера. Эссе Пола Грэма о том, как пройти интервью в Y Combinator и стать богатым Сотворение миллиардера. Эссе Пола Грэма о том, как пройти интервью в Y Combinator и стать богатым

Пол Грэм рассказывает о том, как устроиться в Y Combinator

Inc.
Почему подход Waymo к автопилоту может оказаться надёжнее подхода Tesla Почему подход Waymo к автопилоту может оказаться надёжнее подхода Tesla

Чем примечателен подход Waymo к автономным такси?

VC.RU
«Ты можешь все»: мотивация или заблуждение? «Ты можешь все»: мотивация или заблуждение?

Что нас ограничивает и так ли плохо видеть границы своих возможностей?

Psychologies
Битва сериалов с Дмитрием Барченковым Битва сериалов с Дмитрием Барченковым

Обозреватель сериалов «Сноба» о новых сериалах

СНОБ
Действующее лицо Действующее лицо

Супермодель Карли Клосс поделилась секретами уверенности в себе

Grazia
Bayraktar VS Орион: битва ударных беспилотников Bayraktar VS Орион: битва ударных беспилотников

Может ли Россия предложить что-то похожее на беспилотник Bayraktar TB2?

Популярная механика
Этого не хватало Этого не хватало

Можно ли с помощью добавок, кремов и процедур поддержать синтез коллагена

Glamour
Разгладить по пробору Разгладить по пробору

Что делать, если выпадают волосы?

Худеем правильно
Как Гитлеру воду отключили: сага о том, как диверсанты лишили фашистов атомной бомбы Как Гитлеру воду отключили: сага о том, как диверсанты лишили фашистов атомной бомбы

Угроза уничтожения человечества, тайная операция, большой взрыв и даже Гитлер!

Maxim
Ученые синтезировали супергидрид европия с 54 атомами Ученые синтезировали супергидрид европия с 54 атомами

Ученые синтезировали и рассчитали некоторые физические свойства гидридов европия

N+1
Белошвейка из Тура Белошвейка из Тура

Герцогиня де Шеврёз — виртуозная политическая интриганка эпохи двух кардиналов

Дилетант
Тепло ли тебе, девица? Тепло ли тебе, девица?

Что делать, если ты постоянно мерзнешь?

Лиза
9 продуктов, которые только притворяются вегетарианскими 9 продуктов, которые только притворяются вегетарианскими

Даже еде в собственном холодильнике верить нельзя!

Maxim
Как встретить Новый год несколько раз подряд Как встретить Новый год несколько раз подряд

Мы предлагаем встретить Новый год несколько раз с разными странами

Maxim
Чем кормить волосы: что добавить в рацион, чтобы отрастить длину и обрести объем Чем кормить волосы: что добавить в рацион, чтобы отрастить длину и обрести объем

Нутрициолог - о том, как отрастить длинные и красивые волосы

Cosmopolitan
Хочу как они! Звездные пары, которые доказали существование любви на всю жизнь Хочу как они! Звездные пары, которые доказали существование любви на всю жизнь

Пары, доказавшие, что настоящую любовь все же не сочинили сказочники

Cosmopolitan
Микропластик обнаружили в воздухе над Атлантическим океаном Микропластик обнаружили в воздухе над Атлантическим океаном

Пластиковые частицы переносятся ветром с поверхности воды

N+1
Физики услышали затухание звуковых волн в ферми-газе Физики услышали затухание звуковых волн в ферми-газе

Результаты этого эксперимента помогут в анализе устройства нейтронных звезд

N+1
Джек Лондон. Камень, который отвергли строители Джек Лондон. Камень, который отвергли строители

Он уже и сам не знал, чего хочет больше — уснуть или умереть

Караван историй
Открыть в приложении