Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Не думайте о покупателе: как вырастить стартап, который купит Apple Не думайте о покупателе: как вырастить стартап, который купит Apple

Что необходимо учитывать при создании стартапа, чтобы заинтересовать Apple

Forbes
Как воплотить мечту: правило трех «П» Как воплотить мечту: правило трех «П»

Отрывок из книги «Хочу — Могу — Надо. Узнай себя и действуй!»

Psychologies
Навигатор Навигатор

Для странствий духа тоже нужна карта, считали сибирские шаманы

Вокруг света
Издательство Individuum перевело книгу на русский с помощью машинного перевода: фрагмент до и после редактуры человеком Издательство Individuum перевело книгу на русский с помощью машинного перевода: фрагмент до и после редактуры человеком

Как «Яндекс.Переводчик» справился с переводом целой книги

VC.RU
Екатерина Варнава: «Я сильная, но при этом дико ранимая» Екатерина Варнава: «Я сильная, но при этом дико ранимая»

Екатерина Варнава – о счастье, любви, собаке и стечении обстоятельств

Cosmopolitan
Основатель неорусского концепт-стора «Палаты» Юлия Лобойко собирается превратить его в великое посольство передового локального дизайна Основатель неорусского концепт-стора «Палаты» Юлия Лобойко собирается превратить его в великое посольство передового локального дизайна

Интервью с основательницей неорусского концепт-стора «Палаты» Юлией Лобойко

Собака.ru
Какой бывает пластик и можно ли его весь перерабатывать Какой бывает пластик и можно ли его весь перерабатывать

Что значат эти треугольники на пластиковых вещах?

Популярная механика
Как встретить принца: истории знакомства королевских пар Как встретить принца: истории знакомства королевских пар

Даже с будущим королем можно познакомиться при вполне банальных обстоятельствах

Cosmopolitan
8 странных фактов о мистере Алистере Кроули 8 странных фактов о мистере Алистере Кроули

Темный маг и великий инфернальный оккультист мистер Кроули

Maxim
Эпиляция и депиляция: что можно и нельзя во время беременности Эпиляция и депиляция: что можно и нельзя во время беременности

Какие методы эпиляции и депиляции можно использовать во время беременности?

9 месяцев
Какое животное самое опасное для человека: отвечают эксперты Какое животное самое опасное для человека: отвечают эксперты

Думаете, самыми опасными и смертоносными являются большие хищники? Как бы не так

Популярная механика
Какой МФУ выбрать для дома: 5 самых лучших из бюджетного сегмента Какой МФУ выбрать для дома: 5 самых лучших из бюджетного сегмента

Рассматриваем разные варианты МФУ для дома и выбираем оптимальное устройство

CHIP
Дмитрий Харатьян, Сергей Жигунов и другие гардемарины — как они выглядят сейчас Дмитрий Харатьян, Сергей Жигунов и другие гардемарины — как они выглядят сейчас

Как изменились актеры из фильмов о гардемаринах и что с ними сейчас

Cosmopolitan
Как работают магазины без кассиров «Пятерочки» и «Азбуки вкуса» и сколько это стоит Как работают магазины без кассиров «Пятерочки» и «Азбуки вкуса» и сколько это стоит

Из чего складывается стоимость «магазинов будущего»

Forbes
В Германии нашли окаменелости древнейшего питона В Германии нашли окаменелости древнейшего питона

Он жил 47,6 миллиона лет назад

N+1
Брак с конюхом: как сложилась личная жизнь единственной дочери Елизаветы II Брак с конюхом: как сложилась личная жизнь единственной дочери Елизаветы II

Разбираемся в том, что правда, а что вымысел в сериале «Корона»

Cosmopolitan
63 м² 63 м²

Дизайнер Семен Бортник создал интеллигентную атмосферу в новосибирской квартире

AD
Что нужно сделать разработчику, чтобы получить грант от государства Что нужно сделать разработчику, чтобы получить грант от государства

Кому из создателей программного обеспечения государство готово помогать?

VC.RU
Как правильно проезжать лежачие полицейские Как правильно проезжать лежачие полицейские

Проезжай лежачих полицейских как профи

Maxim
Какой год, такой и макияж: самые неудачные мейкап-образы звезд за 2020 год Какой год, такой и макияж: самые неудачные мейкап-образы звезд за 2020 год

Самые неудачные образы звезд, которые лучше оставить в уходящем году

Cosmopolitan
Чтение выходного дня: фрагмент нового романа автора «Облачного атласа» Дэвида Митчелла Чтение выходного дня: фрагмент нового романа автора «Облачного атласа» Дэвида Митчелла

Фрагмент из нового романа Дэвида Митчелла «Утопия-авеню»

Esquire
Петербургские «Кресты» Петербургские «Кресты»

Имена арестантов «Крестов» вошли в учебники, само здание — памятник архитектуры

Дилетант
3 научно-фантастических романа, нарушающих лунные законы NASA 3 научно-фантастических романа, нарушающих лунные законы NASA

Книги, в которых нарушается «Соглашение Артемиды»

Популярная механика
Правила жизни Сэмюэла Л. Джексона Правила жизни Сэмюэла Л. Джексона

Актер, Вашингтон, 72 года

Esquire
7 модных способов почувствовать себя стройной 7 модных способов почувствовать себя стройной

У каждой женщины есть свои способы почувствовать себя стройной

Cosmopolitan
Gram против доллара Gram против доллара

Американская Комиссия по ценным бумагам и биржам закрыла проект Павла Дурова TON

Forbes
Ищем таланты: как понять, к чему лежит душа Ищем таланты: как понять, к чему лежит душа

Возможно, вы просто не поняли, какой у вас талант, но его можно найти

Psychologies
Ученые синтезировали супергидрид европия с 54 атомами Ученые синтезировали супергидрид европия с 54 атомами

Ученые синтезировали и рассчитали некоторые физические свойства гидридов европия

N+1
Сексуальная химия Сексуальная химия

Как получается, что в паре есть совместимость, но нет притяжения

СНОБ
Полярное сияние Полярное сияние

Какой хайлайтер выбрать и как им правильно пользоваться?

Лиза
Открыть в приложении