Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Не думайте о покупателе: как вырастить стартап, который купит Apple Не думайте о покупателе: как вырастить стартап, который купит Apple

Что необходимо учитывать при создании стартапа, чтобы заинтересовать Apple

Forbes
2009 год 2009 год

Гибель Сергея Магнитского, закрытие Черкизовского рынка и новая Россия

Esquire
Как в кино: какая она — любовь во снах и наяву Как в кино: какая она — любовь во снах и наяву

Что говорит о нас неопределенность сегодняшнего дня?

РБК
Акцент на акценте: как актеры сериала «Корона» готовились к роли Акцент на акценте: как актеры сериала «Корона» готовились к роли

Над акцентами персонажей сериала «Корона» трудилась целая команда

Cosmopolitan
88 м² 88 м²

Дизайнер Анастасия Хальчицкая оформила собственную квартиру в Санкт-Петербурге

AD
Что будет, если съесть самую острую еду в мире Что будет, если съесть самую острую еду в мире

Самая острая еда в мире и что будет, если неподготовленный человек съест ее

Популярная механика
Верные слуги короля Верные слуги короля

С XVII века королевские мушкетёры стали привилегированными войсками

Дилетант
О чём умолчали классики О чём умолчали классики

Давайте рассмотрим произведения русских писателей с точки зрения математики

Наука и жизнь
Что произошло с останками Адольфа Гитлера Что произошло с останками Адольфа Гитлера

История о последних днях жизни Гитлера и долгих попытках захоронить его останки

Популярная механика
#макияж #макияж

Помады, тени, хайлайтеры, блески, флюиды для красоты хорошего настроения

Glamour
Лучшие турецкие сериалы на русском: хиты и новинки, от которых не оторваться Лучшие турецкие сериалы на русском: хиты и новинки, от которых не оторваться

Список лучших и новых турецких мелодрам для длинных новогодних каникул

Cosmopolitan
От неосторожного курения до самосожжения. Почему в России каждый год горят дома престарелых От неосторожного курения до самосожжения. Почему в России каждый год горят дома престарелых

В России по несколько раз в год горят дома престарелых

СНОБ
Моя терапия: «Я перестала бояться праздников» Моя терапия: «Я перестала бояться праздников»

Как нашей героине удалось изменить своё отношение к праздникам

Psychologies
Супермикроспособности Супермикроспособности

Человеку не дано крыльев, вечной жизни и способностей к телепортации

Maxim
Судьба во власти планет: что такое натальная карта и как ее рассчитать Судьба во власти планет: что такое натальная карта и как ее рассчитать

По натальной карте можно многое узнать о характере человека

Cosmopolitan
Ночная жизнь Ночная жизнь

Синиша Лазаревич участвовал в знаковых для Москвы клубных проектах нулевых

Esquire
Эффективная лень и полезный стресс — как запустить каскад изменений в своей жизни Эффективная лень и полезный стресс — как запустить каскад изменений в своей жизни

Как уметь договариваться с собой и другими

Forbes
Константин Воробьев и Ольга Самошина. «Ни в парше, ни в парче, а так, вообче» Константин Воробьев и Ольга Самошина. «Ни в парше, ни в парче, а так, вообче»

Они поженились восемнадцатилетними, на втором курсе театрального института

Караван историй
Механика флирта Механика флирта

Как флиртуют мужчины и женщины и где проходит граница дозволенного

СНОБ
Как завести машину, если сел аккумулятор. Все способы Как завести машину, если сел аккумулятор. Все способы

Как оживить аккумулятор в одиночку?

РБК
Личное дело Натана Стругацкого Личное дело Натана Стругацкого

В архиве РНБ (бывшая Публичка) обнаружили личное дело Натана Стругацкого

Дилетант
«Спектр-РГ» связал пузыри Ферми с активностью центральной черной дыры Млечного Пути «Спектр-РГ» связал пузыри Ферми с активностью центральной черной дыры Млечного Пути

Пузыри Ферми образовались из-за активности сверхмассивной черной дыры

N+1
Плохой дядя Плохой дядя

Как уберечь ребенка от «нехороших людей»?

Лиза
«Пожертвование — не выигрыш»: как работает фандрайзинг детского хосписа «Дом с маяком» «Пожертвование — не выигрыш»: как работает фандрайзинг детского хосписа «Дом с маяком»

На что живет детский хоспис «Дом с маяком» и как расходует средства

Forbes
Главный злодей в триллере о пандемии — банальный грипп. Фрагмент из книги «Следующая пандемия» Главный злодей в триллере о пандемии — банальный грипп. Фрагмент из книги «Следующая пандемия»

Отрывок из книги Али Хана об опасности, которую несёт грипп

СНОБ
Революция баров: как власти бесстрашно приняли вызов питерского общепита Революция баров: как власти бесстрашно приняли вызов питерского общепита

Это только кажется, что в стране остались деполитизированные сферы

Forbes
6 советов, как перестать страдать от завышенных ожиданий 6 советов, как перестать страдать от завышенных ожиданий

В жизни важно найти баланс

Playboy
Ведический календарь: что это такое и как он устроен Ведический календарь: что это такое и как он устроен

Ведический календарь – старинная система летоисчисления

Cosmopolitan
Джейн Биркин, актриса, певица Джейн Биркин, актриса, певица

О головокружительной жизни и любви Джейн Биркин есть, что рассказать

Худеем правильно
Алкогений: Гарик Сукачев Алкогений: Гарик Сукачев

«Москва, я твой пьяный ребенок»

Maxim
Открыть в приложении