Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Не думайте о покупателе: как вырастить стартап, который купит Apple Не думайте о покупателе: как вырастить стартап, который купит Apple

Что необходимо учитывать при создании стартапа, чтобы заинтересовать Apple

Forbes
Красота как образ жизни Красота как образ жизни

Известный визажист и блогер Елена Крыгина — девушка очень занятая

OK!
5 вариантов необычного завтрака 5 вариантов необычного завтрака

Изменить свой взгляд на завтрак, чтобы он вызывал только приятные эмоции

Худеем правильно
Гепарды не захотели охотиться на скот вдали от деревьев для меток Гепарды не захотели охотиться на скот вдали от деревьев для меток

На территории гепардов есть так называемые «узлы связи»

N+1
Грозит ли диабет лично тебе? Грозит ли диабет лично тебе?

Как рассчитать риск заболеть сахарным диабетом и что делать, чтобы его снизить

Лиза
Папа может всё что угодно: 6 мифов об отцовском декрете Папа может всё что угодно: 6 мифов об отцовском декрете

Почему так непопулярен отцовский декрет в нашей стране?

Cosmopolitan
83 м² 83 м²

Дизайнер сумела превратить неудачную планировку квартиры в удобное пространство

AD
Я — легенда Я — легенда

Ретроспективная вилла в Лос-Анджелесе

SALON-Interior
Туман-убийца: как Великий смог в Лондоне забрал жизни тысяч людей Туман-убийца: как Великий смог в Лондоне забрал жизни тысяч людей

Туманный Альбион стал туманным Армагеддоном

Maxim
У берегов Пуэрто-Рико обнаружили новый вид глубоководных гребневиков У берегов Пуэрто-Рико обнаружили новый вид глубоководных гребневиков

На глубине около 3900 метров обнаружен новый вид гребневиков

N+1
Как работают магазины без кассиров «Пятерочки» и «Азбуки вкуса» и сколько это стоит Как работают магазины без кассиров «Пятерочки» и «Азбуки вкуса» и сколько это стоит

Из чего складывается стоимость «магазинов будущего»

Forbes
Еще один повод Еще один повод

Знаменитости, которые играли свадьбы и родились в Новый год

Лиза
«Ирония судьбы»: что говорят о фильме актеры спустя 45 лет? «Ирония судьбы»: что говорят о фильме актеры спустя 45 лет?

Что скрывается за всенародно любимым фильмом?

Cosmopolitan
Помоги себе сам: 7 способов быстро справиться с эмоциями Помоги себе сам: 7 способов быстро справиться с эмоциями

Как научиться контролировать эмоции и всегда сохранять трезвый ум?

Psychologies
Токсичное пятно: как экологическая катастрофа в Норильске отразилась на репутации компании Владимира Потанина Токсичное пятно: как экологическая катастрофа в Норильске отразилась на репутации компании Владимира Потанина

Почему затраты «Норникеля» на экологию пока не заметны

Forbes
«Ее всё устраивает»: почему так сложно помогать жертвам домашнего насилия «Ее всё устраивает»: почему так сложно помогать жертвам домашнего насилия

Почему женщины, пострадавшие от домашнего насилия, часто отвергают помощь

Cosmopolitan
Попугайчики-неразлучники: Алина Фаркаш о личных границах в браке Попугайчики-неразлучники: Алина Фаркаш о личных границах в браке

Насколько важно соблюдать личные границы в семье

Cosmopolitan
7 вопросов, которые позволят завязать интересный разговор 7 вопросов, которые позволят завязать интересный разговор

Темы для разговоров, не касающиеся политики и других серьезных вопросов

Psychologies
Дети токсичных родителей: 3 шага, чтобы перестать стыдиться себя Дети токсичных родителей: 3 шага, чтобы перестать стыдиться себя

Как поверить в то, что мы важны?

Psychologies
Кто и зачем создает виртуальные офисы Кто и зачем создает виртуальные офисы

Конференции в Zoom — далеко не единственный способ взаимодействия коллег

РБК
Блейк Лайвли: эффектные фото стильной актрисы и жены Райана Рейнольдса Блейк Лайвли: эффектные фото стильной актрисы и жены Райана Рейнольдса

Биография, карьерный путь и, конечно, самые яркие фотографии Блейк Лавли

Playboy
Как сформировать у ребенка правильные финансовые привычки Как сформировать у ребенка правильные финансовые привычки

В каком возрасте и как правильно знакомить ребенка с деньгами?

Psychologies
3 секрета Шарлиз Терон 3 секрета Шарлиз Терон

Собрали главные секреты Шарлиз Терон, которые позволяют ей оставаться в форме

Худеем правильно
Гадание по Книге судеб: оракул, знающий ответ на всё Гадание по Книге судеб: оракул, знающий ответ на всё

Книги судеб и перемен позволяют заглянуть в будущее и приоткрыть завесу прошлого

Cosmopolitan
Заметить рак вовремя: как диагностика онкологии на ранней стадии становится доступной в России Заметить рак вовремя: как диагностика онкологии на ранней стадии становится доступной в России

Как находить злокачественные образования в самом начале их развития

Inc.
История первого задокументированного ранения человека внеземным объектом История первого задокументированного ранения человека внеземным объектом

И Земля даже не ввела контрсанкции против космоса!

Maxim
Следы бананов и куркумы в зубном камне указали на торговые связи Леванта с Южной Азией в бронзовом веке Следы бананов и куркумы в зубном камне указали на торговые связи Леванта с Южной Азией в бронзовом веке

Остатки куркумы нашли в зубах людей из захоронений на территории Израиля

N+1
Лучшие цитаты Лемми Килмистера — дебошира, пьяницы и гения Лучшие цитаты Лемми Килмистера — дебошира, пьяницы и гения

Грубые мужицкие мудрости от покойного лидера Motorhead

Maxim
Что расскажет о хозяине поведение его собаки? Что расскажет о хозяине поведение его собаки?

Поведение собаки зависит от того, что происходит с её хозяевами

Psychologies
Чем кормить волосы: что добавить в рацион, чтобы отрастить длину и обрести объем Чем кормить волосы: что добавить в рацион, чтобы отрастить длину и обрести объем

Нутрициолог - о том, как отрастить длинные и красивые волосы

Cosmopolitan
Открыть в приложении