Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Не думайте о покупателе: как вырастить стартап, который купит Apple Не думайте о покупателе: как вырастить стартап, который купит Apple

Что необходимо учитывать при создании стартапа, чтобы заинтересовать Apple

Forbes
Ведический календарь: что это такое и как он устроен Ведический календарь: что это такое и как он устроен

Ведический календарь – старинная система летоисчисления

Cosmopolitan
Джордж Клуни смотрится жутко привлекательно и выразительно в фильме «Полночное небо» Джордж Клуни смотрится жутко привлекательно и выразительно в фильме «Полночное небо»

Джорджу Клуни абсолютно нечего делать в космосе

GQ
Наталья Ветошникова Наталья Ветошникова

99-летняя теннисистка собрала все возможные трофеи Ленинграда

Собака.ru
Дела дачные Дела дачные

Загородный дом в стиле старой петербургской дачи

SALON-Interior
Ленивые тренировки Ленивые тренировки

Минусы и плюсы EMS-тренировок

Здоровье
Стоит ли покупать видеокарты на вторичке: плюсы и минусы Стоит ли покупать видеокарты на вторичке: плюсы и минусы

Сэкономить или же переплатить за гарантированно работоспособную видеокарту?

CHIP
Не только мама: как искать работу после декрета Не только мама: как искать работу после декрета

Советы для тех, кто планирует искать работу после декрета

Psychologies
Физики оценили важность релятивистских эффектов при фотоионизации ридберговских состояний Физики оценили важность релятивистских эффектов при фотоионизации ридберговских состояний

Физики продемонстрировали работоспособность полурелятивистского подхода

N+1
Тест-драйв Infiniti QX50 последнего поколения Тест-драйв Infiniti QX50 последнего поколения

Infiniti QX50 устраивает всех почитателей продукции японского производителя

СНОБ
«Аэрокобра» Покрышкина: американская хищница для советских асов «Аэрокобра» Покрышкина: американская хищница для советских асов

История настоящей Бэллочки-людоедки

Maxim
Новый год к нам мчится Новый год к нам мчится

Устроим себе виртуальное новогоднее путешествие

Лиза
Женщина и город: модные советы от Александра Васильева Женщина и город: модные советы от Александра Васильева

Какой видит современную горожанку историк моды Александр Васильев?

Cosmopolitan
Зрительный контакт с роботом и человеком вызвал схожие психофизиологические реакции Зрительный контакт с роботом и человеком вызвал схожие психофизиологические реакции

Реакции на прямой взгляд были интенсивнее, чем на отведенный в сторону

N+1
7 деликатных моментов, которые нас смущают в начале отношений 7 деликатных моментов, которые нас смущают в начале отношений

В начале любого романа иногда возникают неловкие ситуации

Psychologies
Making of: как создавался рисунок на корешках номеров Esquire Making of: как создавался рисунок на корешках номеров Esquire

Рисунок на корешках журнала Esquire — арт-проект на тему конца света

Esquire
Почему мы «заедаем» проблемы и как это прекратить? Почему мы «заедаем» проблемы и как это прекратить?

Еда — не лучший способ справляться с усталостью, болью, стрессом

Psychologies
Правила жизни Жана-Люка Годара Правила жизни Жана-Люка Годара

Правила жизни режиссера «новой волны» Жана-Люка Годара

Esquire
Не решать грандиозные задачи по старинке: как бывший топ-менеджер Google помогает НКО стать эффективными Не решать грандиозные задачи по старинке: как бывший топ-менеджер Google помогает НКО стать эффективными

Энн Мей Чанг о консерватизме государства и опасности грантовой иглы

Forbes
3 научно-фантастических романа, нарушающих лунные законы NASA 3 научно-фантастических романа, нарушающих лунные законы NASA

Книги, в которых нарушается «Соглашение Артемиды»

Популярная механика
Рок и Марти Рок и Марти

Почему мы все еще смотрим и за что любим «Назад в будущее»

Weekend
Лотерея в России: история, культура, технологии Лотерея в России: история, культура, технологии

История лотереи в России: от петровских времен до наших дней

СНОБ
Зимние развлечения: советуют Толстой, Чайковский и Репин Зимние развлечения: советуют Толстой, Чайковский и Репин

Выбирайте зимний досуг по советам русских классиков

Культура.РФ
Судьба во власти планет: что такое натальная карта и как ее рассчитать Судьба во власти планет: что такое натальная карта и как ее рассчитать

По натальной карте можно многое узнать о характере человека

Cosmopolitan
Орангутаны заразились зевотой от сородичей Орангутаны заразились зевотой от сородичей

Орангутаны могут заражать друг друга зевотой

N+1
Моя терапия: «Я перестала бояться праздников» Моя терапия: «Я перестала бояться праздников»

Как нашей героине удалось изменить своё отношение к праздникам

Psychologies
Вуди Аллен на Новый год: исповедь неудачника под бой курантов Вуди Аллен на Новый год: исповедь неудачника под бой курантов

В российский прокат выходит новый фильм Вуди Аллена «Фестиваль Рифкина»

СНОБ
Инвентаризация ценностей князя Юсупова Инвентаризация ценностей князя Юсупова

Князья Юсуповы были богатейшей семьёй России

Дилетант
3 эффективных метода, которые помогут вернуть гармонию в жизнь 3 эффективных метода, которые помогут вернуть гармонию в жизнь

Как найти баланс между творческими увлечениями и рабочими задачами?

Psychologies
Исследование Inc.: российский венчурный рынок в 2020 году вырос почти вдвое Исследование Inc.: российский венчурный рынок в 2020 году вырос почти вдвое

Российский венчурный рынок в 2020 году вырос почти в два раза

Inc.
Открыть в приложении