Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Не думайте о покупателе: как вырастить стартап, который купит Apple Не думайте о покупателе: как вырастить стартап, который купит Apple

Что необходимо учитывать при создании стартапа, чтобы заинтересовать Apple

Forbes
Анатолий Вассерман: «То, что я умнее многих, стало понятно где-то между тремя и четырьмя годами» Анатолий Вассерман: «То, что я умнее многих, стало понятно где-то между тремя и четырьмя годами»

Интервью с Анатолием Вассерманом

Maxim
Как поменять свою жизнь Как поменять свою жизнь

Вопрос о том, как поменять свою жизнь, приходит в голову многим из нас

Psychologies
«Письмо, которое не будет отправлено»: дочь Легкоступовой обратилась к певице «Письмо, которое не будет отправлено»: дочь Легкоступовой обратилась к певице

Анэтта Бриль написала трогательное письмо маме, певице Валентине Легкоступовой

Cosmopolitan
Игрушки для укрепления семьи: как бывшая летчица построила бизнес-империю на «магазинах для взрослых» Игрушки для укрепления семьи: как бывшая летчица построила бизнес-империю на «магазинах для взрослых»

Рассказываем историю предпринимательницы, для которой не было запретных тем

Forbes
Учи слова: как грамотно общаться с парикмахером Учи слова: как грамотно общаться с парикмахером

Сохрани себе наш словарик и говори с парикмахером на одном языке!

Cosmopolitan
Как изобрели санки и почему они стали традиционной зимней забавой? Как изобрели санки и почему они стали традиционной зимней забавой?

Как и когда появились русские сани?

Культура.РФ
Ты моя зависимость: 5 звездных пар, которых связали любовь, алкоголь и наркотики Ты моя зависимость: 5 звездных пар, которых связали любовь, алкоголь и наркотики

Главный секрет этих отношений — нездоровые общие увлечения

Cosmopolitan
Зачем нужен PRO-режим камеры смартфона? Объясняем на примерах Зачем нужен PRO-режим камеры смартфона? Объясняем на примерах

Режим, который позволяет вручную установить практически все параметры съемки

CHIP
6 мотивирующих признаков, что ты худеешь (кроме показателей весов, разумеется) 6 мотивирующих признаков, что ты худеешь (кроме показателей весов, разумеется)

Если замечаешь эти признаки, значит, ты на правильном пути в похудении!

Playboy
Индия после Ганди Индия после Ганди

История крупнейшей демократии в мире

kiozk originals
Истории в деталях Истории в деталях

Михаил Зыгарь – о новой книге «Все свободны» про президентские выборы 1996 года

Grazia
Какой МФУ выбрать для дома: 5 самых лучших из бюджетного сегмента Какой МФУ выбрать для дома: 5 самых лучших из бюджетного сегмента

Рассматриваем разные варианты МФУ для дома и выбираем оптимальное устройство

CHIP
Невероятная история CD-диска. Часть 1 Невероятная история CD-диска. Часть 1

Начало мини революции в области звукозаписи

Популярная механика
Паблик-арт на колесах, или Музей вместо «маршрута Т» Паблик-арт на колесах, или Музей вместо «маршрута Т»

Как искусство осваивает улицы Москвы

СНОБ
Я для себя. Светлана Бондарчук Я для себя. Светлана Бондарчук

В 2020‑м жизнь Светланы Бондарчук сильно изменилась

Glamour
Невероятная история CD-диска. Часть 2 Невероятная история CD-диска. Часть 2

Как Philips и Sony внедряли CD-диски на рынок

Популярная механика
7 слов, помогающих жить в неопределенности 7 слов, помогающих жить в неопределенности

Как существовать в эти смутные времена полноценно, не теряя ни дня своей жизни?

Psychologies
«Российского венчурного рынка не существует». Илья Кобяков, «ТилТех капитал» — об итогах года и главных сделках фонда «Российского венчурного рынка не существует». Илья Кобяков, «ТилТех капитал» — об итогах года и главных сделках фонда

«ТилТех капитал» планирует инвестировать в потребительский сектор 1 млрд руб

Inc.
Кто и зачем создает виртуальные офисы Кто и зачем создает виртуальные офисы

Конференции в Zoom — далеко не единственный способ взаимодействия коллег

РБК
Эпиляция хлебом по-древнерусски и другие старинные мужские способы борьбы с растительностью на лице Эпиляция хлебом по-древнерусски и другие старинные мужские способы борьбы с растительностью на лице

Как люди брились до изобретения одноразовых станков?

Maxim
Два вида горихвостковых певунов с разных высот ужились в антропогенном ландшафте Два вида горихвостковых певунов с разных высот ужились в антропогенном ландшафте

Человек создает мозаику местообитаний, где могут сосуществовать разные виды

N+1
Виталий Мутко — Forbes: «К концу года банки выдадут льготной ипотеки на 1 трлн рублей» Виталий Мутко — Forbes: «К концу года банки выдадут льготной ипотеки на 1 трлн рублей»

Виталий Мутко об арендном жилье в России и о том, чем плохи апартаменты

Forbes
2008 год 2008 год

Победа Дмитрия Медведева на выборах, триумф российского футбола и «Евровидение»

Esquire
«Ты можешь все»: мотивация или заблуждение? «Ты можешь все»: мотивация или заблуждение?

Что нас ограничивает и так ли плохо видеть границы своих возможностей?

Psychologies
Джейн Биркин, актриса, певица Джейн Биркин, актриса, певица

О головокружительной жизни и любви Джейн Биркин есть, что рассказать

Худеем правильно
3 даосские практики, которые помогут избежать новогоднего стресса 3 даосские практики, которые помогут избежать новогоднего стресса

Даосские практики против праздничного стресса: способы снять напряжение

Psychologies
Существует ли «быстрый» и «медленный» метаболизм: рассказывают ученые Существует ли «быстрый» и «медленный» метаболизм: рассказывают ученые

Но действительно ли обмен веществ может быть быстрым или медленным?

Популярная механика
Дела дачные Дела дачные

Загородный дом в стиле старой петербургской дачи

SALON-Interior
Идеальный пресс: тренировка от фитнес-эксперта Идеальный пресс: тренировка от фитнес-эксперта

Простая и эффективная тренировка, которая поможет добиться шикарного пресса

Cosmopolitan
Открыть в приложении