Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Не думайте о покупателе: как вырастить стартап, который купит Apple Не думайте о покупателе: как вырастить стартап, который купит Apple

Что необходимо учитывать при создании стартапа, чтобы заинтересовать Apple

Forbes
Бразильский динозавр отрастил перьевой гребень и по паре шипов на плечах Бразильский динозавр отрастил перьевой гребень и по паре шипов на плечах

Скорее всего, эти украшения служили для брачных демонстраций

N+1
Как путешествовать по миру на 50 долларов в день Как путешествовать по миру на 50 долларов в день

Платите меньше, путешествуйте дольше, действуйте с умом

kiozk originals
Распишитесь в получении перемен: каким оказался 2020-й Распишитесь в получении перемен: каким оказался 2020-й

Что мы поняли, чему научились и как изменились в 2020 году

РБК
Температура электронов в болометре приблизилась к теоретическому минимуму Температура электронов в болометре приблизилась к теоретическому минимуму

Новый температурный рекорд, который поможет в изучении реликтового излучения

N+1
Бизнес в стиле хиппи: как построить в коммуне самый дорогой стартап в сфере воздушного электротакси Бизнес в стиле хиппи: как построить в коммуне самый дорогой стартап в сфере воздушного электротакси

Джобен Бевирт хочет создать авиатакси по цене UberX

Forbes
«Положить все яйца в одну корзину и наблюдать». Как основатели Burger King нашли спасительные инвестиции и придумали воппер «Положить все яйца в одну корзину и наблюдать». Как основатели Burger King нашли спасительные инвестиции и придумали воппер

Отрывок из книги Burger King Джеймса Макламора об истории становлении империи

Inc.
Почему мы сближаемся с мужчинами, которые причиняют боль? Почему мы сближаемся с мужчинами, которые причиняют боль?

Каких партнеров вы выбираете и почему?

Psychologies
Магия Pixar Магия Pixar

История создания киностудии Pixar

kiozk originals
7 игр для быстрого знакомства на новогодних вечеринках 7 игр для быстрого знакомства на новогодних вечеринках

Лучшие игры для вечеринки, на которой еще не все знакомы

Maxim
Как изменились наши представления о комфорте? Объясняет Hyundai Elantra Как изменились наши представления о комфорте? Объясняет Hyundai Elantra

В XXI веке комфорт — это не плавность хода автомобиля

Maxim
Археолог и художник реконструировали облик жившей 3700 лет назад перуанской женщины Археолог и художник реконструировали облик жившей 3700 лет назад перуанской женщины

Девушка из Эль Парайсо похожа чертами лица на современных женщин

N+1
Никто меня не любит: что делать, если тебе правда так кажется Никто меня не любит: что делать, если тебе правда так кажется

Как обидно и несправедливо, когда никто не любит!

Cosmopolitan
Планета обезьянник: таймлайн давления государства на рейвы с 1990-х и до наших дней Планета обезьянник: таймлайн давления государства на рейвы с 1990-х и до наших дней

История рейвов в России: как они начались и почему закончились

Esquire
Каникулы без последствий Каникулы без последствий

Эксперты рассказывают, как лучше питаться в праздничные дни

Лиза
Астрономы объявили о загадочном исчезновении самой большой черной дыры во Вселенной Астрономы объявили о загадочном исчезновении самой большой черной дыры во Вселенной

Черные дыры не могут исчезать бесследно... Или могут?

Популярная механика
Деликатный вопрос Деликатный вопрос

Проблемы с кишечником могут серьезно отравить человеку жизнь

Лиза
Канадский смокинг, банты и узоры: стиль Джона Малковича в ключевых деталях Канадский смокинг, банты и узоры: стиль Джона Малковича в ключевых деталях

Джон Малкович одевается необычно и местами экстравагантно

Esquire
Ученые убаюкали дрозофил Ученые убаюкали дрозофил

Оказалось, плодовые мушки — хороший модельный организм для изучения убаюкивания

N+1
10 вещей, которые можно носить в любом возрасте 10 вещей, которые можно носить в любом возрасте

Одежда, которая подойдет женщинам вне зависимости от возраста

Cosmopolitan
Безумству храбрых: 12 одержимых гениев в истории Безумству храбрых: 12 одержимых гениев в истории

Чертова дюжина смелых героев своего времени

Maxim
Как расстаться с девушкой по-джентльменски? Как расстаться с девушкой по-джентльменски?

Подробная инструкция что делать, чтобы бывшая исчезла из твоей жизни без обид

Maxim
7 лучших фантастических романов 2020 года 7 лучших фантастических романов 2020 года

Фантастические романы, на которые непременно нужно обратить внимание

Популярная механика
«Судебник Владимира Гусева» и держава Ивана III «Судебник Владимира Гусева» и держава Ивана III

История судебника Ивана III

Наука и жизнь
Придумала облачные услуги, борется с Microsoft и мечтает о выручке $60 млрд: чем известна Salesforce, покупающая Slack Придумала облачные услуги, борется с Microsoft и мечтает о выручке $60 млрд: чем известна Salesforce, покупающая Slack

Как развивается одна из самых успешных компаний на рынке облачного ПО

VC.RU
Атака этажерок-убийц. История первых самолетов-бомбардировщиков Атака этажерок-убийц. История первых самолетов-бомбардировщиков

История бомбардировщиков «Ильи Муромца» и «Цеппелин-Штаакена»

Maxim
«Хочется поработать, поштурмить»: зачем и как приятели каждый год открывают магазин ёлок с оборотом в 15 млн рублей «Хочется поработать, поштурмить»: зачем и как приятели каждый год открывают магазин ёлок с оборотом в 15 млн рублей

Интернет-магазин хвойных деревьев, который работает раз в год

VC.RU
Сага о Набутовых: семья, по которой можно изучать историю Сага о Набутовых: семья, по которой можно изучать историю

Это не сериал «Династия». Это петербургская сага. Сага о Набутовых

Esquire
[отыграть назад] [отыграть назад]

Прямо сейчас любимая резиденция Екатерины Великой идет на поправку

Собака.ru
Одураченные случайностью Одураченные случайностью

О скрытой роли шанса в бизнесе и в жизни

kiozk originals
Открыть в приложении