Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Не думайте о покупателе: как вырастить стартап, который купит Apple Не думайте о покупателе: как вырастить стартап, который купит Apple

Что необходимо учитывать при создании стартапа, чтобы заинтересовать Apple

Forbes
Почему немецкие летчики сбивали так много вражеских самолетов Почему немецкие летчики сбивали так много вражеских самолетов

Что не так с официальной статистикой люфтваффе времен Второй мировой?

Maxim
Почему TikTok – это будущее онлайн-фитнеса Почему TikTok – это будущее онлайн-фитнеса

Инфлюенсеры TikTok считают, что платформа идеальна для популяризации спорта

GQ
Эмоциональный интеллект для менеджеров проектов Эмоциональный интеллект для менеджеров проектов

Навыки работы с людьми, необходимые для достижения лучших результатов

kiozk originals
Мокьюментари: зачем смотреть псевдодокументальное кино Мокьюментари: зачем смотреть псевдодокументальное кино

Как провокации, постановки и импровизация учат зрителей мыслить критически

GQ
Ловить тренды и смеяться над собой: как бизнесу раскрутиться в TikTok Ловить тренды и смеяться над собой: как бизнесу раскрутиться в TikTok

Как бизнесмену зарабатывать в TikToke?

Forbes
iПрезентация iПрезентация

Уроки убеждения от лидера Apple Стива Джобса

kiozk originals
Самые ироничные и нелепые случаи, когда в России наказывали за изображение свастики Самые ироничные и нелепые случаи, когда в России наказывали за изображение свастики

Нередки случаи, когда штрафы выписывают за символы, не относящиеся к запрещенным

Maxim
Дофамин вызвал разные эффекты у мышей в начале и конце обучения Дофамин вызвал разные эффекты у мышей в начале и конце обучения

Дофамин системы вознаграждения воспринимают разные клетки прилежащего ядра

N+1
Главные российские спортсмены 2020 года Главные российские спортсмены 2020 года

Рассказываем о лучших российских спортсменах уходящего года

GQ
10 вещей, которые можно носить в любом возрасте 10 вещей, которые можно носить в любом возрасте

Одежда, которая подойдет женщинам вне зависимости от возраста

Cosmopolitan
Первая леди авиации: как Олив Энн Бич обеспечила своими самолетами армию США и работала с NASA Первая леди авиации: как Олив Энн Бич обеспечила своими самолетами армию США и работала с NASA

Олив Энн Бич поставляла самолеты армии США и производила оборудование для NASA

Forbes
Все мимо Все мимо

Солистка группы Artik & Asti Аня вышла замуж!

OK!
Хотите стать успешным — перестаньте работать в одиночку Хотите стать успешным — перестаньте работать в одиночку

Хотите расширить бизнес, увеличить доходы и жить в своё удовольствие?

Inc.
История одной песни: «В лесу родилась елочка» История одной песни: «В лесу родилась елочка»

Теперь ты узнаешь, кто ее родил

Maxim
Ученые нашли у беломорских моллюсков необычный способ добывать пищу Ученые нашли у беломорских моллюсков необычный способ добывать пищу

Моллюски Белого моря буквально выедают полипов изнутри

Популярная механика
Как медитация поможет спасти мир, а не только вас Как медитация поможет спасти мир, а не только вас

Эксперт осознанности о том, как найти баланс между внутренним и внешним мирами

GQ
Спрячьте смартфон, если хотите произвести хорошее впечатление на рабочей встрече — особенно с малознакомыми людьми Спрячьте смартфон, если хотите произвести хорошее впечатление на рабочей встрече — особенно с малознакомыми людьми

Почему люди со смартфонами не производят хорошее впечатление

Inc.
«Не обновляли со времен Горбачева». Иностранцы — о российских машинах «Не обновляли со времен Горбачева». Иностранцы — о российских машинах

Какие российские автомобили наделали много шума за рубежом

РБК
Оторви и брось Оторви и брось

Как Ария Кулина пыталась следовать советам из отрывного календаря для женщин

Cosmopolitan
Как снимать кино о мафии: уроки мастера Как снимать кино о мафии: уроки мастера

Как кровавая эпическая сага Мартина Скорсезе пришла к успеху

Playboy
Джанни Версаче и другие знаменитости, ставшие жертвами серийных убийц Джанни Версаче и другие знаменитости, ставшие жертвами серийных убийц

Во всех случаях действовали серийные убийцы

Cosmopolitan
Акцент на акценте: как актеры сериала «Корона» готовились к роли Акцент на акценте: как актеры сериала «Корона» готовились к роли

Над акцентами персонажей сериала «Корона» трудилась целая команда

Cosmopolitan
Комбайны: современные, российские Комбайны: современные, российские

Чем хороши современные модели отечественных комбайнов

Популярная механика
Отрывок из книги Александра Абалова и Владислава Иноземцева «Бесконечная империя» Отрывок из книги Александра Абалова и Владислава Иноземцева «Бесконечная империя»

Отрывок из книги «Бесконечная империя: Россия в поисках себя»

СНОБ
И мы счастливы? И мы счастливы?

Как снимали и закрывали «Дом-2»

Огонёк
Вверх на электричестве: электросамолеты будущего Вверх на электричестве: электросамолеты будущего

Авиацию надо переводить на электричество

Популярная механика
Что нужно сделать разработчику, чтобы получить грант от государства Что нужно сделать разработчику, чтобы получить грант от государства

Кому из создателей программного обеспечения государство готово помогать?

VC.RU
Выходим из праздников Выходим из праздников

Способы ликвидировать последствия новогоднего переедания

Худеем правильно
Магия Pixar Магия Pixar

История создания киностудии Pixar

kiozk originals
Открыть в приложении