Почему научить машину писать — легко, а искать ошибки в написанном — трудно

VC.RUHi-Tech

Обработка естественного языка: как создать «грамотного робота»

Узнали у разработчиков, почему научить машину писать — легко, а искать ошибки в написанном — трудно.

1280

Уже десяток российских команд включились в сложнейшую задачу по машинному обучению. Вот её условия:

Дано: реальные сочинения с ЕГЭ на двух языках — русском и английском. Их разметили школьные учителя: выделили смысловые блоки (аргументы, примеры, выводы) и нашли ошибки. В их числе — нарушение логики, искажение смысла, несоответствие теме.

1280

Задача: создать алгоритм, который сможет размечать такие же тексты и находить ошибки не хуже учителей. То есть разметка алгоритма должна отличаться от разметок педагогов не сильнее, чем разметки педагогов отличаются друг от друга. Язык можно выбрать на своё усмотрение.

Мы пообщались с тремя командами, работающими над решением.

  • «Антиплагиат» разработал одноимённый сервис обнаружения заимствований в текстах. В конкурсной команде эксперты в области машинного обучения, исследователи-алгоритмисты и специалисты по подготовке данных.
  • В составе команды «Наносемантика» — сотрудники «Нейросетей Ашманова» и системы проверки правописания «ОРФО»: нейросетевики, разработчики и лингвисты.
  • Команда DeepPavlov сформировалась во время работы над библиотекой разговорного AI DeepPavlov. Все участники — сотрудники лаборатории МФТИ.

Расскажите про своё решение. Какие ошибки оно уже определяет? Использовали в нём готовые модули или собственные наработки?

Антиплагиат: Делиться секретами до подведения хотя бы предварительных итогов было бы очень самонадеянно. Создание такого непростого алгоритма — задача творческая, каждая команда идёт к её решению особым путём.

Что касается результатов, то наш алгоритм приблизился к человеку в плане обнаружения грамматических ошибок.

Наносемантика: Конкурс лежит прямо в русле нашей работы. Мы развиваем одну из самых продвинутых систем проверки правописания — «ОРФО» — и как раз сейчас доделываем для неё английский граммер. А заодно экспериментируем с нейросетевыми модулями для выявления сложных ошибок — например, в расстановке артиклей, употреблении форм глагола или выборе слов из тех, которые для иностранца звучат похоже (steal вместо still или thin вместо thing).

Мы не стали ничего выдумывать, а просто попробовали подготовить бета-версию некоего продукта, напоминающего тот, который мы собираемся выпустить в будущем. Получилась в лучшем случае альфа (что тоже неплохо) — и, конечно, не хватило нескольких дней на то, чтобы выявить и исправить кучу крайне обидных ошибок. Не говоря уже о том, чтобы что-то отполировать.

Если в двух словах, то наше решение — соединение нейромодулей с традиционным граммером на правилах, который пока находит больше ошибок, но и сам ошибается чаще.

Это решение не было самым простым — кажется, мы знаем, как написать примитивную заглушку, которая формально дала бы результаты получше. И не удивлюсь, если какая-то из команд в условиях цейтнота так и поступила. Но мы заметно продвинулись в тех направлениях, в которых хотели продвинуться. Судя по разметке экспертов в доступных эссе, наша модель уже исправляет артикли не хуже среднестатистического учителя. Не знаем, насколько это серьёзный комплимент.

1280

На скриншоте — редкий пример текста, в котором найдено много ошибок. К другим эссе у нейросети претензий было меньше — часто одна-две, иногда ни одной. Сочинение, впрочем, действительно выдающееся: внимательный читатель, хотя бы немного знающий английский, легко найдёт в нём ошибки, которые наши модули пропустили.

Среди отмеченных ошибок, к сожалению, встречаются и ложные срабатывания. В предложении «дети предпочитают компьютерные игры обучению» нейросеть предлагает добавить местоимение (them), но тогда смысл исказится: «дети предпочитают играть в компьютерные игры, а не изучать их».

DeepPavlov: Мы использовали буквально всё, что могли, из нашей библиотеки и не только из неё. Для конкурса Alexa Prize от Amazon мы разработали DeepPavlov Agent — платформу для оркестрирования диалогов. Она отлично подошла и для этого конкурса и позволила нам совмещать несколько моделей, управлять ими и агрегировать результаты.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

«Экзамен сдал, но на троечку»: как чат-бот ChatGPT пытался выпуститься из университетов «Экзамен сдал, но на троечку»: как чат-бот ChatGPT пытался выпуститься из университетов

С простыми экзаменационными вопросами ChatGPT справляется не хуже студентов

VC.RU
Девочки из нашего детства: судьбы юных героинь советского кино Девочки из нашего детства: судьбы юных героинь советского кино

Как сложилась жизнь юных актрис после славы?

Cosmopolitan
Образование без серверов: как и зачем использовать облачные технологии вузам Образование без серверов: как и зачем использовать облачные технологии вузам

Использование облачных технологий в процессе образования улучшает успеваемость

Forbes
Шрам от гольфа и смешное прозвище: малоизвестные факты о принце Уильяме Шрам от гольфа и смешное прозвище: малоизвестные факты о принце Уильяме

Факты о принце Уильяме, которые обычно остаются за кадром

Cosmopolitan
5 сверхспособностей, которые станут доступны людям уже через 5 лет по версии футурологов 5 сверхспособностей, которые станут доступны людям уже через 5 лет по версии футурологов

Какие «суперспособности» станут реальностью уже к 2030 году — и какой ценой?

Maxim
Цапли, ибис каравайка и бескрайние просторы: как в России развивается сельский заповедный туризм Цапли, ибис каравайка и бескрайние просторы: как в России развивается сельский заповедный туризм

Показываем, как живут современные заповедники России

Forbes
«Не обновляли со времен Горбачева». Иностранцы — о российских машинах «Не обновляли со времен Горбачева». Иностранцы — о российских машинах

Какие российские автомобили наделали много шума за рубежом

РБК
Наука гигиены: как часто менять постельное белье и стирать вещи — 9 правил Наука гигиены: как часто менять постельное белье и стирать вещи — 9 правил

Как правильно поддерживать чистоту в доме

Популярная механика
Мораль vs прибыль: почему благотворительные фонды имеют право зарабатывать деньги Мораль vs прибыль: почему благотворительные фонды имеют право зарабатывать деньги

Как НКО могут самостоятельно зарабатывать на свое существование?

Forbes
Анбоксинг беспилотника «СтарЛайн» Анбоксинг беспилотника «СтарЛайн»

Как ездит беспилотный автомобиль из Петербурга

N+1
Как Газпромбанк помог водителю микроавтобуса стать совладельцем мегаподрядчика «Газпрома» Как Газпромбанк помог водителю микроавтобуса стать совладельцем мегаподрядчика «Газпрома»

В 2018 году «Газпром» начал создавать своего мегаподрядчика

Forbes
7,3 млн рублей за 4,8 секунд: зачем в России спортивный внедорожник Audi SQ8 7,3 млн рублей за 4,8 секунд: зачем в России спортивный внедорожник Audi SQ8

Одна из важных новинок 2020 года — Audi SQ8

Forbes
Скафандр для работы дома Скафандр для работы дома

Средство, которое по мнению Хьюго Гернсбека, поможет не отвлекаться от работы

Наука и жизнь
Зачем Россия спасает Никола Пашиняна Зачем Россия спасает Никола Пашиняна

Москва не хочет исправлять ошибки своей политики на постсоветском пространстве

СНОБ
Контуринг по форме лица: примеры звезд и полезные советы Контуринг по форме лица: примеры звезд и полезные советы

"Всемогущий" контуринг способен зрительно скорректировать твои черты лица

Cosmopolitan
7 вопросов о наших жировых клетках 7 вопросов о наших жировых клетках

Что влияет на жировые клетки? И как эти клетки потом влияют на нас?

Худеем правильно
Разумные сомнения. Как критическое мышление помогает распознавать дезинформацию и противостоять манипуляциям Разумные сомнения. Как критическое мышление помогает распознавать дезинформацию и противостоять манипуляциям

Как не попадаться на обман и манипуляции собственного мозга и других людей

РБК
9 мифов о здоровье, в которые пора перестать верить (это городские легенды) 9 мифов о здоровье, в которые пора перестать верить (это городские легенды)

Мифы о здоровье, которые могут тебе навредить

Playboy
Идеальный пресс: тренировка от фитнес-эксперта Идеальный пресс: тренировка от фитнес-эксперта

Простая и эффективная тренировка, которая поможет добиться шикарного пресса

Cosmopolitan
Ленивые тренировки Ленивые тренировки

Минусы и плюсы EMS-тренировок

Здоровье
Как вежливо отказать: 9 советов, если ты хочешь сказать кому-то «нет» Как вежливо отказать: 9 советов, если ты хочешь сказать кому-то «нет»

Подборка советов, которые помогут научиться вежливо отказывать людям

Playboy
Новые модные иконы из сериалов — на чей стиль мы равнялись в 2020 году Новые модные иконы из сериалов — на чей стиль мы равнялись в 2020 году

Стильные иконы из сериалов, которые мы смотрели в 2020 году

Cosmopolitan
Почему подход Waymo к автопилоту может оказаться надёжнее подхода Tesla Почему подход Waymo к автопилоту может оказаться надёжнее подхода Tesla

Чем примечателен подход Waymo к автономным такси?

VC.RU
Тело мастера. На экраны выходит документальный фильм «Диего Марадона» Тело мастера. На экраны выходит документальный фильм «Диего Марадона»

Азиф Кападиа реконструирует миф о великом футболисте и несчастном гении

СНОБ
19 м² 19 м²

Двухуровневая квартира Александры Ермиловой из BüroBlanc в здании бывшей фабрики

AD
К 2050 году сельское хозяйство нарушит местообитания почти 90 процентов позвоночных К 2050 году сельское хозяйство нарушит местообитания почти 90 процентов позвоночных

Сельскохозяйственные земли напрямую повлияют на сокращение биоразнообразия

N+1
«Дурная кровь» — новая книга Джоан Роулинг из цикла о детективе Корморане Страйке. Публикуем ее фрагмент «Дурная кровь» — новая книга Джоан Роулинг из цикла о детективе Корморане Страйке. Публикуем ее фрагмент

Отрывок из нового детективного романа Джоан Роулинг «Дурная кровь»

Esquire
«Мне хотелось бы придумывать будущее» «Мне хотелось бы придумывать будущее»

Тина Канделаки заряжена на успех, и так было всегда

OK!
Бейсбол перед эшафотом: как заключенные из камеры смертников чуть не стали чемпионами Америки Бейсбол перед эшафотом: как заключенные из камеры смертников чуть не стали чемпионами Америки

Каждый выигранный матч означал для этой команды отсрочку смертной казни

Maxim
Байки из ветклиники Байки из ветклиники

Отрывок из книги «Случайный ветеринар. Записки практикующего айболита»

СНОБ
Открыть в приложении