Что происходит с системами распознавания текстов и документов сегодня

ТехИнсайдерHi-Tech

Как появилась технология распознавания текста: функция в смартфоне, благодаря которой мы забыли про ручной ввод

Unsplash

Первые программные продукты на базе технологий распознавания текста, они же OCR, появились в России ровно 30 лет назад. Их развитие ознаменовалось крайне интересным противостоянием разработчиков. В этой гонке систем распознавания участвовала, с одной стороны, группа выпускников МФТИ, а с другой – команда советских ученых. Чем закончилась эта битва и что происходит с системами распознавания документов сегодня, в эпоху нейросетей и искусственного интеллекта – читайте в материале.

Первые шаги на пути «OCRизации»

Сегодня технологии распознавания символов являются неотъемлемой частью нашей действительности. Фотографируете листок с текстом, чтобы перевести его на другой язык с помощью онлайн-переводчика? Это OCR. Сканируете номер телефона, чтобы расплатиться за покупку? Тоже OCR. Получаете штраф за превышение скорости? Тут, кстати, тоже виновата OCR. Именно она обнаружила и распознала номер вашего автомобиля. Благодаря OCR человеку не приходится перепечатывать сотни и тысячи строк вручную, это вместо него делает искусственный интеллект. Технологии распознавания помогают нам быстрее проходить паспортный контроль в аэропортах, быстрее покупать билеты на электрички и поезда, заселяться в гостиницы, проходить идентификацию в банках для открытия счета, получать сим-карты. И все это для нас – данность, не более того. А вот в прошлом столетии решение проблемы автоматического ввода данных выглядело настоящим испытанием. В 1932 году, то есть почти сто лет назад, отечественный инженер В.Е. Агапов предпринял первые шаги на пути создания алгоритмов распознавания. Он разработал и представил машину, которая предназначалась для ввода цифр в счетное устройство. Задача распознавания решалась простейшим методом – путем сравнения с набором “эталонов”. По сути, символу присваивалось значение той цифры, которую она визуально напоминала больше всего.

Ситуация изменилась только к концу 80-х–началу 90-х годов, и обусловлено это было двумя факторами. 

  1. Во-первых, появились персональные компьютеры, которые обладали достаточной вычислительной мощностью для решения по-настоящему сложных задач.
  2. И, во-вторых, появились сканеры, с помощью которых можно было с большой скоростью вводить в компьютер неограниченное количество изображений текстов. 

Тогда же в России принялись разрабатывать первые программы распознавания текста OCR (Optical Character Recognition). Причем одновременно решать эту задачу принялись в двух местах – в лаборатории искусственного интеллекта Института системного анализа Российской академии наук (ИСА РАН) и в общежитии Московского физико-технического института (МФТИ). 

Приключения шахматного короля, или история про укрощение тигра

Переместимся сперва в Институт системного анализа РАН. Там разработку первой коммерческой OCR в конце 80-х возглавил Владимир Арлазаров, доктор технических наук, пионер в области искусственного интеллекта и всемирно известный ученый. 

К тому моменту он уже имел колоссальный опыт в решении интеллектуальных задач, таких как разработка операционных и информационных систем, СУБД, создание шахматных программ. 

Так, именно Арлазаров вместе со своей командой создал шахматную программу «Каисса», получившую название в честь вымышленной богини шахмат и ставшую первым чемпионом мира по шахматам среди шахматных программ (1974). Он был одним из авторов теоремы «четырех русских». «Советский Microsoft» СУБД ИНЕС», которую в Советском Союзе использовали одновременно несколько тысяч предприятий – кстати, тоже достижение команды Владимира Львовича.

Владимир Львович Арлазаров (слева)
Владимир Львович Арлазаров (слева). Институт системного анализа РАН

На рубеже восьмого и девятого десятилетий прошлого века команда Арлазарова получила запрос от общества слепых – сделать технологию, которая позволяла бы оцифровывать книги, чтобы впоследствии переводить их на шрифт Брайля. Одновременно с этим поступил еще один заказ – от издательства «Художественная литература, занимавшегося в то время исключительно переизданием книг. Необходимо было создать OCR, с помощью которой можно было бы оцифровывать старые книги.  

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Чистая психология: как осанка влияет на нашу самооценку Чистая психология: как осанка влияет на нашу самооценку

Как прямая спина и расправленные плечи влияют на психическое состояние?

ТехИнсайдер
Хватит кашлять! Хватит кашлять!

Натуральные средства от сухого кашля

Лиза
Типы матриц телевизоров: выбираем лучшую Типы матриц телевизоров: выбираем лучшую

Матрицы телевизоров: как в них не запутаться и какой тип выбрать?

CHIP
«Наследие»: отрывок из нового романа Владимира Сорокина о докторе Гарине «Наследие»: отрывок из нового романа Владимира Сорокина о докторе Гарине

Глава из книги Владимира Сорокина «Наследие»

Forbes
Мы выбираем друг друга не случайно Мы выбираем друг друга не случайно

Выбор партнера предопределен всем предшествующим ходом нашей жизни

Psychologies
От склада к вектору: эволюция гуманитарного знания От склада к вектору: эволюция гуманитарного знания

Руина и гегелевское «снятие»

Знание – сила
Новый вызов Новый вызов

Юлия Пересильд примерила корону в прямом смысле слова

OK!
Генетики прочитали 1526 геномов бантуговорящих африканцев Генетики прочитали 1526 геномов бантуговорящих африканцев

Палеогенетики исследовали ДНК 1763 африканцев

N+1
Анна Кранк Анна Кранк

Анна Кранк — о розовых пони, боксе и русском национальном феминизме

Собака.ru
Позолоченные «бриджертоны» Позолоченные «бриджертоны»

«Буканьерки»: невесты 1870-го выбирают Тейлор Свифт

Weekend
Новогодняя революция Новогодняя революция

Кубинская революция произошла в очень удобное время для последующих торжеств

Дилетант
Как важно быть практичным Как важно быть практичным

Альберто Перроне — об относительно новом явлении на рынке частных яхт

Y Magazine
Креативная Вселенная Креативная Вселенная

Как прошел и чем завершился студенческий конкурс дизайна Omoda

Автопилот
Суровый режиссер Майкл Манн рассказывает про свой новый «Феррари», так зовется его новый фильм Суровый режиссер Майкл Манн рассказывает про свой новый «Феррари», так зовется его новый фильм

Интервью с человеком, который снял «Схватку», «Полицию Майами» и «Соучастника»

Maxim
6 вопросов, чтобы решиться на разрыв отношений с родственником 6 вопросов, чтобы решиться на разрыв отношений с родственником

Несколько подсказок тем, кто хочет прекратить отношения с близким

Psychologies
Татьяна Васильева: «Мне кажется, все великие артисты дураки» Татьяна Васильева: «Мне кажется, все великие артисты дураки»

Большое интервью с Татьяной Васильевой

Коллекция. Караван историй
В одну черную, черную пятницу… В одну черную, черную пятницу…

Что такое синдром упущенной выгоды и как нас заставляют покупать ненужное

Лиза
Умный нос Умный нос

«Электронный нос» поможет избежать вредных примесей в упаковке

Наука
Как производители подсаживают вас на электронные сигареты: 3 коварных приема Как производители подсаживают вас на электронные сигареты: 3 коварных приема

Почему электронные сигареты такие популярные?

Psychologies
Теория большого срыва Теория большого срыва

Однажды вместо офиса можно оказаться в клинике неврозов

VOICE
Лидер, игрок, мудрец: 12 архетипов, которые складываются в ходе взросления с братьями и сестрами Лидер, игрок, мудрец: 12 архетипов, которые складываются в ходе взросления с братьями и сестрами

Почему так важно дружить с братьями и сестрами, особенно когда мы взрослеем?

Psychologies
Спорт круглый год: можно ли бегать зимой и какая от этого польза Спорт круглый год: можно ли бегать зимой и какая от этого польза

Бегать зимой можно! Нужно лишь учитывать некоторые нюансы

ТехИнсайдер
С днем рождения, небесный маэстро! С днем рождения, небесный маэстро!

Вспомним историю легендарного авиаконструктора — Андрея Николаевича Туполева

Наука и техника
После антибиотиков: как биологи пытаются предотвратить будущие пандемии После антибиотиков: как биологи пытаются предотвратить будущие пандемии

Как наука и общество должны бороться с пандемиями

Forbes
Происхождение совершенства Происхождение совершенства

Когда и почему растения свернулись в идеальную спираль

N+1
Помните Макдоналдс? Вот как чизбургер и наггетсы связаны с вашей личностью! Помните Макдоналдс? Вот как чизбургер и наггетсы связаны с вашей личностью!

Заказ определенного блюда может многое рассказать о том, какой вы человек

ТехИнсайдер
Диета «Стол №10»: при каких заболеваниях рекомендуется, рецепты Диета «Стол №10»: при каких заболеваниях рекомендуется, рецепты

Может ли «Стол №10» помочь в лечении сердечно-сосудистых заболеваний

РБК
От охотничьих пиджаков до добротного винтажа: краткая история твида От охотничьих пиджаков до добротного винтажа: краткая история твида

Самая благородная ткань — это вовсе не бархат, а традиционный британский твид

Правила жизни
Как Дайана Найэд проплыла от Кубы до Флориды и установила мировой рекорд в 64 года Как Дайана Найэд проплыла от Кубы до Флориды и установила мировой рекорд в 64 года

«Фри-соло»: необычный, но захватывающий байопик

Forbes
Забыть нельзя вспомнить Забыть нельзя вспомнить

Почему нам трудно сосредоточиться или освоить функции в новом смартфоне?

Psychologies
Открыть в приложении