Что происходит с системами распознавания текстов и документов сегодня

ТехИнсайдерHi-Tech

Как появилась технология распознавания текста: функция в смартфоне, благодаря которой мы забыли про ручной ввод

Unsplash

Первые программные продукты на базе технологий распознавания текста, они же OCR, появились в России ровно 30 лет назад. Их развитие ознаменовалось крайне интересным противостоянием разработчиков. В этой гонке систем распознавания участвовала, с одной стороны, группа выпускников МФТИ, а с другой – команда советских ученых. Чем закончилась эта битва и что происходит с системами распознавания документов сегодня, в эпоху нейросетей и искусственного интеллекта – читайте в материале.

Первые шаги на пути «OCRизации»

Сегодня технологии распознавания символов являются неотъемлемой частью нашей действительности. Фотографируете листок с текстом, чтобы перевести его на другой язык с помощью онлайн-переводчика? Это OCR. Сканируете номер телефона, чтобы расплатиться за покупку? Тоже OCR. Получаете штраф за превышение скорости? Тут, кстати, тоже виновата OCR. Именно она обнаружила и распознала номер вашего автомобиля. Благодаря OCR человеку не приходится перепечатывать сотни и тысячи строк вручную, это вместо него делает искусственный интеллект. Технологии распознавания помогают нам быстрее проходить паспортный контроль в аэропортах, быстрее покупать билеты на электрички и поезда, заселяться в гостиницы, проходить идентификацию в банках для открытия счета, получать сим-карты. И все это для нас – данность, не более того. А вот в прошлом столетии решение проблемы автоматического ввода данных выглядело настоящим испытанием. В 1932 году, то есть почти сто лет назад, отечественный инженер В.Е. Агапов предпринял первые шаги на пути создания алгоритмов распознавания. Он разработал и представил машину, которая предназначалась для ввода цифр в счетное устройство. Задача распознавания решалась простейшим методом – путем сравнения с набором “эталонов”. По сути, символу присваивалось значение той цифры, которую она визуально напоминала больше всего.

Ситуация изменилась только к концу 80-х–началу 90-х годов, и обусловлено это было двумя факторами. 

  1. Во-первых, появились персональные компьютеры, которые обладали достаточной вычислительной мощностью для решения по-настоящему сложных задач.
  2. И, во-вторых, появились сканеры, с помощью которых можно было с большой скоростью вводить в компьютер неограниченное количество изображений текстов. 

Тогда же в России принялись разрабатывать первые программы распознавания текста OCR (Optical Character Recognition). Причем одновременно решать эту задачу принялись в двух местах – в лаборатории искусственного интеллекта Института системного анализа Российской академии наук (ИСА РАН) и в общежитии Московского физико-технического института (МФТИ). 

Приключения шахматного короля, или история про укрощение тигра

Переместимся сперва в Институт системного анализа РАН. Там разработку первой коммерческой OCR в конце 80-х возглавил Владимир Арлазаров, доктор технических наук, пионер в области искусственного интеллекта и всемирно известный ученый. 

К тому моменту он уже имел колоссальный опыт в решении интеллектуальных задач, таких как разработка операционных и информационных систем, СУБД, создание шахматных программ. 

Так, именно Арлазаров вместе со своей командой создал шахматную программу «Каисса», получившую название в честь вымышленной богини шахмат и ставшую первым чемпионом мира по шахматам среди шахматных программ (1974). Он был одним из авторов теоремы «четырех русских». «Советский Microsoft» СУБД ИНЕС», которую в Советском Союзе использовали одновременно несколько тысяч предприятий – кстати, тоже достижение команды Владимира Львовича.

Владимир Львович Арлазаров (слева)
Владимир Львович Арлазаров (слева). Институт системного анализа РАН

На рубеже восьмого и девятого десятилетий прошлого века команда Арлазарова получила запрос от общества слепых – сделать технологию, которая позволяла бы оцифровывать книги, чтобы впоследствии переводить их на шрифт Брайля. Одновременно с этим поступил еще один заказ – от издательства «Художественная литература, занимавшегося в то время исключительно переизданием книг. Необходимо было создать OCR, с помощью которой можно было бы оцифровывать старые книги.  

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Первоначально Юпитер был в 2 раза больше, чем сегодня Первоначально Юпитер был в 2 раза больше, чем сегодня

Магнитное поле юного Юпитера было в 50 раз больше, чем сейчас

ТехИнсайдер
Московская классика Московская классика

Интерьер, вдохновленный скандинавским стилем и духом старой Москвы

SALON-Interior
«Осторожно, в небе металлолом» — Что делают со старыми авиалайнерами «Осторожно, в небе металлолом» — Что делают со старыми авиалайнерами

Почему пассажирские авиалайнеры так рано списывают?

ТехИнсайдер
Константин Станиславский: Правда и мифы Константин Станиславский: Правда и мифы

Что в биографии Константина Станиславского правда, а что — устоявшийся вымысел?

Караван историй
Новое исследование: мат улучшает спортивные результаты Новое исследование: мат улучшает спортивные результаты

Как «матюки» во время физических нагрузок помогают превзойти свои возможности

Maxim
Российские компании переписывают утиную историю Российские компании переписывают утиную историю

В чем причина резкого роста производства утки

Агроинвестор
У нас подкаст. Возможно, криминал: почему все кругом слушают и смотрят подкасты о маньяках, и когда это началось? У нас подкаст. Возможно, криминал: почему все кругом слушают и смотрят подкасты о маньяках, и когда это началось?

С чем связано желание аудитории слушать и читать «про страшное»?

Правила жизни
10 исторических фактов, которые раскрывают секреты секса на Руси 10 исторических фактов, которые раскрывают секреты секса на Руси

Как менялись сексуальные обычаи и практики в России за последнюю тысячу лет

Psychologies
«До сих пор не могу привыкнуть к тому, что меня называют певцом» «До сих пор не могу привыкнуть к тому, что меня называют певцом»

Торнике Квитатиани — о съемках, спортивной дисциплине и грузинских традициях

OK!
Критикан высокой кухни Критикан высокой кухни

«Ничего»: гурманский кулинарный сериал

Weekend
«Вставь это немедленно»: почему сцены секса в литературе так плохи «Вставь это немедленно»: почему сцены секса в литературе так плохи

Почему писателям так трудно даются удачные постельные сцены?

Psychologies
Проповедники убийств Проповедники убийств

Жан-Поль Марат, Максимилиан Робеспьер и Жорж Дантон — идеологи террора

Дилетант
Древняя архитектура и природный колорит: гид по лучшим местам Еревана Древняя архитектура и природный колорит: гид по лучшим местам Еревана

Что стоит увидеть в столице Армении и навсегда запечатлеть в памяти

Forbes
10 шагов, которые нужно сделать, чтобы достичь внутреннего спокойствия в трудные времена и во время кризиса 10 шагов, которые нужно сделать, чтобы достичь внутреннего спокойствия в трудные времена и во время кризиса

10 шагов, которые помогут сохранить самообладание в трудные времена

Inc.
Марина Кравец: «Никогда не пыталась стать частью тусовки» Марина Кравец: «Никогда не пыталась стать частью тусовки»

Марина Кравец – об учебе на филфаке, тревогах материнства и строптивых женщинах

VOICE
«Принесшую сюрприз» ночную бабочку из Хорватии отнесли к новому роду и виду «Принесшую сюрприз» ночную бабочку из Хорватии отнесли к новому роду и виду

Энтомологи обнаружили новый род и вид ночных бабочек из Хорватии

N+1
Легенда с характером Легенда с характером

Чем российский любительский автоспорт лучше профессионального

Автопилот
Компактное застолье Компактное застолье

Даже на небольшой кухне должно быть место, где можно уютно позавтракать

Лиза
Работа в команде. 5 способов этому научиться Работа в команде. 5 способов этому научиться

Как стать человеком, который обладает навыками работы в команде?

Лиза
На прежние рельсы На прежние рельсы

Путешествие на поезде как способ перенестись в другую эпоху

Robb Report
Петр Чех обожает хоккей: теперь он выступает за чемпиона Великобритании Петр Чех обожает хоккей: теперь он выступает за чемпиона Великобритании

Как легендарный футболист Петр Чех фанатеет от игры на льду

Forbes
Рабочий вариант Рабочий вариант

Изначально Sollers Atlant – это китайский малотоннажник Sunray

Автопилот
«Требуйте в лучших магазинах и аптеках»: история советского шампанского «Требуйте в лучших магазинах и аптеках»: история советского шампанского

Советское шампанское: как оно появилось и стало массовым

ТехИнсайдер
Переменное напряжение Переменное напряжение

ВЧ-мобиль – неосуществленный проект сороковых годов

Автопилот
10 самых лучших и горячих азиатских порноактрис в 2023 году 10 самых лучших и горячих азиатских порноактрис в 2023 году

Самые зажигательные девушки Азии

Maxim
Новый «зеркальный ящик» для доктора Хауса: виртуальная реальность создает реальные ощущения Новый «зеркальный ящик» для доктора Хауса: виртуальная реальность создает реальные ощущения

Может ли рука чувствовать виртуальный предмет?

ТехИнсайдер
Полностью многоразовая ракетаноситель от фирмы Stoke Space Полностью многоразовая ракетаноситель от фирмы Stoke Space

Как Stoke Space решает проблему повторного использования вторых ступеней ракет

Наука и техника
Квалифицированный заказчик: как получаются замечательные школьные здания Квалифицированный заказчик: как получаются замечательные школьные здания

Как получаются замечательные школьные здания

Наука
Капитан Южного океана Капитан Южного океана

История великого путешественника и первооткрывателя Джеймса Кука

Знание – сила
Правила игры: как и зачем внедрять геймификацию в работу сотрудников Правила игры: как и зачем внедрять геймификацию в работу сотрудников

Как грамотно встроить элементы геймификации в систему мотивации персонала

Forbes
Открыть в приложении