Что происходит с системами распознавания текстов и документов сегодня

ТехИнсайдерHi-Tech

Как появилась технология распознавания текста: функция в смартфоне, благодаря которой мы забыли про ручной ввод

Unsplash

Первые программные продукты на базе технологий распознавания текста, они же OCR, появились в России ровно 30 лет назад. Их развитие ознаменовалось крайне интересным противостоянием разработчиков. В этой гонке систем распознавания участвовала, с одной стороны, группа выпускников МФТИ, а с другой – команда советских ученых. Чем закончилась эта битва и что происходит с системами распознавания документов сегодня, в эпоху нейросетей и искусственного интеллекта – читайте в материале.

Первые шаги на пути «OCRизации»

Сегодня технологии распознавания символов являются неотъемлемой частью нашей действительности. Фотографируете листок с текстом, чтобы перевести его на другой язык с помощью онлайн-переводчика? Это OCR. Сканируете номер телефона, чтобы расплатиться за покупку? Тоже OCR. Получаете штраф за превышение скорости? Тут, кстати, тоже виновата OCR. Именно она обнаружила и распознала номер вашего автомобиля. Благодаря OCR человеку не приходится перепечатывать сотни и тысячи строк вручную, это вместо него делает искусственный интеллект. Технологии распознавания помогают нам быстрее проходить паспортный контроль в аэропортах, быстрее покупать билеты на электрички и поезда, заселяться в гостиницы, проходить идентификацию в банках для открытия счета, получать сим-карты. И все это для нас – данность, не более того. А вот в прошлом столетии решение проблемы автоматического ввода данных выглядело настоящим испытанием. В 1932 году, то есть почти сто лет назад, отечественный инженер В.Е. Агапов предпринял первые шаги на пути создания алгоритмов распознавания. Он разработал и представил машину, которая предназначалась для ввода цифр в счетное устройство. Задача распознавания решалась простейшим методом – путем сравнения с набором “эталонов”. По сути, символу присваивалось значение той цифры, которую она визуально напоминала больше всего.

Ситуация изменилась только к концу 80-х–началу 90-х годов, и обусловлено это было двумя факторами. 

  1. Во-первых, появились персональные компьютеры, которые обладали достаточной вычислительной мощностью для решения по-настоящему сложных задач.
  2. И, во-вторых, появились сканеры, с помощью которых можно было с большой скоростью вводить в компьютер неограниченное количество изображений текстов. 

Тогда же в России принялись разрабатывать первые программы распознавания текста OCR (Optical Character Recognition). Причем одновременно решать эту задачу принялись в двух местах – в лаборатории искусственного интеллекта Института системного анализа Российской академии наук (ИСА РАН) и в общежитии Московского физико-технического института (МФТИ). 

Приключения шахматного короля, или история про укрощение тигра

Переместимся сперва в Институт системного анализа РАН. Там разработку первой коммерческой OCR в конце 80-х возглавил Владимир Арлазаров, доктор технических наук, пионер в области искусственного интеллекта и всемирно известный ученый. 

К тому моменту он уже имел колоссальный опыт в решении интеллектуальных задач, таких как разработка операционных и информационных систем, СУБД, создание шахматных программ. 

Так, именно Арлазаров вместе со своей командой создал шахматную программу «Каисса», получившую название в честь вымышленной богини шахмат и ставшую первым чемпионом мира по шахматам среди шахматных программ (1974). Он был одним из авторов теоремы «четырех русских». «Советский Microsoft» СУБД ИНЕС», которую в Советском Союзе использовали одновременно несколько тысяч предприятий – кстати, тоже достижение команды Владимира Львовича.

Владимир Львович Арлазаров (слева)
Владимир Львович Арлазаров (слева). Институт системного анализа РАН

На рубеже восьмого и девятого десятилетий прошлого века команда Арлазарова получила запрос от общества слепых – сделать технологию, которая позволяла бы оцифровывать книги, чтобы впоследствии переводить их на шрифт Брайля. Одновременно с этим поступил еще один заказ – от издательства «Художественная литература, занимавшегося в то время исключительно переизданием книг. Необходимо было создать OCR, с помощью которой можно было бы оцифровывать старые книги.  

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Защитит зубы и сердце! Вот чем сыр полезен для здоровья: интересные факты Защитит зубы и сердце! Вот чем сыр полезен для здоровья: интересные факты

Сыр: богат питательными веществами и полезен для сердца

ТехИнсайдер
Стоит ли заводить отношения с мужчиной сразу после его развода: мнение психолога Стоит ли заводить отношения с мужчиной сразу после его развода: мнение психолога

Что важно знать, если вам встретился мужчина, переживающий развод

Psychologies
Как убедиться, что фотографии действительно удалены с телефона Как убедиться, что фотографии действительно удалены с телефона

Как сделать так, чтобы личные фотографии не вернулись из цифровой могилы

ТехИнсайдер
Спорт круглый год: можно ли бегать зимой и какая от этого польза Спорт круглый год: можно ли бегать зимой и какая от этого польза

Бегать зимой можно! Нужно лишь учитывать некоторые нюансы

ТехИнсайдер
Биоритмы: что это такое, на что влияют, как наладить Биоритмы: что это такое, на что влияют, как наладить

Учимся быть чуткими к биологическим часам и разбираемся, как наладить режим

РБК
Философия на грани безумия: чем болел Фридрих Ницше Философия на грани безумия: чем болел Фридрих Ницше

Фридрих Ницше: жизненный путь психически нездорового философа

Psychologies
6 простых способов взбодриться без кофе и таблеток 6 простых способов взбодриться без кофе и таблеток

Как справиться с сонливостью и отсутствием сил?

Psychologies
Продукты «лайт» Продукты «лайт»

Что на самом деле означает «0%» на упаковке продуктов «лайт» – пользу или вред?

Здоровье
Роболапа с эластичной подошвой распознает тип поверхности на слух Роболапа с эластичной подошвой распознает тип поверхности на слух

Инженеры разработали чувствительную роболапу под названием TRACE Paw

N+1
Почему мужчина быстро кончает: причины и способы этого избежать Почему мужчина быстро кончает: причины и способы этого избежать

Что является причиной «быстрого финиша» у мужчин?

Psychologies
Канцерогенный фактор: можно ли заболеть раком, если работать по ночам Канцерогенный фактор: можно ли заболеть раком, если работать по ночам

Как нарушения сна связаны с онкогенными факторами?

Psychologies
Собаки из погребений эпохи викингов оказались похожи на борзых Собаки из погребений эпохи викингов оказались похожи на борзых

Палеозоолог изучил останки животных, найденные в Швеции

N+1
Стоякам тут не место: почему не стоит заводить отношения на работе Стоякам тут не место: почему не стоит заводить отношения на работе

К чему приводят романтические отношения на работе?

Правила жизни
Действительно ли медитации работают: 11 научных фактов Действительно ли медитации работают: 11 научных фактов

Что наука думает о медитациях? Имеют ли такие практики доказанную эффективность?

ТехИнсайдер
Преступление и выживание Преступление и выживание

«Костяной домик»: отличный хоррор, трансформирующийся в отличный триллер

Weekend
Не просто игра Не просто игра

Учёные доказали, что настольные игры помогают развить математические способности

Здоровье
Нина Дворжецкая: «На «Оттепели» меня назвали пионервожатой» Нина Дворжецкая: «На «Оттепели» меня назвали пионервожатой»

Нина Дворжецкая поделилась своими взглядами на профессию артиста

Коллекция. Караван историй
Московская классика Московская классика

Интерьер, вдохновленный скандинавским стилем и духом старой Москвы

SALON-Interior
«Бензин самотеком не подавать»: о чем предупреждали водителей советских автобусов «Бензин самотеком не подавать»: о чем предупреждали водителей советских автобусов

Что значит надпись «бензин самотеком не подавать» и в чем минусы самотека

ТехИнсайдер
Безумные новогодние блюда прошлого, от которых люди решили отказаться Безумные новогодние блюда прошлого, от которых люди решили отказаться

Блюда, которые сегодня показались бы неуместными на праздничном застолье

ТехИнсайдер
Метод Айви Ли: как в пару шагов достичь максимальной продуктивности Метод Айви Ли: как в пару шагов достичь максимальной продуктивности

Порой для максимальной продуктивности достаточно одного нелинованного листа

ТехИнсайдер
1960-е с большой буквы 1960-е с большой буквы

Как послевоенный новый мир мечтал избавиться от пафоса, но изобрел свой

Weekend
История мобильных телефонов: 5 первых моделей аппаратов История мобильных телефонов: 5 первых моделей аппаратов

Первые мобильные телефоны появились еще в 1950-х годах — рассказываем о них

CHIP
5 видов психотерапии, которые помогут практически с любой проблемой 5 видов психотерапии, которые помогут практически с любой проблемой

Как сделать правильный выбор среди множества направлений психотерапии?

Psychologies
Американка убила своего мужа, отравив его пиво, — а дочь помогла ей! Американка убила своего мужа, отравив его пиво, — а дочь помогла ей!

Как в ноябре 2022 года Эшли Джонс и Марша Аллен решились на преступление

ТехИнсайдер
«О поверхностях мы не знаем ничего» «О поверхностях мы не знаем ничего»

Пластиковые отходы действительно можно превратить в доходы

Наука
«Спасти мир за 24 ч аса — это про меня!» «Спасти мир за 24 ч аса — это про меня!»

Мы встретились с Мариной Ермошкиной и оказались... на чужой свадьбе!

OK!
Наука, война, тюрьма: как сложилась карьера первой женщины-академика СССР Лины Штерн Наука, война, тюрьма: как сложилась карьера первой женщины-академика СССР Лины Штерн

История первой женщины, ставшей действительным членом Академии наук ССС

Forbes
Какой была жизнь в гигантских дирижаблях довоенной эпохи Какой была жизнь в гигантских дирижаблях довоенной эпохи

Путешествие на "цеппелине" напоминало круиз на морском лайнере

ТехИнсайдер
Правила жизни Льва Толстого Правила жизни Льва Толстого

Правила жизни великого российского писателя Льва Толстого

Правила жизни
Открыть в приложении