Что происходит с системами распознавания текстов и документов сегодня

ТехИнсайдерHi-Tech

Как появилась технология распознавания текста: функция в смартфоне, благодаря которой мы забыли про ручной ввод

Unsplash

Первые программные продукты на базе технологий распознавания текста, они же OCR, появились в России ровно 30 лет назад. Их развитие ознаменовалось крайне интересным противостоянием разработчиков. В этой гонке систем распознавания участвовала, с одной стороны, группа выпускников МФТИ, а с другой – команда советских ученых. Чем закончилась эта битва и что происходит с системами распознавания документов сегодня, в эпоху нейросетей и искусственного интеллекта – читайте в материале.

Первые шаги на пути «OCRизации»

Сегодня технологии распознавания символов являются неотъемлемой частью нашей действительности. Фотографируете листок с текстом, чтобы перевести его на другой язык с помощью онлайн-переводчика? Это OCR. Сканируете номер телефона, чтобы расплатиться за покупку? Тоже OCR. Получаете штраф за превышение скорости? Тут, кстати, тоже виновата OCR. Именно она обнаружила и распознала номер вашего автомобиля. Благодаря OCR человеку не приходится перепечатывать сотни и тысячи строк вручную, это вместо него делает искусственный интеллект. Технологии распознавания помогают нам быстрее проходить паспортный контроль в аэропортах, быстрее покупать билеты на электрички и поезда, заселяться в гостиницы, проходить идентификацию в банках для открытия счета, получать сим-карты. И все это для нас – данность, не более того. А вот в прошлом столетии решение проблемы автоматического ввода данных выглядело настоящим испытанием. В 1932 году, то есть почти сто лет назад, отечественный инженер В.Е. Агапов предпринял первые шаги на пути создания алгоритмов распознавания. Он разработал и представил машину, которая предназначалась для ввода цифр в счетное устройство. Задача распознавания решалась простейшим методом – путем сравнения с набором “эталонов”. По сути, символу присваивалось значение той цифры, которую она визуально напоминала больше всего.

Ситуация изменилась только к концу 80-х–началу 90-х годов, и обусловлено это было двумя факторами. 

  1. Во-первых, появились персональные компьютеры, которые обладали достаточной вычислительной мощностью для решения по-настоящему сложных задач.
  2. И, во-вторых, появились сканеры, с помощью которых можно было с большой скоростью вводить в компьютер неограниченное количество изображений текстов. 

Тогда же в России принялись разрабатывать первые программы распознавания текста OCR (Optical Character Recognition). Причем одновременно решать эту задачу принялись в двух местах – в лаборатории искусственного интеллекта Института системного анализа Российской академии наук (ИСА РАН) и в общежитии Московского физико-технического института (МФТИ). 

Приключения шахматного короля, или история про укрощение тигра

Переместимся сперва в Институт системного анализа РАН. Там разработку первой коммерческой OCR в конце 80-х возглавил Владимир Арлазаров, доктор технических наук, пионер в области искусственного интеллекта и всемирно известный ученый. 

К тому моменту он уже имел колоссальный опыт в решении интеллектуальных задач, таких как разработка операционных и информационных систем, СУБД, создание шахматных программ. 

Так, именно Арлазаров вместе со своей командой создал шахматную программу «Каисса», получившую название в честь вымышленной богини шахмат и ставшую первым чемпионом мира по шахматам среди шахматных программ (1974). Он был одним из авторов теоремы «четырех русских». «Советский Microsoft» СУБД ИНЕС», которую в Советском Союзе использовали одновременно несколько тысяч предприятий – кстати, тоже достижение команды Владимира Львовича.

Владимир Львович Арлазаров (слева)
Владимир Львович Арлазаров (слева). Институт системного анализа РАН

На рубеже восьмого и девятого десятилетий прошлого века команда Арлазарова получила запрос от общества слепых – сделать технологию, которая позволяла бы оцифровывать книги, чтобы впоследствии переводить их на шрифт Брайля. Одновременно с этим поступил еще один заказ – от издательства «Художественная литература, занимавшегося в то время исключительно переизданием книг. Необходимо было создать OCR, с помощью которой можно было бы оцифровывать старые книги.  

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

От гордыни до похоти: какие бывают семь смертных грехов и актуальны ли они сегодня От гордыни до похоти: какие бывают семь смертных грехов и актуальны ли они сегодня

Какой посыл несет в себе каждый из смертных грехов?

ТехИнсайдер
Передел Европы. Часть I. Игры дипломатов Передел Европы. Часть I. Игры дипломатов

В отношениях Италии и Франции в 1919 году возникла трещина

Знание – сила
Как ретейлеры поддерживают индустрию электрокаров в России Как ретейлеры поддерживают индустрию электрокаров в России

Как ретейлеры развивают сети электрозаправок и заботятся об электрокарах

СНОБ
Вы этого не знали! Какие бывают капсулы для стирки и как правильно ими пользоваться Вы этого не знали! Какие бывают капсулы для стирки и как правильно ими пользоваться

Капсулы для стирки: как и из чего они производятся, как ими пользоваться?

ТехИнсайдер
5 советов, как отключить голову во время секса 5 советов, как отключить голову во время секса

Как перестать думать о неважном и начать чувствовать?

Psychologies
Доска почёта Доска почёта

Как изготавливают самые быстрые и красивые сноуборды

Robb Report
Восточный ветер Восточный ветер

Dongfeng – это вам не какой-то стартап, а компания более чем заслуженная

Автопилот
Гонимая и ненагражденная Гонимая и ненагражденная

Почему Лиза Мейтнер так и не получила Нобелевскую премию

Знание – сила
Американка убила своего мужа, отравив его пиво, — а дочь помогла ей! Американка убила своего мужа, отравив его пиво, — а дочь помогла ей!

Как в ноябре 2022 года Эшли Джонс и Марша Аллен решились на преступление

ТехИнсайдер
Происхождение совершенства Происхождение совершенства

Когда и почему растения свернулись в идеальную спираль

N+1
Организация искусственного интеллекта: ждет ли ИИ система глобального регулирования Организация искусственного интеллекта: ждет ли ИИ система глобального регулирования

Как модели регулирования могут способствовать безопасному развитию технологий

Forbes
«Экстраверт, холерик, грейсексуал»: вред и польза психологических ярлыков «Экстраверт, холерик, грейсексуал»: вред и польза психологических ярлыков

Что нам мешает название, которым мы пытаемся обозначить свое «Я»

Psychologies
Неуверенность в общении с мужчинами: откуда возникает и как побороть Неуверенность в общении с мужчинами: откуда возникает и как побороть

Почему во время общения с мужчинами вы чувствуете себя неуверенно?

Psychologies
Каким получился «Слово пацана» — сериал о казанских ОПГ 1980-х, поражающий масштабом? Каким получился «Слово пацана» — сериал о казанских ОПГ 1980-х, поражающий масштабом?

«Слово пацана»: почему этот сериал выходит за рамки обычной криминальной драмы

Правила жизни
Не только ангина Не только ангина

17 причин белого налета в горле

Лиза
«Театр — сообщество любителей винила» «Театр — сообщество любителей винила»

Константин Хабенский — о том, что сделано за два года в МХТ

OK!
LinkedIn: 45% компаний стали чаще обращали внимание на навыки, а не образование LinkedIn: 45% компаний стали чаще обращали внимание на навыки, а не образование

Работодатели стали обращать внимание на навыки соискателя работы

Inc.
Куда уходит энергия? Куда уходит энергия?

Где же наша бодрость? Почему мы поддерживаем режим дня, но сил не хватает?

Psychologies
Старая и ломается: российские аграрии рискуют остаться без техники Старая и ломается: российские аграрии рискуют остаться без техники

Технологичность растениеводства в России под угрозой

Forbes
Психологи рассказали, почему нельзя задавать детям вопрос «Как дела в школе?» Психологи рассказали, почему нельзя задавать детям вопрос «Как дела в школе?»

Как спросить ребенка о его прошедшем дне, чтобы он дал честный ответ?

Inc.
От мала до велика От мала до велика

Рассматриваем рекордсменов из царства животных

Наука и жизнь
О чем молчат желания О чем молчат желания

Что делать, если желания партнера не совпадают с нашими?

Psychologies
Как Владимир Лебедев стал основателем советской школы детской иллюстрации Как Владимир Лебедев стал основателем советской школы детской иллюстрации

Отрывок из книги-исследования жизни и творчества Владимира Лебедева

Forbes
«Наследие»: отрывок из нового романа Владимира Сорокина о докторе Гарине «Наследие»: отрывок из нового романа Владимира Сорокина о докторе Гарине

Глава из книги Владимира Сорокина «Наследие»

Forbes
Отставить панику! Что делать, если белые вещи покрасилась при стирке Отставить панику! Что делать, если белые вещи покрасилась при стирке

Можно ли спасти покрасившиеся при стирке вещи?

ТехИнсайдер
Робот-химик, вооруженный ИИ, может добыть кислород на Марсе Робот-химик, вооруженный ИИ, может добыть кислород на Марсе

Исследователи разработали робота-химика, который может добыть кислород на Марсе

ТехИнсайдер
Девки не сидели в теремах: какой была интимная жизнь на Руси Девки не сидели в теремах: какой была интимная жизнь на Руси

Как на самом деле жили женщины в допетровскую эпоху?

Forbes
Не устал, но ухожу Не устал, но ухожу

«Дворец»: Роман Полански встречает конец света и прощается

Weekend
Бремя «Белого альбома»: как «Битлз» записали пластинку, которая похоронила шестидесятые Бремя «Белого альбома»: как «Битлз» записали пластинку, которая похоронила шестидесятые

Почему White Album «Битлз» разделил историю музыки на до и после

Правила жизни
E-SIM в часах: действительно ли она вам нужна E-SIM в часах: действительно ли она вам нужна

E-SIM действительно очень удобная функция, но так ли она нужна?

CHIP
Открыть в приложении