Что происходит с системами распознавания текстов и документов сегодня

ТехИнсайдерHi-Tech

Как появилась технология распознавания текста: функция в смартфоне, благодаря которой мы забыли про ручной ввод

Unsplash

Первые программные продукты на базе технологий распознавания текста, они же OCR, появились в России ровно 30 лет назад. Их развитие ознаменовалось крайне интересным противостоянием разработчиков. В этой гонке систем распознавания участвовала, с одной стороны, группа выпускников МФТИ, а с другой – команда советских ученых. Чем закончилась эта битва и что происходит с системами распознавания документов сегодня, в эпоху нейросетей и искусственного интеллекта – читайте в материале.

Первые шаги на пути «OCRизации»

Сегодня технологии распознавания символов являются неотъемлемой частью нашей действительности. Фотографируете листок с текстом, чтобы перевести его на другой язык с помощью онлайн-переводчика? Это OCR. Сканируете номер телефона, чтобы расплатиться за покупку? Тоже OCR. Получаете штраф за превышение скорости? Тут, кстати, тоже виновата OCR. Именно она обнаружила и распознала номер вашего автомобиля. Благодаря OCR человеку не приходится перепечатывать сотни и тысячи строк вручную, это вместо него делает искусственный интеллект. Технологии распознавания помогают нам быстрее проходить паспортный контроль в аэропортах, быстрее покупать билеты на электрички и поезда, заселяться в гостиницы, проходить идентификацию в банках для открытия счета, получать сим-карты. И все это для нас – данность, не более того. А вот в прошлом столетии решение проблемы автоматического ввода данных выглядело настоящим испытанием. В 1932 году, то есть почти сто лет назад, отечественный инженер В.Е. Агапов предпринял первые шаги на пути создания алгоритмов распознавания. Он разработал и представил машину, которая предназначалась для ввода цифр в счетное устройство. Задача распознавания решалась простейшим методом – путем сравнения с набором “эталонов”. По сути, символу присваивалось значение той цифры, которую она визуально напоминала больше всего.

Ситуация изменилась только к концу 80-х–началу 90-х годов, и обусловлено это было двумя факторами. 

  1. Во-первых, появились персональные компьютеры, которые обладали достаточной вычислительной мощностью для решения по-настоящему сложных задач.
  2. И, во-вторых, появились сканеры, с помощью которых можно было с большой скоростью вводить в компьютер неограниченное количество изображений текстов. 

Тогда же в России принялись разрабатывать первые программы распознавания текста OCR (Optical Character Recognition). Причем одновременно решать эту задачу принялись в двух местах – в лаборатории искусственного интеллекта Института системного анализа Российской академии наук (ИСА РАН) и в общежитии Московского физико-технического института (МФТИ). 

Приключения шахматного короля, или история про укрощение тигра

Переместимся сперва в Институт системного анализа РАН. Там разработку первой коммерческой OCR в конце 80-х возглавил Владимир Арлазаров, доктор технических наук, пионер в области искусственного интеллекта и всемирно известный ученый. 

К тому моменту он уже имел колоссальный опыт в решении интеллектуальных задач, таких как разработка операционных и информационных систем, СУБД, создание шахматных программ. 

Так, именно Арлазаров вместе со своей командой создал шахматную программу «Каисса», получившую название в честь вымышленной богини шахмат и ставшую первым чемпионом мира по шахматам среди шахматных программ (1974). Он был одним из авторов теоремы «четырех русских». «Советский Microsoft» СУБД ИНЕС», которую в Советском Союзе использовали одновременно несколько тысяч предприятий – кстати, тоже достижение команды Владимира Львовича.

Владимир Львович Арлазаров (слева)
Владимир Львович Арлазаров (слева). Институт системного анализа РАН

На рубеже восьмого и девятого десятилетий прошлого века команда Арлазарова получила запрос от общества слепых – сделать технологию, которая позволяла бы оцифровывать книги, чтобы впоследствии переводить их на шрифт Брайля. Одновременно с этим поступил еще один заказ – от издательства «Художественная литература, занимавшегося в то время исключительно переизданием книг. Необходимо было создать OCR, с помощью которой можно было бы оцифровывать старые книги.  

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Ее уже не спасти: 7 признаков того, что вам пора заменить духовку Ее уже не спасти: 7 признаков того, что вам пора заменить духовку

Признаки, сигнализирующие о том, что духовка нуждается в замене

ТехИнсайдер
Ожирение при нехватке лептина полечили моноклональными антителами Ожирение при нехватке лептина полечили моноклональными антителами

Моноклональныхе антитела помогли при лечении ожирения и липодистрофии

N+1
Информационная безопасность: десять основных видов хакерских атак Информационная безопасность: десять основных видов хакерских атак

Отрывок из книги Антона Евгеньева «Ценность ваших решений»

Forbes
Дело молодое Дело молодое

Автопром ищет точки соприкосновения, чтобы не проиграть борьбу за юные сердца

Автопилот
Мозг, исцеляющий себя Мозг, исцеляющий себя

Реальные истории людей, которые победили болезни и преобразили свой мозг

kiozk originals
Обязательный зимний набор автомобилиста Обязательный зимний набор автомобилиста

Вам когда-нибудь приходилось зимним утром выручать соседа?

4x4 Club
Как долго алкоголь остается в организме. Вы удивитесь! Как долго алкоголь остается в организме. Вы удивитесь!

Спиртное задерживается в нашем теле дольше, чем вы могли подумать

ТехИнсайдер
В контакте с собой В контакте с собой

Как добиться гармонии чувств, разума и тела

Новый очаг
Мир сходит с ума от сериала «Удивительный цифровой цирк»: чем он покоряет зрителей Мир сходит с ума от сериала «Удивительный цифровой цирк»: чем он покоряет зрителей

В чем феномен моментального успеха «Удивительного цифрового цирка»

Psychologies
На коне и с мечом в каждой руке: семь фильмов про женщин-воинов На коне и с мечом в каждой руке: семь фильмов про женщин-воинов

Фильмы, посвященные женщинам-воинам, вписавшим свое имя в историю

Forbes
Каждый пятый житель России имеет опыт бездомности Каждый пятый житель России имеет опыт бездомности

20% россиян имеют опыт бездомности: они жили вне дома, у друзей или в хостелах

Forbes
На пороге сверхспособностей На пороге сверхспособностей

Может ли человек развить в себе сверхспособности?

Знание – сила
Бао Ифэн: За последние 10 лет в Китае сильно изменился круг коллекционеров — они становятся все моложе Бао Ифэн: За последние 10 лет в Китае сильно изменился круг коллекционеров — они становятся все моложе

Бао Ифэн — о коллекционировании китайского искусства и азиатском арт-рынке

СНОБ
Чисто английские детективы: 12 добротных сериалов для холодных вечеров Чисто английские детективы: 12 добротных сериалов для холодных вечеров

Их отличают безупречный стиль, ни с чем не сравнимая старомодная атмосфера

Psychologies
Благородные, но такие разные Благородные, но такие разные

Почему цены на драгметаллы разнонаправлены

Деньги
Утренняя напасть: как избавиться от отеков лица Утренняя напасть: как избавиться от отеков лица

Почему возникают утренник отеки лица и как предотвратить их появление?

ТехИнсайдер
Аграрии заполняют ниши Аграрии заполняют ниши

Посевы не самых традиционных культур вновь увеличиваются

Агроинвестор
Еще не токсично, но уже напрягает: 8 «розовых» флажков в отношениях Еще не токсично, но уже напрягает: 8 «розовых» флажков в отношениях

«Розовые» флажки в отношениях — что это такое и стоит ли их замечать?

Psychologies
«Насильно мил не будешь»: почему не стоит добиваться другого человека «Насильно мил не будешь»: почему не стоит добиваться другого человека

Стоит ли пытаться «завоевать», «покорить», «добиться» потенциального партнера?

Psychologies
Как избавиться от неприятного запаха в кухонной раковине: 5 проверенных годами методов Как избавиться от неприятного запаха в кухонной раковине: 5 проверенных годами методов

Как избавиться от ужасного запаха из труб?

ТехИнсайдер
Китайские ученые представили сверхэффективный двигатель Стирлинга Китайские ученые представили сверхэффективный двигатель Стирлинга

Ученые создали работоспособный образец термоакустического генератора Стирлинга

ТехИнсайдер
Мятежная Вандея Мятежная Вандея

В марте 1793 года во Франции начался Вандейский мятеж

Дилетант
Квалифицированный заказчик: как получаются замечательные школьные здания Квалифицированный заказчик: как получаются замечательные школьные здания

Как получаются замечательные школьные здания

Наука
Как не нарваться на контрафакт. Почему сейчас так важно покупать оригинал Как не нарваться на контрафакт. Почему сейчас так важно покупать оригинал

Эксперты объяснили, чем грозит покупка неоригинальных запчастей

РБК
Королеву — под нож Королеву — под нож

Какой была жизнь и смерть Марии-Антуанетты

Дилетант
Проверка связи: почему так важно регулярно проходить полные медицинские обследования Проверка связи: почему так важно регулярно проходить полные медицинские обследования

Как остановить время с помощью простых — и не очень — обследований

Forbes
Всего две точки над «е»: приключения одной буквы Всего две точки над «е»: приключения одной буквы

Как и откуда взялась буква Ё?

Знание – сила
Как запланировать успех: 5 полезных инструментов Как запланировать успех: 5 полезных инструментов

Коуч делится инструментами достижения целей

Psychologies
Всем по собаке Всем по собаке

Как помогать бездомным животным и на какие фонды стоит обратить внимание

Grazia
Китайская робособака Unitree B2 удержала равновесие на лестнице и разогналась до шести метров в секунду Китайская робособака Unitree B2 удержала равновесие на лестнице и разогналась до шести метров в секунду

Робот выдерживает 120 килограмм и может ходить более пяти часов

N+1
Открыть в приложении