Что происходит с системами распознавания текстов и документов сегодня

ТехИнсайдерHi-Tech

Как появилась технология распознавания текста: функция в смартфоне, благодаря которой мы забыли про ручной ввод

Unsplash

Первые программные продукты на базе технологий распознавания текста, они же OCR, появились в России ровно 30 лет назад. Их развитие ознаменовалось крайне интересным противостоянием разработчиков. В этой гонке систем распознавания участвовала, с одной стороны, группа выпускников МФТИ, а с другой – команда советских ученых. Чем закончилась эта битва и что происходит с системами распознавания документов сегодня, в эпоху нейросетей и искусственного интеллекта – читайте в материале.

Первые шаги на пути «OCRизации»

Сегодня технологии распознавания символов являются неотъемлемой частью нашей действительности. Фотографируете листок с текстом, чтобы перевести его на другой язык с помощью онлайн-переводчика? Это OCR. Сканируете номер телефона, чтобы расплатиться за покупку? Тоже OCR. Получаете штраф за превышение скорости? Тут, кстати, тоже виновата OCR. Именно она обнаружила и распознала номер вашего автомобиля. Благодаря OCR человеку не приходится перепечатывать сотни и тысячи строк вручную, это вместо него делает искусственный интеллект. Технологии распознавания помогают нам быстрее проходить паспортный контроль в аэропортах, быстрее покупать билеты на электрички и поезда, заселяться в гостиницы, проходить идентификацию в банках для открытия счета, получать сим-карты. И все это для нас – данность, не более того. А вот в прошлом столетии решение проблемы автоматического ввода данных выглядело настоящим испытанием. В 1932 году, то есть почти сто лет назад, отечественный инженер В.Е. Агапов предпринял первые шаги на пути создания алгоритмов распознавания. Он разработал и представил машину, которая предназначалась для ввода цифр в счетное устройство. Задача распознавания решалась простейшим методом – путем сравнения с набором “эталонов”. По сути, символу присваивалось значение той цифры, которую она визуально напоминала больше всего.

Ситуация изменилась только к концу 80-х–началу 90-х годов, и обусловлено это было двумя факторами. 

  1. Во-первых, появились персональные компьютеры, которые обладали достаточной вычислительной мощностью для решения по-настоящему сложных задач.
  2. И, во-вторых, появились сканеры, с помощью которых можно было с большой скоростью вводить в компьютер неограниченное количество изображений текстов. 

Тогда же в России принялись разрабатывать первые программы распознавания текста OCR (Optical Character Recognition). Причем одновременно решать эту задачу принялись в двух местах – в лаборатории искусственного интеллекта Института системного анализа Российской академии наук (ИСА РАН) и в общежитии Московского физико-технического института (МФТИ). 

Приключения шахматного короля, или история про укрощение тигра

Переместимся сперва в Институт системного анализа РАН. Там разработку первой коммерческой OCR в конце 80-х возглавил Владимир Арлазаров, доктор технических наук, пионер в области искусственного интеллекта и всемирно известный ученый. 

К тому моменту он уже имел колоссальный опыт в решении интеллектуальных задач, таких как разработка операционных и информационных систем, СУБД, создание шахматных программ. 

Так, именно Арлазаров вместе со своей командой создал шахматную программу «Каисса», получившую название в честь вымышленной богини шахмат и ставшую первым чемпионом мира по шахматам среди шахматных программ (1974). Он был одним из авторов теоремы «четырех русских». «Советский Microsoft» СУБД ИНЕС», которую в Советском Союзе использовали одновременно несколько тысяч предприятий – кстати, тоже достижение команды Владимира Львовича.

Владимир Львович Арлазаров (слева)
Владимир Львович Арлазаров (слева). Институт системного анализа РАН

На рубеже восьмого и девятого десятилетий прошлого века команда Арлазарова получила запрос от общества слепых – сделать технологию, которая позволяла бы оцифровывать книги, чтобы впоследствии переводить их на шрифт Брайля. Одновременно с этим поступил еще один заказ – от издательства «Художественная литература, занимавшегося в то время исключительно переизданием книг. Необходимо было создать OCR, с помощью которой можно было бы оцифровывать старые книги.  

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Черепахи научились приспосабливаться к теплеющему морю Черепахи научились приспосабливаться к теплеющему морю

Ученые показали, как морские черепахи реагируют на изменение климата

ТехИнсайдер
Держать лицо Держать лицо

Фейсбилдинг: 7 эффективных упражнений

Лиза
«Осторожно, в небе металлолом» — Что делают со старыми авиалайнерами «Осторожно, в небе металлолом» — Что делают со старыми авиалайнерами

Почему пассажирские авиалайнеры так рано списывают?

ТехИнсайдер
Как увеличить словарный запас: лучшие методики от филологов и лингвистов Как увеличить словарный запас: лучшие методики от филологов и лингвистов

Какие способы помогут расширить лексикон и улучшить речь

Forbes
Автомобиль для королей, рэперов и миллиардеров: 119 лет истории Rolls-Royce Автомобиль для королей, рэперов и миллиардеров: 119 лет истории Rolls-Royce

Rolls-Royce: история, смысл шильдика на капоте и образ владельца сквозь время

Правила жизни
«Я занималась сексом с мужчинами у него на глазах»: бывшая возлюбленная P Diddy обвинила его в многолетнем насилии «Я занималась сексом с мужчинами у него на глазах»: бывшая возлюбленная P Diddy обвинила его в многолетнем насилии

Бывшая Пи Дидди заявила, что он 13 лет подвергал ее насилию и издевательствам

VOICE
«Главное — это вера и огромное терпение» «Главное — это вера и огромное терпение»

Диана Мирошникова рассказала о воспитании музыкой и знаковых встречах

OK!
Боккаччо: новый век Боккаччо: новый век

Творчество Джованни Боккаччо не могло не привлечь внимание кинематографа

Знание – сила
«Это все из-за меня!»: почему мы считаем, что ответственны за чувства других людей «Это все из-за меня!»: почему мы считаем, что ответственны за чувства других людей

Как перестать винить себя во всех проблемах

Psychologies
Ольга Погодина: «У меня нет проблем с Вселенной, мы с ней давно договорились» Ольга Погодина: «У меня нет проблем с Вселенной, мы с ней давно договорились»

Несмотря на смутные времена, когда все плохо, все равно нельзя останавливаться

Караван историй
Король гангстеров: 10 главных фильмов в карьере Мартина Скорсезе Король гангстеров: 10 главных фильмов в карьере Мартина Скорсезе

Великий режиссер Мартин Скорсезе всегда старался снимать разное кино

Правила жизни
Передел Европы. Часть I. Игры дипломатов Передел Европы. Часть I. Игры дипломатов

В отношениях Италии и Франции в 1919 году возникла трещина

Знание – сила
Посмотрите, это же Nissan. Первый тест-драйв Oting Paladin Посмотрите, это же Nissan. Первый тест-драйв Oting Paladin

Эксперт сравнил Oting Paladin с Nissan Terra и назвал различия

РБК
Римма Маркова. «Она уехала, но Антонио не мог ее забыть. Прилетел в Москву и сделал предложение» Римма Маркова. «Она уехала, но Антонио не мог ее забыть. Прилетел в Москву и сделал предложение»

О Римме Марковой рассказывают ее дочь Татьяна Никитина и друг — Сергей Касьянов

Караван историй
12 признаков того, что ваша жена — нарцисс 12 признаков того, что ваша жена — нарцисс

Токсичные признаки женского нарциссизма

Psychologies
Однажды в Ростове Однажды в Ростове

История одного особняка

Новый очаг
Финишная прямая Финишная прямая

Чек-лист по подготовке к Новому году – за месяц до праздника

Лиза
Дисней. Уолт Дисней Дисней. Уолт Дисней

Как появились мышонок, утенок, олененок и другие животные-миллиардеры

Наука
С днем рождения, небесный маэстро! С днем рождения, небесный маэстро!

Вспомним историю легендарного авиаконструктора — Андрея Николаевича Туполева

Наука и техника
Очки, блокирующие синий свет: как за ними ухаживать и чистить, чтобы не стереть защитное покрытие Очки, блокирующие синий свет: как за ними ухаживать и чистить, чтобы не стереть защитное покрытие

Как правильно чистить очки с защитой от синего света

ТехИнсайдер
Идиот и злодейство Идиот и злодейство

Как саботажник Швейк оказался самым обнадеживающим супергероем литературы

Weekend
Оказалось, что «кошачий» паразит делает пожилых людей слабее Оказалось, что «кошачий» паразит делает пожилых людей слабее

Кошачьи могут представлять серьезную опасность для пожилых людей

ТехИнсайдер
Про отцов и для отцов: 5 книг, которые помогут разобраться в детско-родительских отношениях Про отцов и для отцов: 5 книг, которые помогут разобраться в детско-родительских отношениях

Хотите узнать о роли отца в культурной традиции и вашей собственной жизни?

Psychologies
Чем полезен ананас: 5 свойств Чем полезен ананас: 5 свойств

Как правильно выбрать ананас и что с ним можно приготовить?

РБК
Покажите мне язык Покажите мне язык

Почему возникают трещины на языке и чем они опасны

Лиза
«Возможен отказ в гарантии». Как установить подогрев в китайскую машину «Возможен отказ в гарантии». Как установить подогрев в китайскую машину

Эксперты перечислили риски при установке подогрева сидений в автомобили из Китая

РБК
Суперкомпьютер отделившегося от «Яндекса» проекта Nebius вошел в мировой топ-500 Суперкомпьютер отделившегося от «Яндекса» проекта Nebius вошел в мировой топ-500

Компания Nebius N.V. дебютировала в мировом рейтинге суперкомпьютеров Tор500

Forbes
Наталия Сирадзе о Савелии Крамарове Наталия Сирадзе о Савелии Крамарове

Вдова Савелия Крамарова Наталия Сирадзе вспоминает о его жизни и творчестве

Коллекция. Караван историй
Не просто игра Не просто игра

Учёные доказали, что настольные игры помогают развить математические способности

Здоровье
Высокое искусство прощания Высокое искусство прощания

Топ‑10 фильмов-завещаний

Weekend
Открыть в приложении