Что происходит с системами распознавания текстов и документов сегодня

ТехИнсайдерHi-Tech

Как появилась технология распознавания текста: функция в смартфоне, благодаря которой мы забыли про ручной ввод

Unsplash

Первые программные продукты на базе технологий распознавания текста, они же OCR, появились в России ровно 30 лет назад. Их развитие ознаменовалось крайне интересным противостоянием разработчиков. В этой гонке систем распознавания участвовала, с одной стороны, группа выпускников МФТИ, а с другой – команда советских ученых. Чем закончилась эта битва и что происходит с системами распознавания документов сегодня, в эпоху нейросетей и искусственного интеллекта – читайте в материале.

Первые шаги на пути «OCRизации»

Сегодня технологии распознавания символов являются неотъемлемой частью нашей действительности. Фотографируете листок с текстом, чтобы перевести его на другой язык с помощью онлайн-переводчика? Это OCR. Сканируете номер телефона, чтобы расплатиться за покупку? Тоже OCR. Получаете штраф за превышение скорости? Тут, кстати, тоже виновата OCR. Именно она обнаружила и распознала номер вашего автомобиля. Благодаря OCR человеку не приходится перепечатывать сотни и тысячи строк вручную, это вместо него делает искусственный интеллект. Технологии распознавания помогают нам быстрее проходить паспортный контроль в аэропортах, быстрее покупать билеты на электрички и поезда, заселяться в гостиницы, проходить идентификацию в банках для открытия счета, получать сим-карты. И все это для нас – данность, не более того. А вот в прошлом столетии решение проблемы автоматического ввода данных выглядело настоящим испытанием. В 1932 году, то есть почти сто лет назад, отечественный инженер В.Е. Агапов предпринял первые шаги на пути создания алгоритмов распознавания. Он разработал и представил машину, которая предназначалась для ввода цифр в счетное устройство. Задача распознавания решалась простейшим методом – путем сравнения с набором “эталонов”. По сути, символу присваивалось значение той цифры, которую она визуально напоминала больше всего.

Ситуация изменилась только к концу 80-х–началу 90-х годов, и обусловлено это было двумя факторами. 

  1. Во-первых, появились персональные компьютеры, которые обладали достаточной вычислительной мощностью для решения по-настоящему сложных задач.
  2. И, во-вторых, появились сканеры, с помощью которых можно было с большой скоростью вводить в компьютер неограниченное количество изображений текстов. 

Тогда же в России принялись разрабатывать первые программы распознавания текста OCR (Optical Character Recognition). Причем одновременно решать эту задачу принялись в двух местах – в лаборатории искусственного интеллекта Института системного анализа Российской академии наук (ИСА РАН) и в общежитии Московского физико-технического института (МФТИ). 

Приключения шахматного короля, или история про укрощение тигра

Переместимся сперва в Институт системного анализа РАН. Там разработку первой коммерческой OCR в конце 80-х возглавил Владимир Арлазаров, доктор технических наук, пионер в области искусственного интеллекта и всемирно известный ученый. 

К тому моменту он уже имел колоссальный опыт в решении интеллектуальных задач, таких как разработка операционных и информационных систем, СУБД, создание шахматных программ. 

Так, именно Арлазаров вместе со своей командой создал шахматную программу «Каисса», получившую название в честь вымышленной богини шахмат и ставшую первым чемпионом мира по шахматам среди шахматных программ (1974). Он был одним из авторов теоремы «четырех русских». «Советский Microsoft» СУБД ИНЕС», которую в Советском Союзе использовали одновременно несколько тысяч предприятий – кстати, тоже достижение команды Владимира Львовича.

Владимир Львович Арлазаров (слева)
Владимир Львович Арлазаров (слева). Институт системного анализа РАН

На рубеже восьмого и девятого десятилетий прошлого века команда Арлазарова получила запрос от общества слепых – сделать технологию, которая позволяла бы оцифровывать книги, чтобы впоследствии переводить их на шрифт Брайля. Одновременно с этим поступил еще один заказ – от издательства «Художественная литература, занимавшегося в то время исключительно переизданием книг. Необходимо было создать OCR, с помощью которой можно было бы оцифровывать старые книги.  

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Когда ломается личность: 7 самых популярных психических расстройств Когда ломается личность: 7 самых популярных психических расстройств

Что такое расстройство личности и какими бывают их виды

ТехИнсайдер
Идущие за лучом Идущие за лучом

Управление мозгом с помощью света порождает много надежд и столько же опасений

Вокруг света
В чем разница между обычным фотоаппаратом и кинокамерой? Узнайте простой ответ! В чем разница между обычным фотоаппаратом и кинокамерой? Узнайте простой ответ!

Что стоит учесть, выбирая камеру? Чем они отличаются?

ТехИнсайдер
Как долго алкоголь остается в организме. Вы удивитесь! Как долго алкоголь остается в организме. Вы удивитесь!

Спиртное задерживается в нашем теле дольше, чем вы могли подумать

ТехИнсайдер
Я вижу, о чем вы думаете Я вижу, о чем вы думаете

Как агенты ФБР читают людей

kiozk originals
IPS или VA: какая матрица монитора лучше? IPS или VA: какая матрица монитора лучше?

Что лучше: IPS или VA матрица?

CHIP
«Я такого не ожидал!»: этот психологический тест вызвал бурю эмоций в сети. Узнайте, что ваш любимый кофе говорит о вас «Я такого не ожидал!»: этот психологический тест вызвал бурю эмоций в сети. Узнайте, что ваш любимый кофе говорит о вас

Ваш любимый кофейный напиток может много сказать о вашем характере!

ТехИнсайдер
Боккаччо: новый век Боккаччо: новый век

Творчество Джованни Боккаччо не могло не привлечь внимание кинематографа

Знание – сила
Футбол под индейку: как НФЛ и другие лиги собирают рекордные рейтинги в праздники Футбол под индейку: как НФЛ и другие лиги собирают рекордные рейтинги в праздники

Как спортивные лиги США капитализируют праздничные дни

Forbes
6 простых способов взбодриться без кофе и таблеток 6 простых способов взбодриться без кофе и таблеток

Как справиться с сонливостью и отсутствием сил?

Psychologies
Новый папа Новый папа

Как наладить отношения между ребенком и твоим новым мужчиной

Лиза
Мария Александрова, Владислав Лантратов: «Это и есть тот самый дух, который не воспринимает слова «нет» Мария Александрова, Владислав Лантратов: «Это и есть тот самый дух, который не воспринимает слова «нет»

Мария Александрова и Владислав Лантратов — о Большом театре, балете и травмах

Коллекция. Караван историй
«Принесшую сюрприз» ночную бабочку из Хорватии отнесли к новому роду и виду «Принесшую сюрприз» ночную бабочку из Хорватии отнесли к новому роду и виду

Энтомологи обнаружили новый род и вид ночных бабочек из Хорватии

N+1
Домик на крыше Домик на крыше

Сколько стоит пентхаус

Деньги
«Секс по дружбе»: 3 шага, которые позволят не пожалеть о решении «Секс по дружбе»: 3 шага, которые позволят не пожалеть о решении

Как сделать «дружбу с привилегиями» комфортной для всех участников

Psychologies
Путеводитель по винному миру. Как правильно читать и понимать «географические указания» на этикетках вин Путеводитель по винному миру. Как правильно читать и понимать «географические указания» на этикетках вин

Что такое «географические указания» на этикетках вин

СНОБ
Почему западные люди — плохие друзья и при чем тут штрафы за парковку и коррупция Почему западные люди — плохие друзья и при чем тут штрафы за парковку и коррупция

Чем отличаются представители западных стран от всех остальных?

Forbes
Марина Кравец: «Никогда не пыталась стать частью тусовки» Марина Кравец: «Никогда не пыталась стать частью тусовки»

Марина Кравец – об учебе на филфаке, тревогах материнства и строптивых женщинах

VOICE
Как научиться контролировать гнев: 5 советов из нейрофизиологии Как научиться контролировать гнев: 5 советов из нейрофизиологии

Почему агрессию сложно контролировать и как стабилизировать это состояние?

Psychologies
Как научиться понимать творчество Ван Гога. Отрывок из книги искусствоведа Как научиться понимать творчество Ван Гога. Отрывок из книги искусствоведа

Глава из книги искусствоведа Елены Легран «Разгадай код художника»

СНОБ
Железная проблема Железная проблема

Беспокоят слабость, выпадение волос, ломкие ногти?

Лиза
Работа в команде. 5 способов этому научиться Работа в команде. 5 способов этому научиться

Как стать человеком, который обладает навыками работы в команде?

Лиза
Багряный сентябрь Багряный сентябрь

После свержения короля Людовика XVI новая власть действовала быстро и жёстко

Дилетант
От Бэкона до Бэнкса: британская научная культура и принцип «общего блага» От Бэкона до Бэнкса: британская научная культура и принцип «общего блага»

Начиная с XVII века, Англия гордилась своими учеными и их научными достижениями

Знание – сила
Экстремисты моральной революции Экстремисты моральной революции

Любая революция, за какие бы свободы она не боролась, заканчивается террором

Дилетант
Римма Маркова. «Она уехала, но Антонио не мог ее забыть. Прилетел в Москву и сделал предложение» Римма Маркова. «Она уехала, но Антонио не мог ее забыть. Прилетел в Москву и сделал предложение»

О Римме Марковой рассказывают ее дочь Татьяна Никитина и друг — Сергей Касьянов

Караван историй
«Я сделала все, что могла»: как найти силу в своем бессилии «Я сделала все, что могла»: как найти силу в своем бессилии

Глава из книги «Ты можешь: Книга о том, как найти контакт с собой и реальностью»

Psychologies
Рабочий вариант Рабочий вариант

Изначально Sollers Atlant – это китайский малотоннажник Sunray

Автопилот
Роболапа с эластичной подошвой распознает тип поверхности на слух Роболапа с эластичной подошвой распознает тип поверхности на слух

Инженеры разработали чувствительную роболапу под названием TRACE Paw

N+1
«Готов снять за любой сомнительный спектакль»: история театральной цензуры в России «Готов снять за любой сомнительный спектакль»: история театральной цензуры в России

Как власти пытались контролировать театральное искусство

Forbes
Открыть в приложении