Что происходит с системами распознавания текстов и документов сегодня

ТехИнсайдерHi-Tech

Как появилась технология распознавания текста: функция в смартфоне, благодаря которой мы забыли про ручной ввод

Unsplash

Первые программные продукты на базе технологий распознавания текста, они же OCR, появились в России ровно 30 лет назад. Их развитие ознаменовалось крайне интересным противостоянием разработчиков. В этой гонке систем распознавания участвовала, с одной стороны, группа выпускников МФТИ, а с другой – команда советских ученых. Чем закончилась эта битва и что происходит с системами распознавания документов сегодня, в эпоху нейросетей и искусственного интеллекта – читайте в материале.

Первые шаги на пути «OCRизации»

Сегодня технологии распознавания символов являются неотъемлемой частью нашей действительности. Фотографируете листок с текстом, чтобы перевести его на другой язык с помощью онлайн-переводчика? Это OCR. Сканируете номер телефона, чтобы расплатиться за покупку? Тоже OCR. Получаете штраф за превышение скорости? Тут, кстати, тоже виновата OCR. Именно она обнаружила и распознала номер вашего автомобиля. Благодаря OCR человеку не приходится перепечатывать сотни и тысячи строк вручную, это вместо него делает искусственный интеллект. Технологии распознавания помогают нам быстрее проходить паспортный контроль в аэропортах, быстрее покупать билеты на электрички и поезда, заселяться в гостиницы, проходить идентификацию в банках для открытия счета, получать сим-карты. И все это для нас – данность, не более того. А вот в прошлом столетии решение проблемы автоматического ввода данных выглядело настоящим испытанием. В 1932 году, то есть почти сто лет назад, отечественный инженер В.Е. Агапов предпринял первые шаги на пути создания алгоритмов распознавания. Он разработал и представил машину, которая предназначалась для ввода цифр в счетное устройство. Задача распознавания решалась простейшим методом – путем сравнения с набором “эталонов”. По сути, символу присваивалось значение той цифры, которую она визуально напоминала больше всего.

Ситуация изменилась только к концу 80-х–началу 90-х годов, и обусловлено это было двумя факторами. 

  1. Во-первых, появились персональные компьютеры, которые обладали достаточной вычислительной мощностью для решения по-настоящему сложных задач.
  2. И, во-вторых, появились сканеры, с помощью которых можно было с большой скоростью вводить в компьютер неограниченное количество изображений текстов. 

Тогда же в России принялись разрабатывать первые программы распознавания текста OCR (Optical Character Recognition). Причем одновременно решать эту задачу принялись в двух местах – в лаборатории искусственного интеллекта Института системного анализа Российской академии наук (ИСА РАН) и в общежитии Московского физико-технического института (МФТИ). 

Приключения шахматного короля, или история про укрощение тигра

Переместимся сперва в Институт системного анализа РАН. Там разработку первой коммерческой OCR в конце 80-х возглавил Владимир Арлазаров, доктор технических наук, пионер в области искусственного интеллекта и всемирно известный ученый. 

К тому моменту он уже имел колоссальный опыт в решении интеллектуальных задач, таких как разработка операционных и информационных систем, СУБД, создание шахматных программ. 

Так, именно Арлазаров вместе со своей командой создал шахматную программу «Каисса», получившую название в честь вымышленной богини шахмат и ставшую первым чемпионом мира по шахматам среди шахматных программ (1974). Он был одним из авторов теоремы «четырех русских». «Советский Microsoft» СУБД ИНЕС», которую в Советском Союзе использовали одновременно несколько тысяч предприятий – кстати, тоже достижение команды Владимира Львовича.

Владимир Львович Арлазаров (слева)
Владимир Львович Арлазаров (слева). Институт системного анализа РАН

На рубеже восьмого и девятого десятилетий прошлого века команда Арлазарова получила запрос от общества слепых – сделать технологию, которая позволяла бы оцифровывать книги, чтобы впоследствии переводить их на шрифт Брайля. Одновременно с этим поступил еще один заказ – от издательства «Художественная литература, занимавшегося в то время исключительно переизданием книг. Необходимо было создать OCR, с помощью которой можно было бы оцифровывать старые книги.  

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Новый метод поиска экзопланет помог найти суперземлю в обитаемой зоне Новый метод поиска экзопланет помог найти суперземлю в обитаемой зоне

Астрономы впервые обнаружили суперземлю Kepler-725c в зоне солнцеподобной звезды

ТехИнсайдер
Как починить перегоревшую светодиодную лампу: простейший способ Как починить перегоревшую светодиодную лампу: простейший способ

Мини-инструкция для тех, кто хочет продлить жизнь осветительному прибору

CHIP
Как проверить, что ИИ достиг уровня интеллекта человека Как проверить, что ИИ достиг уровня интеллекта человека

Как понять, на каком уровне развития находится искусственный интеллект?

ТехИнсайдер
Забыть нельзя вспомнить Забыть нельзя вспомнить

Почему нам трудно сосредоточиться или освоить функции в новом смартфоне?

Psychologies
Как начать переписку с девушкой, чтобы она точно ответила Как начать переписку с девушкой, чтобы она точно ответила

Лучшие заменители опостылевшего всем «Привет! Как дела?»

Maxim
Неуверенность в общении с мужчинами: откуда возникает и как побороть Неуверенность в общении с мужчинами: откуда возникает и как побороть

Почему во время общения с мужчинами вы чувствуете себя неуверенно?

Psychologies
Майонез Майонез

Откуда взялся майонез?

Знание – сила
Настоящий антидетектив Настоящий антидетектив

«Белый список»: Алиса Хазанова экранизирует расследование «Новой газеты»

Weekend
Побежали! Побежали!

Рассказываем, как правильно бегать осенью и зимой, чтобы не навредить организму

Лиза
Почему наша память становится хуже и как ее улучшить: 5 советов от невролога Почему наша память становится хуже и как ее улучшить: 5 советов от невролога

Что приводит к ухудшению памяти и что стоит сделать, чтобы улучшить ее

Psychologies
ИИ научился предсказывать появление гигантских волн-убийц в океане ИИ научился предсказывать появление гигантских волн-убийц в океане

Ученые нашли формулу, позволяющую предсказать появление гигантских волн-убийц

ТехИнсайдер
В России выходит автобиография Энцо Феррари «Мои ужасные радости». MAXIM публикует эксклюзивный отрывок В России выходит автобиография Энцо Феррари «Мои ужасные радости». MAXIM публикует эксклюзивный отрывок

Самая важная глава из книги великого конструктора и автогонщика.

Maxim
13 психологических приемов, которые помогают расшатать укоренившуюся вредную мысль 13 психологических приемов, которые помогают расшатать укоренившуюся вредную мысль

Как убеждения мешают вашей самооценке или не дают строить счастливые отношения?

Psychologies
Как рассказать ребенку о его биологическом отце: 4 рекомендации психолога Как рассказать ребенку о его биологическом отце: 4 рекомендации психолога

Стоит ли ребенку рассказывать о биологическом отце? Если да, то как это сделать?

Psychologies
Шесть стадий брака: на какой из них находитесь вы? Шесть стадий брака: на какой из них находитесь вы?

Любовь, увлечение, страсть не могут длиться вечно, как бы этого не хотелось

Psychologies
Премия, или Поражение победителей, испытавших триумф Премия, или Поражение победителей, испытавших триумф

Как успех ученого может обернуться его же трагедией

Знание – сила
Союз правых: что помогло Хавьеру Милею победить на президентских выборах Союз правых: что помогло Хавьеру Милею победить на президентских выборах

Радикальная программа президента Аргентины вряд ли будет полностью реализована

Forbes
«Я никогда не…»: один простой вопрос может превратить игру в психотерапию «Я никогда не…»: один простой вопрос может превратить игру в психотерапию

Может ли простая игра стать способом терапии?

Psychologies
Римма Маркова. «Она уехала, но Антонио не мог ее забыть. Прилетел в Москву и сделал предложение» Римма Маркова. «Она уехала, но Антонио не мог ее забыть. Прилетел в Москву и сделал предложение»

О Римме Марковой рассказывают ее дочь Татьяна Никитина и друг — Сергей Касьянов

Караван историй
Бесконечная шутка: как анекдот Ридли Скотта про Наполеона затянулся на два с половиной часа Бесконечная шутка: как анекдот Ридли Скотта про Наполеона затянулся на два с половиной часа

Каким получился новый исторический эпос Ридли Скотта про Наполеона?

Правила жизни
Организация искусственного интеллекта: ждет ли ИИ система глобального регулирования Организация искусственного интеллекта: ждет ли ИИ система глобального регулирования

Как модели регулирования могут способствовать безопасному развитию технологий

Forbes
Сабина Ахмедова Сабина Ахмедова

Сабина Ахмедова — почему круто быть госпожой своей жизни

Собака.ru
Бунтующий человек. Каким был писатель и философ Альбер Камю Бунтующий человек. Каким был писатель и философ Альбер Камю

Чем, кроме своих литературных произведений, запомнился Камю

СНОБ
Покажите мне язык Покажите мне язык

Почему возникают трещины на языке и чем они опасны

Лиза
Между бегством и свободой Между бегством и свободой

Как Саша Соколов соединил многие противоположности — и отменил их

Weekend
Головкины Головкины

Дворянский род, сделавший себе имя благодаря семейным связям

Дилетант
Энергия вулкана Энергия вулкана

Obsidian — первая суперъяхта, которую Feadship передала заказчику в 2023 году

Y Magazine
Приятно познакомиться: 6 вещей, которые ты должна знать о своей зубной щетке Приятно познакомиться: 6 вещей, которые ты должна знать о своей зубной щетке

Как правильно выбрать, использовать и ухаживать за зубной щеткой?

VOICE
5 книг в жанре фантастики и фэнтези, на которые стоит обратить внимание на выставке Non/fiction 5 книг в жанре фантастики и фэнтези, на которые стоит обратить внимание на выставке Non/fiction

Пять книг ярмарки Non/fiction, на которые стоит обратить внимание

Maxim
Славный город Славный город

Все годы жизни Севастополь подтверждал правильный выбор своего имени

Отдых в России
Открыть в приложении