Как и зачем оцифровывать архивы и древние артефакты

N+1Наука

Береста на хостинге

Как и зачем оцифровывать архивы и древние артефакты

Анна Полунина при участии Эдуард Кацман

Цифровые технологии, такие как 3D-моделирование и интеллектуальный анализ текста, позволяют специалистам гуманитарных отраслей по-новому изучать древние тексты — и делать их доступными для всех. Вместе с Уральским федеральным университетом (УрФУ) рассказываем, как это происходит.

В электронном виде

С середины 90-х документы, которые хранятся в российских архивах, начали переводить «в цифру». Изначально никаких правил не было: специалисты просто старались в первую очередь оцифровать самые хрупкие, плохо сохранившиеся или ценные артефакты.

В 2004 году был принят закон «Об архивном деле в РФ». Он установил правила оценки архивных документов и порядок ведения электронных библиотек. После этого РАН, Российская государственная библиотека и другие организации, в чьем ведении находились архивы, объединились в Ассоциацию электронных библиотек. За восемь лет общими усилиями ученым удалось оцифровать более 1,6 млн страниц.

Сейчас работы по оцифровке идут практически во всех крупных архивах (подробнее об этом читайте в нашем материале «Бэкап культурного наследия»). Если говорить про российские библиотеки, то наиболее полный цифровой архив представлен в президентской библиотеке (www.prlib.ru). Другой проект — gramoty.ru — занимается оцифровкой древнерусских берестяных грамот XI–XV вв.

Но работы еще предстоит много. По оценкам экспертов, в российских библиотеках хранятся более 8 миллионов документов, которые можно считать книжными памятниками. Оцифровать их — дело не одного года и даже не одного десятилетия, потому что процесс до сих пор не автоматизирован до конца.

Отсканировать и распознать

Сначала оператор оценивает документ: его повреждения, как он сшит и насколько сильно обветшала бумага. Если состояние неудовлетворительное, документ могут отправить на реставрацию или отсканировать, но делать это придется через стекло или бесконтактно с помощью планетарного сканера: даже аккуратное прикосновение к памятнику может его повредить.

Процесс сканирования. Bernd Schwabe in Hannover / Wikimedia Commons / CC BY-SA 4.0

В идеале цифровая версия документа содержит не только графическую информацию, но и текст документа. Распознать текст — задача куда более сложная, чем сканирование. «Есть программы, которые позволяют распознать рукописный текст, но проблема заключается в том, что тексты были записаны разными людьми и разными почерками. Программисты ищут решение: как с помощью технологий машинного обучения научить компьютер “читать” различные почерки», — рассказывает куратор проекта в лаборатории цифровых технологий в историко-культурных исследованиях УрФУ Сергей Соколов (подробнее о распознавании рукописного текста читайте в нашем материале «Как в прописи»).

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Заряженные капли отказались разбрызгиваться при ударе о твердую поверхность Заряженные капли отказались разбрызгиваться при ударе о твердую поверхность

Электричество вокруг заряженной капли предотвращает ее разбрызгивание

N+1
Большая игра: что смотреть с Джессикой Честейн Большая игра: что смотреть с Джессикой Честейн

Несколько лучших фильмов с Джессикой Честейн для просмотра на выходных

Правила жизни
У берегов Антарктиды нашли «странных» морских свинок, пауков» и бабочек У берегов Антарктиды нашли «странных» морских свинок, пауков» и бабочек

Глубины Антарктиды скрывают поразительные формы жизни

ТехИнсайдер
Зелёные великаны: 7 самых высоких деревьев в мире Зелёные великаны: 7 самых высоких деревьев в мире

Зеленые гиганты, которые вас поразят

ТехИнсайдер
Почему в жару отекают ноги и как снять отек Почему в жару отекают ноги и как снять отек

В чем причины отеков лодыжек и стоп в жару

РБК
Кем была первая девушка Брэда Питта Кем была первая девушка Брэда Питта

С кем же голливудский красавчик Брэд Питт был до своей славы?

VOICE
Как перестать врать по мелочам: 3 верных способа Как перестать врать по мелочам: 3 верных способа

В какой момент можно считать, что вы патологический лгун? Что с этим сделать?

Psychologies
Лайфхаки для мужской уборки: как спасти свое время и психическое здоровье Лайфхаки для мужской уборки: как спасти свое время и психическое здоровье

Занятой человек не всегда находит силы на уборку. Но без нее не обойтись…

Maxim
Снова вместе Снова вместе

Бренды класса люкс давно и умело используют сотрудничество с художниками

Robb Report
Был беженцем, стал звездой: виражи судьбы Ке Хью Квана — первого актера вьетнамского происхождения с Был беженцем, стал звездой: виражи судьбы Ке Хью Квана — первого актера вьетнамского происхождения с

Биография вьетнамского актера Ке Хью Квана достойна экранизации

VOICE
«Не думала, что так быстро начну стареть»: 12 примет возраста «Не думала, что так быстро начну стареть»: 12 примет возраста

Как понять, что старость уже пришла?

Psychologies
Как легко и быстро нарезать ананас: 3 лучших лайфхака Как легко и быстро нарезать ананас: 3 лучших лайфхака

Лайфхак, который сэкономит ваши силы, нервы и время при чистке ананаса

ТехИнсайдер
4 правила первого свидания, которыми нельзя пренебрегать 4 правила первого свидания, которыми нельзя пренебрегать

Как организовать свидание так, чтобы оно не стало последним?

Psychologies
Правила жизни Бена Аффлека Правила жизни Бена Аффлека

Правила жизни актера Бена Аффлека

Правила жизни
11 главных химических элементов, из которых состоит наше тело 11 главных химических элементов, из которых состоит наше тело

Человек — это на 99% кислород, водород, азот, углерод, кальций и фосфор!

ТехИнсайдер
Свежий взгляд на французскую классику: отрывок из книги Свежий взгляд на французскую классику: отрывок из книги

Глава из книги «Прощай, грусть!» — анализ драмы «Сирано де Бержерак»

СНОБ
Да здравствует вчерашний день: почему мы так любим ностальгию Да здравствует вчерашний день: почему мы так любим ностальгию

По чему ностальгируют разные поколения?

РБК
«Google уже не тот»: почему сотрудники компании недовольны своим гендиректором «Google уже не тот»: почему сотрудники компании недовольны своим гендиректором

Как генеральный директор компании Google сам себя загнал в угол

Forbes
«Инновации — направление, которое позволит нашей компании выжить» «Инновации — направление, которое позволит нашей компании выжить»

Почему «Эфко» делает ставку на развитие био- и фудтех-сегментов?

Агроинвестор
Аргентинская мозаика Аргентинская мозаика

В стране, где много «самого-самого», хочется побывать самой

Лиза
Почему выпадают волосы? Почему выпадают волосы?

От чего зависит здоровье волос?

Здоровье
Бьюти-буллинг: кто заставляет женщин ненавидеть свою внешность Бьюти-буллинг: кто заставляет женщин ненавидеть свою внешность

В чем причины возникновения бьюти-буллинга?

Forbes
Владелец Regent — о пяти слагаемых ресторанного бизнеса и винной карте Владелец Regent — о пяти слагаемых ресторанного бизнеса и винной карте

Ресторатор Алексей Пинский — о балансе меню и нюансах составления винной карты

РБК
Правила жизни Дженнифер Лоуренс Правила жизни Дженнифер Лоуренс

Правила жизни актрисы Дженнифер Лоуренс

Правила жизни
Учить всему всех всеми Учить всему всех всеми

Нарастающее усложнение современного мира — это системный вызов образованию

Наука
Древнеегипетское сопротивление Древнеегипетское сопротивление

Что нового раскопали археологи о восстании египтян против власти Птолемеев

N+1
Пино-нуар с берега Волги: как делают вино в Самарской области Пино-нуар с берега Волги: как делают вино в Самарской области

Чем вина из Поволжья отличаются от южных и какие они на вкус?

СНОБ
Как жалит муравей-пуля, самый опасный муравей в мире Как жалит муравей-пуля, самый опасный муравей в мире

Как муравей-пуля, или Paraponera clavata, получил свое название?

ТехИнсайдер
Почему дизельное топливо зовется Почему дизельное топливо зовется

Дизельное топливо и солярка — это не синонимы

ТехИнсайдер
Как поставить живые обои на ПК? Как поставить живые обои на ПК?

Украсить свой рабочий стол красивой анимацией очень просто

CHIP
Открыть в приложении