Оцифровка ветхих документов: этапы, особенности

18.01.2024

Сохранить историческое наследие — важная задача государства и крупных компаний, которую они реализуют через институт архивов и библиотек. Особую ценность в фондах представляют старые документы, рукописи, книги, а также выполненные на кальке технические чертежи, схемы, геокарты.

Проблема в том, что бумажные носители со временем ветшают, рвутся и выцветают — теряется читаемость текста. Оцифровка архивных старых документов, их систематизация и перевод в электронный архив позволяют надёжно сохранить информацию и сделать её доступной для пользователей и исследователей.

Например, с 2023 года в России стали усиленно проводить оцифровку географических карт-плашетов для наполнения Национальной системы пространственных данных. Сырьевые компании переводят в электронный вид чертежи скважин, месторождений и пр. Предприятия оцифровывают чертежи оборудования и цехов.

Зачем проводят оцифровку документов архивных фондов?

Сохранить историческое наследие — важная задача государства и крупных компаний, которую они реализуют через институт архивов и библиотек. Особую ценность в фондах представляют старые документы, рукописи, книги, а также выполненные на кальке технические чертежи, схемы, геокарты.

Проблема в том, что бумажные носители со временем ветшают, рвутся и выцветают — теряется читаемость текста. Оцифровка архивных старых документов, их систематизация и перевод в электронный архив позволяют надёжно сохранить информацию и сделать её доступной для пользователей и исследователей.

Например, с 2023 года в России стали усиленно проводить оцифровку географических карт-плашетов для наполнения Национальной системы пространственных данных. Сырьевые компании переводят в электронный вид чертежи скважин, месторождений и пр. Предприятия оцифровывают чертежи оборудования и цехов.

Этапы оцифровки документов

Процесс перевода бумажных документов в электронный формат называется оцифровкой. Она состоит из технических этапов сканирования и распознавания. Для старых и ветхих материалов требуется особо бережный подход.

Основные этапы оцифровки архивных документов:

  • Подготовка материалов. Документы аккуратно отделяют от других бумаг, удаляют скрепки и зажимы. При наличии серьёзных повреждений проводят необходимый ремонт и реставрацию (в этой связи проект по оцифровке может растянуться во времени).
  • Сканирование. Выполняется на профессиональных безопасных сканерах (планетарных или поточечных) в режиме, исключающем повреждение оригиналов. Разрешение сканирования до 600 dpi обеспечивает высокое качество.
  • Обработка отсканированных изображений. Производится цветокоррекция, повышение резкости, удаление всевозможных дефектов с сохранением максимальной достоверности.
  • Распознавание документов (OCR). Специальное программное обеспечение преобразует отсканированные страницы в текстовые документы и таблицы.

Для рукописных текстов и старинных шрифтов применяется смешанное, но преимущественно ручное распознавание, так как нейросети плохо справляются с нестандартными шрифтами и рукописными буквами.

В компании Биорг для верификации данных силами людей есть собственный краудсорсинговый ресурс — облачная платформа. Благодаря этому инструменту возможно удалённое трудоустройство различных экспертов, например, картографов или рядовых операторов.

  • Создание электронных копий. Полученные файлы изображений и текстов объединяют в целостные документы в форматах PDF, DjVu, TIFF и др. При необходимости создаётся несколько копий разного качества и объёма.
  • Размещение в хранилищах данных. Электронные архивы документов помещают на надёжные серверы с резервным копированием на отдельные носители для долговременного хранения.

Преимущества оцифровки документов

Сканирование и распознавание документов открывают следующие возможности:

  • Сохранить уникальные документы. При правильном хранении электронные копии могут пережить физический носитель на века. Это позволяет надёжно защитить редкие издания и рукописи от утраты.
  • Повысить доступность информации. Оцифрованные материалы можно выставлять в интернете, предоставлять удалённый доступ через библиотечные базы данных. Это существенно облегчает работу исследователей и расширяет аудиторию.
  • Снизить физическую нагрузку на документы. Благодаря наличию электронных копий снижается потребность в работе с оригиналами, что продлевает их физическое существование. Особенно актуально для ветхих, часто используемых изданий.
  • Редактировать и анализировать документы. Электронные копии легко подвергать цветокоррекции, распознавать в них текст для последующего поиска и систематизации данных. Это открывает новые возможности для работы с архивами.
  • Компактно хранить большие объёмы данных. Современные накопители позволяют хранить тысячи страниц, занимая минимум физического пространства. Это решает проблему нехватки места в библиотечных и архивных фондах.
  • Обеспечить оперативный доступ и тиражирование по запросу. Электронные копии легко распечатывать на принтере или передавать по интернету.

Основные хранилища ветхих документов в России

Государственный архив РФ — крупнейшее собрание уникальных дореволюционных документов. Хранит более 500 тыс. ветхих единиц начала XVIII — начала XX века.

Российский государственный архив древних актов — свыше 300 тыс. ветхих рукописей XI–XVII веков. Документы имеют угасающий текст, разрушения пергамена, выпадение листов.

Областные госархивы — хранят региональные материалы по истории, экономике, культуре. Доля ветхих может достигать трети фондов.

Муниципальные архивы городов, фонды БТИ — хранят дела местных органов власти, предприятий, организаций. Содержат значительное количество ветхой документации.

Кроме государственных хранилищ, ветхие материалы сосредоточены в музеях, библиотеках, частных собраниях. К примеру, Отдел рукописей Российской национальной библиотеки хранит около 100 тыс. ветхих единиц.

Для сохранности ветхие документы переводят на микроносители — микрофильмы и цифровые копии. Оригиналы хранятся в специальных условиях. Доступ к ним строго регламентирован, выдача происходит по запросу и под контролем сотрудников.

Частота обращений к ветхим документам невысока — порядка 5–8% от общего объёма запросов. Это обусловлено сложностью работы с физически нестабильным носителем. Однако интерес исследователей к таким материалам постоянно растёт.

В этой связи востребована оцифровка архивных документов, в том числе ветхих. Оцифровку и распознавание документов можно заказать в компании Биорг, которая обладает собственным парком современного оборудования для сканирования широкоформатных документов. Компания также предоставляет услугу выездного сканирования.

Часто задаваемые вопросы

Зачем оцифровывать ветхие архивные документы?

Бумажные носители со временем ветшают, рвутся и выцветают — теряется читаемость текста. Оцифровка позволяет надёжно сохранить информацию, сделать её доступной для исследователей, снизить нагрузку на физические оригиналы и обеспечить компактное долговременное хранение. При правильном хранении электронные копии могут пережить физический носитель на века.

Из каких этапов состоит оцифровка ветхих документов?

Процесс включает шесть этапов: подготовка материалов (удаление скрепок, при необходимости — реставрация); сканирование на профессиональных планетарных или поточечных сканерах с разрешением до 600 dpi; обработка изображений (цветокоррекция, удаление дефектов); OCR-распознавание; создание электронных копий в форматах PDF, DjVu, TIFF; размещение в защищённых хранилищах с резервным копированием.

Как распознаются рукописные тексты и старинные шрифты?

Для рукописных текстов и старинных шрифтов применяется преимущественно ручное распознавание, так как нейросети плохо справляются с нестандартными шрифтами и рукописными буквами. В компании Биорг для этого используется собственная краудсорсинговая облачная платформа, где работают удалённые эксперты — в том числе картографы и специализированные операторы.

Какое оборудование используется для сканирования ветхих документов?

Для сканирования ветхих документов применяются профессиональные планетарные или поточечные сканеры в режиме, исключающем повреждение оригиналов. Разрешение до 600 dpi обеспечивает высокое качество изображения. Биорг располагает собственным парком современного оборудования, в том числе для широкоформатных документов, и предоставляет услугу выездного сканирования.

Где в России хранится больше всего ветхих архивных документов?

Крупнейшие хранилища: Государственный архив РФ (более 500 тыс. ветхих единиц XVIII–XX вв.), Российский государственный архив древних актов (свыше 300 тыс. рукописей XI–XVII вв.), Отдел рукописей Российской национальной библиотеки (около 100 тыс. ветхих единиц). Значительный объём ветхих документов хранится также в областных и муниципальных архивах, фондах БТИ, музеях и библиотеках.

В каких форматах сохраняются оцифрованные документы?

Оцифрованные документы сохраняются в форматах PDF, DjVu, TIFF и других. При необходимости создаётся несколько копий разного качества и объёма. Электронные архивы размещаются на надёжных серверах с резервным копированием на отдельные носители для долговременного хранения.

 

Работаем только с юридическими лицами

Работаем только с юридическими лицами.

    На указанный вами email мы автоматически пришлем презентацию.

      На указанный вами email мы автоматически пришлем типовое ТЗ.

      Работаем только с юридическими лицами.

      Вся информация по трудоустройству на странице "Вакансии"

      Ошибка: Контактная форма не найдена.

      Ошибка: Контактная форма не найдена.

      Ошибка: Контактная форма не найдена.