Оцифровка ветхих документов: этапы, особенности

18.01.2024

Зачем проводят оцифровку документов архивных фондов?

Сохранить историческое наследие —  важная задача государства и крупных компаний, которую они реализуют через институт архивов и библиотек. Особую ценность в фондах представляют старые документы, рукописи, книги, а также выполненные на кальке технические чертежи, схемы, геокарты.

Проблема в том, что бумажные носители со временем ветшают, рвутся и выцветают – теряется читаемость текста. Оцифровка архивных старых документов, их систематизация и перевод в электронный архив позволяют надежно сохранить информацию и сделать ее доступной для пользователей и исследователей.

Например, с 2023 года в России стали усиленно проводить оцифровку географических карт-плашетов для наполнения Национальной системы пространственных данных. Сырьевые компании стараются перевести в электронный вид чертежи скважин, месторождений и пр. Предприятия переводят в цифру чертежи оборудования и цехов.

Этапы оцифровки документов

Процесс перевода бумажных документов в электронный формат называется оцифровкой. Она состоит из технических этапов сканирования и распознавания. Для старых и ветхих материалов требуется особо бережный подход.

Основные этапы оцифровки архивных документов:

  • Подготовка материалов. На этом этапе документы аккуратно отделяют от других бумаг, удаляют скрепки и зажимы. При наличии серьезных повреждений проводят необходимый ремонт и реставрацию (в этой связи проект по оцифровке может растянутся во времени)
  • Сканирование. Выполняется на профессиональных безопасных сканерах (планетарных или поточечных) в режиме, исключающем повреждение оригиналов. Разрешение сканирования до 600 dpi обеспечивает высокое качество.
  • Обработка отсканированных изображений. На этом этапе производится цветокоррекция, повышение резкости, удаление всевозможных дефектов с сохранением максимальной достоверности.
  • Распознавание документов (OCR). Специальное программное обеспечение преобразует отсканированные страницы в текстовые документы и таблицы.

Для рукописных текстов и старинных шрифтов применяется смешанное, но преимущественно ручное распознавание, т.к. нейросети плохо справляются с нестандартными шрифтами и рукописными буквами.

В компании Биорг для верификации данных силами людей есть собственный краудсорсинговый ресурс — облачная платформа. Благодаря этому инструменту возможно удаленное трудоустройство различных экспертов, например, картографов, или рядовых операторов.

  • Создание электронных копий. Полученные файлы изображений и текстов объединяют в целостные документы в форматах PDF, DjVu, TIFF и др. При необходимости создается несколько копий разного качества и объема.
  • Размещение в хранилищах данных. Электронные архивы документов помещают на надежные серверы с резервным копированием на отдельные носители для долговременного хранения.

Преимущества оцифровки документов

Сканирование и распознавание документов дают возможности:

  • Сохранить уникальные документы. При правильном хранении электронные копии могут пережить физический носитель на века. Это позволяет надежно защитить редкие издания и рукописи от утраты.
  • Повысить доступность информации. Оцифрованные материалы можно выставлять в сети Интернет, предоставлять удаленный доступ через библиотечные базы данных. Это существенно облегчает работу исследователей и расширяет аудиторию.
  • Снизить физическую нагрузку на документы. Благодаря наличию электронных копий снижается потребность в работе с оригиналами, что продлевает их физическое существование. Особенно актуально для ветхих, часто используемых изданий.
  • Редактировать и анализировать документы. Электронные копии легко подвергать цветокоррекции, повысить резкость, распознавать в них текст для последующего поиска и систематизации данных. Это открывает новые возможности для работы с архивами.
  • Компактное хранить большие объемы данных. Современные накопители информации позволяют хранить тысячи страниц занимая при этом минимум физического пространства. Это решает проблему нехватки места в библиотечных и архивных фондах.
  • Обеспечить оперативный доступ и тиражирование документов по запросу. Электронные копии легко распечатывать на принтере или передавать по интернету.

Основные хранилища ветхих документов в России

Государственный архив РФ — крупнейшее собрание уникальных дореволюционных документов. Хранит более 500 тыс. ветхих единиц начала XVIII — начала XX века.

Российский государственный архив древних актов — свыше 300 тыс. ветхих рукописей XI-XVII веков. Документы имеют угасающий текст, разрушения пергамена, выпадение листов.

Областные госархивы — хранят региональные материалы по истории, экономике, культуре. Доля ветхих может достигать трети фондов.

Муниципальные архивы городов, фонды БТИ — хранят дела местных органов власти, предприятий, организаций. Содержат значительное количество ветхой документации.

Кроме государственных хранилищ, ветхие материалы сосредоточены в музеях, библиотеках, частных собраниях. К примеру, Отдел рукописей Российской национальной библиотеки хранит около 100 тыс. ветхих единиц.

Для сохранности ветхие документы переводят на микроносители — микрофильмы и цифровые копии. Оригиналы хранятся в специальных условиях. Доступ к ним строго регламентирован, выдача происходит по запросу и под контролем сотрудников.

Частота обращений к ветхим документам невысока — порядка 5-8% от общего объема запросов. Это обусловлено сложностью работы с физически нестабильным носителем. Однако интерес исследователей к таким материалам постоянно растёт.

В этой связи востребована оцифровка архивных документов, в том числе ветхих. Оцифровку и распознавание документов можно заказать в компании Биорг, которая обладает собственным парком современного оборудования для сканирования широкоформатных документов. Компания также предоставляет услугу выездного сканирования.

 

Работаем только с юридическими лицами

Работаем только с юридическими лицами.

    На указанный вами email мы автоматически пришлем презентацию.

    Работаем только с юридическими лицами.

    Вся информация по трудоустройству на странице "Вакансии"
    [contact-form-7 404 "Не найдено"]
    [contact-form-7 404 "Не найдено"]