Правительство РФ, по поручению Президента, предпринимает масштабные шаги по модернизации научно-технических библиотек РФ (НТБ). Единая система научно-технической информации обеспечит конкурентные преимущества российской науки и образования, поможет укрепить суверенитет страны. С чего начать и как представить целевой результат оцифровки архивов, чтобы проведённые работы соответствовали поставленной высокой задаче?
Содержание
Научно-технические библиотеки являются ключевым элементом государственной системы научно-технической информации (ГСНТИ) — совокупности организаций, специализирующихся на сборе и обработке научно-технической информации. Современная ГСНТИ включает федеральные, отраслевые и региональные центры, РАН, Федеральные университеты, Роспатент и др.
Задача
Согласно Федеральному проекту, НТБ должны быть объединены в единый информационный контур — базу знаний. К этой базе необходимо предоставить средства доступа, поиска и анализа данных.
Целевую модель можно описать так: сотрудник или научная комиссия вводит интересующий запрос простым языком, а система, заранее проиндексировав всю информацию в базе знаний, подбирает все релевантные материалы по теме и краткое резюме по ним.
Из целевой модели понятно, что НТБ как владельцы данных должны будут наполнить создаваемую систему контентом. Оцифровка таких объёмов данных — задача как минимум нескольких лет. Необходимо:
С чего начать? С первого взгляда — с подсчёта книг. Но на самом деле — с глубокого аудита всего массива данных, где часто содержатся сведения и результаты исследований, обеспечивающие технологическое развитие и суверенитет России. Это дело, которое требует усилий от специалистов самой библиотеки.
Предстоит оценить физическое состояние документов, состав библиографического описания и формат машиночитаемых записей.
Главным критерием отбора является «правовая чистота» документа. Необходимо обеспечить соблюдение авторских прав и получить необходимые разрешения на оцифровку. Документы, не попадающие под действие нормативных актов по авторскому праву (70 лет после смерти автора), получают приоритет для включения в программы оцифровки.
Результат этапа:
При необходимости может потребоваться сканирование микрофишей, фотоматериалов, каротажных лент и других нестандартных носителей. Оборудование всегда подбирается под задачу.
Оцифровка документов осуществляется с соблюдением строгих требований к сохранности оригиналов. Основные принципы:
Массив готовых графических образов проходит многоступенчатую проверку:
Что означает «оцифровать» в контексте научно-технических библиотек? Это не просто фото или скан страниц. Это преобразование неструктурированных, часто устаревших, сложных документов в структурированные, машиночитаемые, семантически обогащённые цифровые объекты.
Распознанные данные подвергаются автоматической верификации с последующей ручной коррекцией операторами. Этот этап обеспечивает высокую точность распознавания — до 99,9% для качественных документов.
Результаты этапа:
Компания Биорг — признанный лидер российского рынка оцифровки, обладает уникальными компетенциями в области обработки сложных документов. Компания уже реализовала масштабные проекты для госведомств, включая оцифровку 43 млн актовых записей для органов ЗАГС. На основе этих данных сформирован Единый реестр органов ЗАГС, на базе которого Правительство РФ развивает автоматизированные госсервисы для граждан.
Объединяет технологии искусственного интеллекта и краудсорсингового сервиса, обеспечивая:
Чтобы превратить бумажные фонды в цифровой центр знаний, нужно не просто «отсканировать», а переосмыслить научную информацию. Только системный, этапный, технологически продвинутый подход с участием экспертов позволит реализовать амбициозные цели федерального проекта.
Beorg, обладая уникальными технологиями и обширным опытом работы с государственными проектами, может стать ключевым партнёром в реализации федерального проекта развития научно-технических библиотек.
Биорг соответствует требованиям:
Beorg — партнёр федерального проекта по цифровизации научных библиотек. Запросите оценку вашего проекта бесплатно: www.beorg.ru | info@beorg.ru | +7 (495) 739-92-37
По поручению Президента РФ научно-технические библиотеки должны быть объединены в единый информационный контур — базу знаний с инструментами доступа, поиска и анализа данных. Цель: обеспечить конкурентные преимущества российской науки и образования, укрепить технологический суверенитет страны. Результат — система, в которой сотрудник вводит запрос простым языком, а система подбирает все релевантные материалы с кратким резюме.
Три основных этапа: 1) аудит и инвентаризация фондов — правовая экспертиза, формирование реестра с метаданными и карты рисков; 2) подготовка и сканирование — выбор оборудования под тип документа (поточные, планшетные, широкоформатные, планетарные сканеры), контроль качества; 3) распознавание и структурирование — OCR с верификацией, семантическая разметка, каталогизация по ВАК, УДК, ГОСТ, создание поискового индекса.
Это не просто фото или скан страниц. Это преобразование неструктурированных, часто устаревших документов в структурированные, машиночитаемые, семантически обогащённые цифровые объекты с полнотекстовым поиском, семантической разметкой (авторы, термины, связи между документами) и каталогизацией по научным классификаторам.
Платформа Beorg Smart Vision обеспечивает точность распознавания до 99,9% для качественных документов благодаря двухэтапной системе: OCR-распознавание с последующей ручной верификацией операторами. Математические формулы распознаются с точностью 97,5% — в 3 раза выше, чем у стандартных OCR. Поддерживается многоязычность: русский, английский, немецкий, французский, японский.
Выбор зависит от типа документа: поточные сканеры (до 200 изображений в минуту) — для массовой обработки стандартных документов; планшетные — для деликатных материалов; широкоформатные — для схем и чертежей; планетарные — для бесконтактного сканирования ценных и хрупких документов формата до A1. При необходимости также сканируются микрофиши, фотоматериалы и каротажные ленты.
Биорг реализовал масштабные проекты для госведомств, включая оцифровку 43 млн актовых записей для органов ЗАГС. На основе этих данных сформирован Единый реестр органов ЗАГС, на базе которого Правительство РФ развивает автоматизированные госсервисы для граждан. Компания обладает собственным парком оборудования, обученным персоналом и краудсорсинговой платформой для верификации сложных данных.
Работаем только с юридическими лицами
Работаем только с юридическими лицами.
Работаем только с юридическими лицами.
Ошибка: Контактная форма не найдена.
Ошибка: Контактная форма не найдена.
Ошибка: Контактная форма не найдена.