Зачем интегрировать сервис распознавания документов в систему электронного документооборота (СЭД/ECM)? Какие рутинные задачи могут быть автоматизированы с помощью технологий распознавания? Как искусственный интеллект (ИИ) влияет на возможности обработки документов?
Казалось бы, с ростом электронного документооборота (ЭДО) потребность в распознавании документов должна исчезнуть. Логично, ведь в систему уже поступают электронные редактируемые данные. Однако для организаций с развитыми системами электронного документооборота (СЭД) по-прежнему актуальны задачи оптического распознавания символов (OCR). И пока что спрос на технологии распознавания растет.
Почему так происходит?
Карточка входящего документа зачастую содержит недостаточно данных для полноценной обработки. Например, может прийти договор с приложением, технические задания, спецификации, акты оказанных услуг и многие другие документы.
Что происходит на практике? Часть информации просто невозможно выгрузить в СЭД. В результате сотрудники открывают прикрепленные копии документов и вручную копируют из них данные в информацию в систему.
Бывает и хуже: текст из приложенных файлов извлечь простым копированием не удается, его надо перепечатать! Например, если пришли документы в растровых форматах: PDF без текстового слоя или JPG.
Даже если документы поступают в понятных электронных форматах, таких как DOCX, данные приходится вручную искать в файле, выделять, копировать и переносить в систему.
Документоемкие процессы компаний включают самые разнообразные формы документов, как электронных, так и бумажных. Поступают они тоже различным способом.
Естественно, компании хотят видеть эти документы в электронном виде, чтобы эффективнее обрабатывать их. И тут же сталкиваются с задачей: все аналоговые формы нужно отсканировать, извлечь из них информацию, чтобы перенести данные в учетную систему.
Сервис распознавания данных (OCR-система) как раз предназначен, чтобы эти рутинные операции проходили быстрее и качественнее, чем при ручном вводе.
С помощью интегрированных технологий (OCR) можно:
Это может быть перенос данных из бухгалтерской «первички» в 1С и др. системы, оцифровка избранных атрибутов в документах, извлечение данных из анкет лояльности, оцифровка маркетинговых и других исследовательских опросных листов, оцифровка ценников и т.д.
Довольно распространенные запросы бизнеса по обработке документов:
Например, система может проверять документы на юридическую значимость, распознавать наличие/отсутствие необходимых печатей и подписей, контролировать комплектность набора документов. Такие задачи актуальны, например, при обработке кредитных заявок в банках, МФО, при распознавании кадровых документов, оцифровке комплектов документов для страховой
Это более сложная система распознавания и анализа. Подобные системы работают на разных уровнях с разным уровнем успеха. Например, сверить суммы и синхронизировать номенклатуры в бухгалтерских документах легко – достаточно подключить нужные справочники. В других сегментах есть очень много недосказанности. Например, если договор находится у десятков или даже сотен контрагентов, при этом кто-то из них внес в него правки, а кто-то нет. Как узнать, у кого актуальная версия документа?
OCR обеспечивает возможность поиска по содержимому оцифрованных копий аналоговых документов. Используется, например, при оцифровке аналогового архива. Электронные копии документов при этом необходимо хранить в цифровом хранилище. Иногда у компаний уже есть своя система хранения, а иногда вместе с услугами оцифровки они заказывают и новую электронный архив, где документы можно быстро и просто найти простым вводом запроса в поисковую строку.
Сейчас в тренде переводить в цифровой вид техническую документацию предприятий, проектную документацию, что потенциально позволяет повысить скорость конструкторских работ по разным направлениям.
В общем случае речь идет о применении для задач распознавания симвовло не простых алгоритмов, а продвинутых нейросетей (ИИ), которые более гибко и эффективно находят в документе нужные данные. Например. Алгоритм ошибется, если документ слегка отличается от шаблона. Шаг вправо-влево – ошибка, потому что алгоритм ищет конкретные виды данных в конкретных местах.
Нейросеть может сама «понять» что за вид документа перед ней и какие данные извлечь, даже если нужная информация находится не там, где должна быть (отклонение от строгой формы шаблона.
Специаьная нейросеть также может извлекать смысловые сущности из текста документа для их анализа и сопоставление в различных бизнес- процессах клиента. Например, при проверке корректности данных в комплекте договор + доверенность.
Сопутствующие части системы – это ИИ-алгоритмы, которые могут:
Наличие компонентов искусственного интеллекта в сервисе для оцифровки данных существенно влияет на его качество и скорость распознавания.
Во многих системах электронного документооборота (СЭД) уже есть встроенные OCR-модули с базовыми возможностями. Однако ключевым фактором выбора является не просто наличие какого-то OCR, а функциональные возможности системы распознавания:
Предназначены для решения самых простых задач, с которыми иногда неплохо справляются. Сложности возникают в обработке документов, слегка отклоняющихся от стандарта. При наличии дополнительных пометок, штампов такие системы с ними не справятся.
Обеспечивает более широкий спектр возможностей. На рынке особо выделяют, что в такой конфигурации документы не выходят за контур. Обычно на это обращают внимание в банковском секторе. Но такое уж ли это преимущество, учитывая, что данные если и крадут, то, как правило, по вине внутренних сотрудников, и уже из самой базы данных? В то же время стоит оговориться, что современный уровень технологий позволяет настроить безопасность облачного (SaaS) решения, которая ничуть не уступает решению «контурному». При этом SaaS-система легче и дешевле масштабируется на новые задачи, менее требовательна к вычислительным ресурсам.
Обеспечивает более широкий набор функций по сравнению с предыдущими вариантами, что помогает решать задачи OCR далеко за рамками типовых. Например, качественно распознавать рукописный текст, сложные документы вроде военного билета. Обрабатывать целые комплекты документов и проводить их проверки.
Прежде чем выбрать сервис распознавания документов, проанализируйте будущие сценарии применения технологии:
Если у вас типовая СЭД/ECM, рассмотрите специализированные сервисы для распознавания документов. Они справляются с задачами лучше, чем встроенные модули и обладают гибкостью для последующего масштабирования на другие процессы.
При выборе OCR-сервиса ориентируйтесь на следующие показатели:
«Агропромкомплектация». Технология Beorg Smart Vision ускоряет обработку документов и минимизирует роль человеческого фактора
Группа компаний «Агропромкомплектация», агропромышленное объединение, на предприятиях которого работает порядка 12000 сотрудников в разных регионах РФ, внедрила единое решение для распознавания кадровых документов — облачную (SaaS) платформу Beorg Smart Vision на базе технологий искусственного интеллекта (ИИ) и верификации данных. Разработка компании «Биорг», резидента фонда «Сколково», помогает снизить рутинную нагрузку на сотрудников общего центра обслуживания и ускорить процесс трудоустройства кандидатов. Ежемесячно через платформу обрабатывают более 2000 документов – от паспорта и СНИЛС до диплома и военного билета.
Уральский банк реконструкции и развития внедрил технологии БИОРГ и ускорил выдачу ипотеки
На базе платформы Beorg Smart Vision Уральский банк реконструкции и развития (УБРиР) сократил время обработки комплектов кредитных заявок более чем в два раза – с 45 до 20 минут. Вместе с другими мерами оптимизации это позволило банку нарастить количество выданных ипотечных займов в 1,5 раза.
Работаем только с юридическими лицами
Работаем только с юридическими лицами.
Работаем только с юридическими лицами.
Ошибка: Контактная форма не найдена.
Ошибка: Контактная форма не найдена.