Как улучшить точность, скорость и масштабируемость технологий оптического распознавания символов (OCR) в вашей информационной системе? Можно ли распознавать рукописный текст с гарантированной точностью без ручного вмешательства? Общий обзор проблем внедрения OCR на практике и способы преодоления трудностей.
Содержание
Технологии оптического распознавания символов (OCR — optical characters recognition) помогают переводить печатные и/или рукописные символы из изображений в редактируемый формат.
Подход революционизировал бизнес-процессы, позволив быстро распознавать документы в офисе, в частных и государственных корпорациях. Вместо долгих часов сотрудники тратят на перевод данных в электронный вид считанные минуты. Современные решения применяют не только для распознавания отдельных типовых форм документов, но и целых комплектов документов — например, кадровых заявок или заявок на кредит.
Более того, с развитием систем дистанционного взаимодействия бизнеса с пользователями — регистрации через приложения и сайты — работу с документами в принципе делегировали самим пользователям. Человек, который хочет пройти регистрацию на бирже или в сервисе, сам подгружает паспорт и селфи, права или другие персональные документы. Распознавать такие документы иногда требуется в рамках процедур KYC (know your customer — знай своего клиента), направленных на регистрацию благонадёжных пользователей.
С развитием OCR-систем компании работают быстрее, данные стали точнее, результат их обработки и финальный бизнес-результат — более качественными.
Системы распознавания текста обычно состоят из нескольких компонентов. Каждый из них по отдельности:
Несмотря на то что технологии OCR развиваются уже много десятков лет, до сих пор их внедрение в информационные системы сопряжено с рядом проблем.
Наличие или отсутствие ошибок распознавания зависит от качества захваченного изображения, точности сегментации символов, сложности данных и точности выделения признаков.
Хороший или плохой результат зависит от освещения, разрешения и контрастности изображения. Проблема актуальна даже при наличии современной мобильной техники с хорошими камерами — и даже усугубляется вместе с ней: чем лучше камера, тем небрежнее делают фото.
Идеальным для распознавания считается чёткий скан с разрешением от 300 dpi. Фото, сделанное на телефон, почти гарантированно изобилует погрешностями: блики или геометрические искажения обеспечены. Изображения низкого качества провоцируют ошибки в распознавании символов, что приводит к неточному вводу данных или их полному отсутствию в системе.
Решение: бороться за качество входящих изображений — установить более качественное сканирующее оборудование и освещение, либо задать пользователям чёткие требования к фотографии документа.
Если символы расположены близко друг к другу или «заходят» друг на друга, система может их неправильно идентифицировать. Машинное зрение работает иначе, чем человеческое: системам трудно догадаться о значении символов в комбинациях, не входивших в обучающую выборку. Отчасти из этого следуют и проблемы с распознаванием рукописного текста.
Решение: совершенствовать алгоритмы или покупать современные решения — например, для распознавания паспортов РФ и СНГ или бухгалтерских первичных документов. Применять алгоритмы машинного обучения, обучающиеся на исторических наборах данных.
Скорость распознавания зависит от вычислительной мощности инфраструктуры — особенно при потоке тысяч документов в день. Современные системы распознавания требуют мощных графических процессоров (GPU). Даже при высокой мощности могут возникнуть трудности при обработке нестандартных документов и разноформатных данных, поступающих одним пакетом.
Решение:
Заказчики нередко присылают на распознавание очень разнородные типы изображений. Например, по бизнес-процессу требуется только первый разворот паспорта, но загружают многостраничный файл со всеми отметками. Современные системы способны фрагментировать изображение, но это требует дополнительных настроек.
Решение: проводить сортировку документов перед загрузкой или договориться с подрядчиком, что сортировка будет выполняться на его стороне.
Внедрили распознавание нескольких типов документов — а что дальше? Масштабируемость зависит от наличия в системе предобученных шаблонов, возможности дообучить её на новых формах и способности работать с нестандартизированными данными — письменными заявлениями, рукописными анкетами.
Решение:
Российские SaaS-решения работают на базе отечественных серверов. Единственная особенность такого подхода — данные передаются в облако для распознавания, что иногда вызывает вопросы у служб безопасности, даже несмотря на шифрованные каналы связи и методики обезличивания данных.
Использование сразу нескольких систем распознавания в контуре крупной организации (метод параллельной обработки) позволяет:
Более того, каждый отдельный шаг можно отдать отдельному вендору: один отвечает за информационную систему, другой — за канал передачи данных, третий — за модуль передачи данных, четвёртый — за само распознавание.
Таким образом поступают некоторые банки, которые хотят гибко управлять инфраструктурой. Очевидный недостаток гибридного подхода — высокая ресурсоёмкость и сложность интеграции разных решений.
Технологии распознавания документов критически важны в автоматизации современных бизнес-процессов. Преодолеть возникающие на практике проблемы OCR можно различными способами:
Один из самых важных вызовов для систем OCR — распознать рукописный текст, если он не идеален каллиграфически, или распознать нестандартизированные формы. Как правило, необходимо либо постоянно дообучать систему на новых образцах, либо комбинировать автоматическое распознавание с ручной верификацией данных — операторами на стороне заказчика или сервисной компании.
Сервисы выигрывают по цене, качеству и масштабируемости, но на некоторых типах сложных документов работают медленнее коробочного ПО. SaaS-модель подразумевает, что данные, хотя и защищённые, уходят на обработку в облако. При сервисном подходе заказчик и исполнитель несут солидарную ответственность за безопасность данных. Выполнение всех протоколов безопасности делает облачную обработку такой же надёжной, как и on-premise решения.
OCR (optical character recognition — оптическое распознавание символов) — это технология перевода печатных и рукописных символов с изображений в редактируемый цифровой формат. Система захватывает изображение документа, предварительно обрабатывает его, устраняет шумы и геометрические искажения, сегментирует символы, извлекает их признаки и сопоставляет с обучающей выборкой. В бизнесе OCR применяется для автоматического переноса данных из паспортов, договоров, анкет и других документов в информационные системы — вместо ручного ввода.
Ошибки возникают по нескольким причинам: низкое качество исходного изображения (блики, геометрические искажения, недостаточное разрешение), слишком плотное расположение символов, которые система не может корректно сегментировать, нестандартные или рукописные элементы, не входившие в обучающую выборку, а также недостаточная вычислительная мощность при обработке большого потока документов.
Идеальным считается чёткий скан с разрешением от 300 dpi, без бликов, перекосов и геометрических искажений. На практике фотографии документов с телефона почти всегда содержат погрешности. Для улучшения результата можно установить более качественное сканирующее оборудование и источники освещения или задать пользователям чёткие требования к загружаемым фото.
Это один из самых сложных вызовов для OCR-систем. Распознавание рукописного текста требует либо постоянного дообучения системы на новых образцах почерков, либо комбинированного подхода: автоматического распознавания того, что поддаётся обработке, и ручной верификации остального — операторами на стороне заказчика или сервисной компании.
Гибридный подход предполагает одновременное использование нескольких систем распознавания от разных вендоров. Это позволяет устранить зависимость от одного поставщика, распределять нагрузку в пиковые периоды, направлять разные типы документов к тем системам, которые с ними справляются лучше. Недостаток — высокая ресурсоёмкость и сложность интеграции. Такой подход чаще всего используют крупные банки.
SaaS-модель обеспечивает быструю и лёгкую масштабируемость с минимальными инвестициями: не нужно покупать коробочное ПО и развивать собственную ИТ-инфраструктуру. Облачные сервисы работают на мощных распределённых серверах, поддерживают широкий спектр типов документов и позволяют запустить распознавание сразу после подключения. Главный нюанс — данные передаются в облако, что требует проверки наличия у провайдера лицензий ФСТЭК и ФСБ и соответствия ФЗ-152.
Масштабируемость зависит от наличия предобученных шаблонов для стандартных форм, возможности дообучать систему на новых типах документов и способности работать с нестандартными формами. Самый быстрый и экономичный путь — перейти на облачный SaaS-сервис с широкой библиотекой шаблонов и мониторингом результатов. Альтернатива — наращивание мощности собственной инфраструктуры и внедрение параллельной обработки.
Да, при условии что сервис соответствует требованиям безопасности. Передача данных защищается шифрованными каналами связи, надёжные провайдеры применяют методики обезличивания информации. При выборе сервиса следует убедиться в наличии лицензий ФСТЭК и ФСБ, соответствии ФЗ-152 и размещении данных на российских серверах — тогда облачная обработка по уровню безопасности сопоставима с on-premise решениями.
Работаем только с юридическими лицами
Работаем только с юридическими лицами.
Работаем только с юридическими лицами.
Ошибка: Контактная форма не найдена.
Ошибка: Контактная форма не найдена.
Ошибка: Контактная форма не найдена.