Распознавание паспортов и других документов: OCR на практике

27.02.2024

Распознавание документов для бизнеса: практические проблемы и как их решать

Как улучшить точность, скорость и маcштабируемость технологий оптического распознавания символов (OCR) в вашей информационной системе? Можно ли распознавать рукописный тест с гарантированной точностью без ручного вмешательства? Общий обзор проблем внедрения OCR на практике и способы преодоления трудностей.

Преимущества OCR

Технологии оптического распознавание символов (OCR – optical characters recognition) помогают переводить печатные и/или рукописные символы из изображений в редактируемый формат.

Подход революционизировал бизнес-процессы, позволив быстро распознавать документы в офисе, в частных и государственных корпорациях. Вместо долгих часов сотрудники тратят на перевод данных в электронный вид считанные минуты. Современные решения применяют не только для распознавания отдельных типовых форм документов, но и целых комплектов документов – например, кадровых заявок или заявок на кредит.

Более того, с развитием систем дистанционного взаимодействия бизнеса с пользователями — регистрации через приложения, сайты – работу с документами в принципе делегировали самим пользователям. Человек, который хочет пройти регистрацию на бирже или в сервисе сам подгружает паспорт и селфи, права или другие персональные документы. Распознавать такие документы иногда требуется в рамках процедур KYC (know your customer – знай своего клиента), направленных на регистрацию благонадежных пользователей.

С развитием OCR-систем распознавания документов компании работают быстрее, данные стали точнее, результат их обработки и финальный бизнес-результат – более качественными.

Оцифруйте бесплатно

Как работает OCR

Системы распознавания текста обычно состоят из нескольких компонентов. Каждый из них по отдельности:

  • Захватывает изображение документа
  • Предварительно обрабатывает изображение
  • Улучшает качество полученного изображения. На этом этапе устраняются шумы, перекосы, геометрические искажения.
  • Сегментирует символы: программа идентифицирует отдельные символы в предварительно обработанном изображении.
  • Извлекает соответствующие признаки – проводит интеллектуальную обработку, определяя индивидуальные черты, из которых состоит символ.
  • Сопоставляет извлеченные признаки с заранее определенным набором символов, который использовали для обучения системы, который машина уже «знает».

Несмотря на то, что технологии OCR развиваются уже много десятков лет, до сих пор их внедрение в информационные системы сопряжено с рядом проблем.

Проблемы OCR: почему распознавание плохо работает

Наличие/отсутствие ошибок распознавания зависит от качества захваченного изображения, точности сегментации символов, сложности данных, которые надо распознать и точности выделения и распознавания признаков.

Качество исходного изображения

Хороший или плохой результат зависит от освещения, при котором сделано изображение, разрешения и контрастности самой картинки. Как ни удивительно, проблема актуальна даже при наличии современной продвинутой мобильной техники с хорошими камерами. И даже усугубляется вместе с ней: чем лучше камера, тем небрежнее делают фото.

Идеальным для распознавания изображением считается четкий скан с разрешением от 300 dpi. В жизни такое бывает не часто. Например, в условиях, когда пользователь регистрируется на сайте или в приложении по фото паспорта, не всегда у него под рукой четкий скан. А фото, сделанное на телефон, почти гарантированно изобилует многочисленными погрешностями: если не блики, то геометрические искажения обеспечены.

Изображения низкого качества провоцируют ошибки в распознавании символов. Это приводит к неточному вводу данных или и вовсе отсутствию нужных данных в системе.

Решение: бороться за качество входящих на распознавание изображений. Например, для этого можно установить более качественное сканирующее оборудование, свет. Или обязать клиентов и контрагентов присылать только сканы в высоком разрешении, или фото, сделанные с телефона, но при соблюдении определенных требований: хороший свет, отсутствие бликов, ровно изображение и др.

Слишком плотное расположение символов на картинке

Если символы на изображении расположены близко друг к другу или «заходят» друг на друга, система может их неправильно идентифицировать. Нельзя забывать, что машинное зрение работает иначе, чем человеческое. Системы распознавания с трудом «узнают» знаки, им трудно догадаться о значении символов, если они представлены в комбинации, которая не входила уже в обучающую выборку. Отчасти из этого следуют и проблемы, связанные с распознаванием рукописного текста.

Решение: совершенствовать свои собственные или покупать современные решения для задач OCR на рынке. Например, часто требуется внедрить распознавания паспортов РФ и стран СНГ или бухгалтерских первичных документов, актов, накладных, где есть и стандартные ячейки, но могут присутствовать и рукописные поля.

Применять современные алгоритмы на базе машинного обучения, которые могут улучшать качество распознавания, обучаясь на примере исторических наборов данных.

Требования к вычислительной мощности

Как быстро распознается изображения, может зависеть и от вычислительной мощности вашей инфраструктуры. Особенно если речь про поток из тысяч документов в день. Чтобы обеспечить современную систему распознавания должными вычислительными ресурсами необходимо переводить её на мощные графические процессоры (GPU).

Тем не менее, даже если вычислительная мощность на высоте, могут возникнуть трудности при обработке нестандартных документов и комплектов разноформатных данных, которые поступают одним пакетом.

Решение:

  • повышать качество алгоритмов и вкладываться в инфраструктуру
  • Использовать методы параллельной обработки могут повысить скорость распознавания, распределяя нагрузку на обработки между несколькими системами распознавания от нескольких вендоров.

Разные изображения подгружаются в систему одновременно

Часто заказчики присылают на распознавание очень разнообразные типы изображений документов. Не всегда они бьются с тем, что прописано в договоре.

Например, в рамках бизнес-процесса требуется распознавать только первый разворот (стр. 2-3) паспорта, но есть внутренние требования, чтобы сканировался весь документ со всеми отметками. Соответственно и на распознавание загружают многостраничный файл паспорта. Конечно, современные системы способны «порезать» изображения и фрагментировать его на отдельные части, но это требует дополнительных настроек.

Решение: проводить сортировку документов и подгружать в систему только профильные формы. Договориться с подрядчиком, что сортировка будет производиться на его стороне. В случае с сервисными провайдерами решений по распознаванию это сделать проще.

Масштабируемость

Внедрили распознавание одного или нескольких типов документов? А что дальше? Можно ли масштабировать решение на другие типы и формы? И сколько это будет стоить?

Масштабируемость зависит от существующих в системе предобученных шаблонов для распознавания стандартных форм, возможности дообучить систему обрабатывать новые формы, возможности распознавать нестандартные формы со слабоструктурированными данными – например, письменные заявления граждан, рукописные анкеты и т.д.

Решение:

  • внедрять современную систему распознавания со множеством готовых шаблонов, удобным личным кабинетом, где можно смотреть результаты и статистику обработки данных. Необходима возможность дообучать систему на новых компонентах.
  • Использовать облачный сервис – SaaS-модель — распознавания документов по модели «отдал и забыл». Это единственный способ добиться быстрой и легкой масштабируемости с минимальными затратами на закупку «коробочного» ПО и на развитие вашей внутренней ИТ-инфраструктуры.

Сервисы работают на базе мощных распределенных (облачных) инфраструктур. Российские SaaS-решения работают на базе отечественных серверов.

Сервисы решают проблемы с распознаванием разного количества и разных видом документов. Единственная особенность такого подхода – информацию надо передать для распознавания в облако. Некоторые службы безопасности это смущает, даже несмотря на наличие шифрованных каналов связи и различных методик обезличивания информации.

Универсальное решение по улучшению результатов ОСR-решений: использовать смешанный или гибридный подход

Например, если применять сразу нескольких систем распознавания (метод параллельной обработки) в контуре крупной организации, это позволяет:

— уйти от зависимости от одного вендора

— распределять нагрузку по различным каналам, если в момент пиковых значений какая-то из систем начинает работать медленнее

— распределять разные типы документов по различным вендорам. Кто-то лучше справляется с распознаванием типовых форм, например, хорошо распознают печатные паспортные формы или права. Другие предоставляют полноценный сервис по распознаванию сложных документов, где много блоков с нетиповой или рукописной информацией. Такой сервис всегда объединяет в себе алгоритмы машинного обучения для работы с типовыми данными и ручную верификацию силами операторов (работают в облаке) для тех данных, с которыми алгоритмы распознавания справились плохо.

Более того, каждый отдельный шаг можно отдать отдельному вендору: один отвечает за информационную систему, другой – за канал передачи данных, третий за модуль передачи данных в канал, наконец, четвёртый – за распознавание данных.

Таким образом иногда поступают банки, которые хотят гибко управлять инфраструктурой и получить максимальную независимость и заменяемость фрагментов инфраструктуры. Хотя, конечно, придется уделить большое внимание вопросам интеграции разных решений

Наряду с закупкой сразу нескольких систем также компания может наращивать мощность собственной инфраструктуры.

Очевидный недостаток гибридного подхода – ресурсоемкость.

Выводы

Технологии распознавания документов критически важны в автоматизации современных бизнес-процессов. Однако до сих пор нет идеальных алгоритмов машинного обучения, распознавания.

Преодолеть возникающие на практике проблемы OCR можно различными способами:

  • улучшить качество изображения – долго и требует усилий
  • использовать более современные алгоритмы распознавания — дорого
  • применять более продвинутые аппаратные ускорители — дорого
  • перейти на облачный сервис распознавания с гарантией работы под ключ – оптимальны вариант, если нет принципиального запрета со стороны службы безопасности и если подрядчик лицензирован на обработку данных.

Один из самых важных вызовов для систем OCR —  распознать рукописный текст, если он не идеален каллиграфически, или распознать нестандартизированные формы. Как правило, необходимо либо постоянно сложно дообучать систему, когда она отдельно учится различать разные типы подчерков. Либо, в качестве альтернативы, – распознать то, что можно автоматически, а для остального подключить ручную верификацию данных. Процессом верификации занимаются операторы либо на стороне заказчика, либо на стороне сервисной компании, которой отдали процесс распознавания на аутсорс.

Сервисы выигрывают по цене, качеству и масштабируемости, но на некоторых типах сложных документов работают медленнее коробочного ПО. SaaS-модель подразумевает, что данные, хотя и защищенные, уходят на обработку в облако. При сервисном подходе заказчик и исполнитель несут солидарную ответственность за обеспечение безопасности данных. Выполнении всех протоколов безопасности делают обработку данных в облаке такой же безопасной, как и в случае с on-premise решениями.

Оцифруйте бесплатно

Работаем только с юридическими лицами

Работаем только с юридическими лицами.

    На указанный вами email мы автоматически пришлем презентацию.

    Работаем только с юридическими лицами.

    Вся информация по трудоустройству на странице "Вакансии"

    Ошибка: Контактная форма не найдена.

    Ошибка: Контактная форма не найдена.