Распознавание паспортов и других документов: OCR на практике

Q: Почему OCR-системы ошибаются и дают низкую точность распознавания?

Ошибки распознавания возникают по нескольким причинам: низкое качество исходного изображения (блики, геометрические искажения, недостаточное разрешение), слишком плотное расположение символов, которые система не может корректно сегментировать, нестандартные или рукописные элементы, не входившие в обучающую выборку, а также недостаточная вычислительная мощность инфраструктуры при обработке большого потока документов.

Как улучшить точность, скорость и масштабируемость технологий оптического распознавания символов (OCR) в вашей информационной системе? Можно ли распознавать рукописный текст с гарантированной точностью без ручного вмешательства? Общий обзор проблем внедрения OCR на практике и способы преодоления трудностей.

Содержание

Преимущества OCR
Как работает OCR
Проблемы OCR: почему распознавание плохо работает
Качество исходного изображения
Слишком плотное расположение символов
Требования к вычислительной мощности
Разные изображения подгружаются одновременно
Масштабируемость
Гибридный подход как универсальное решение
Выводы
Часто задаваемые вопросы

Преимущества OCR

Технологии оптического распознавания символов (OCR — optical characters recognition) помогают переводить печатные и/или рукописные символы из изображений в редактируемый формат.

Подход революционизировал бизнес-процессы, позволив быстро распознавать документы в офисе, в частных и государственных корпорациях. Вместо долгих часов сотрудники тратят на перевод данных в электронный вид считанные минуты. Современные решения применяют не только для распознавания отдельных типовых форм документов, но и целых комплектов документов — например, кадровых заявок или заявок на кредит.

Более того, с развитием систем дистанционного взаимодействия бизнеса с пользователями — регистрации через приложения и сайты — работу с документами в принципе делегировали самим пользователям. Человек, который хочет пройти регистрацию на бирже или в сервисе, сам подгружает паспорт и селфи, права или другие персональные документы. Распознавать такие документы иногда требуется в рамках процедур KYC (know your customer — знай своего клиента), направленных на регистрацию благонадёжных пользователей.

С развитием OCR-систем компании работают быстрее, данные стали точнее, результат их обработки и финальный бизнес-результат — более качественными.

Оцифруйте бесплатно

Как работает OCR

Системы распознавания текста обычно состоят из нескольких компонентов. Каждый из них по отдельности:

Захватывает изображение документа.
Предварительно обрабатывает изображение.
Улучшает качество полученного изображения — устраняет шумы, перекосы, геометрические искажения.
Сегментирует символы: программа идентифицирует отдельные символы в предварительно обработанном изображении.
Извлекает соответствующие признаки — проводит интеллектуальную обработку, определяя индивидуальные черты символа.
Сопоставляет извлечённые признаки с заранее определённым набором символов, который использовали для обучения системы.

Несмотря на то что технологии OCR развиваются уже много десятков лет, до сих пор их внедрение в информационные системы сопряжено с рядом проблем.

Проблемы OCR: почему распознавание плохо работает

Наличие или отсутствие ошибок распознавания зависит от качества захваченного изображения, точности сегментации символов, сложности данных и точности выделения признаков.

Качество исходного изображения

Хороший или плохой результат зависит от освещения, разрешения и контрастности изображения. Проблема актуальна даже при наличии современной мобильной техники с хорошими камерами — и даже усугубляется вместе с ней: чем лучше камера, тем небрежнее делают фото.

Идеальным для распознавания считается чёткий скан с разрешением от 300 dpi. Фото, сделанное на телефон, почти гарантированно изобилует погрешностями: блики или геометрические искажения обеспечены. Изображения низкого качества провоцируют ошибки в распознавании символов, что приводит к неточному вводу данных или их полному отсутствию в системе.

Решение: бороться за качество входящих изображений — установить более качественное сканирующее оборудование и освещение, либо задать пользователям чёткие требования к фотографии документа.

Слишком плотное расположение символов

Если символы расположены близко друг к другу или «заходят» друг на друга, система может их неправильно идентифицировать. Машинное зрение работает иначе, чем человеческое: системам трудно догадаться о значении символов в комбинациях, не входивших в обучающую выборку. Отчасти из этого следуют и проблемы с распознаванием рукописного текста.

Решение: совершенствовать алгоритмы или покупать современные решения — например, для распознавания паспортов РФ и СНГ или бухгалтерских первичных документов. Применять алгоритмы машинного обучения, обучающиеся на исторических наборах данных.

Требования к вычислительной мощности

Скорость распознавания зависит от вычислительной мощности инфраструктуры — особенно при потоке тысяч документов в день. Современные системы распознавания требуют мощных графических процессоров (GPU). Даже при высокой мощности могут возникнуть трудности при обработке нестандартных документов и разноформатных данных, поступающих одним пакетом.

Решение:

Повышать качество алгоритмов и инвестировать в инфраструктуру.
Использовать параллельную обработку — распределять нагрузку между несколькими системами от нескольких вендоров.

Разные изображения подгружаются в систему одновременно

Заказчики нередко присылают на распознавание очень разнородные типы изображений. Например, по бизнес-процессу требуется только первый разворот паспорта, но загружают многостраничный файл со всеми отметками. Современные системы способны фрагментировать изображение, но это требует дополнительных настроек.

Решение: проводить сортировку документов перед загрузкой или договориться с подрядчиком, что сортировка будет выполняться на его стороне.

Масштабируемость

Внедрили распознавание нескольких типов документов — а что дальше? Масштабируемость зависит от наличия в системе предобученных шаблонов, возможности дообучить её на новых формах и способности работать с нестандартизированными данными — письменными заявлениями, рукописными анкетами.

Решение:

Внедрять современную систему с множеством готовых шаблонов, удобным личным кабинетом и возможностью дообучения.
Использовать облачный SaaS-сервис — единственный способ добиться быстрой и лёгкой масштабируемости с минимальными затратами на закупку ПО и развитие собственной ИТ-инфраструктуры.

Российские SaaS-решения работают на базе отечественных серверов. Единственная особенность такого подхода — данные передаются в облако для распознавания, что иногда вызывает вопросы у служб безопасности, даже несмотря на шифрованные каналы связи и методики обезличивания данных.

Гибридный подход как универсальное решение

Использование сразу нескольких систем распознавания в контуре крупной организации (метод параллельной обработки) позволяет:

Уйти от зависимости от одного вендора.
Распределять нагрузку по различным каналам в пиковые периоды.
Направлять разные типы документов к тем системам, которые с ними справляются лучше: одни лучше обрабатывают типовые печатные формы, другие — сложные документы с рукописными блоками и нетиповой структурой.

Более того, каждый отдельный шаг можно отдать отдельному вендору: один отвечает за информационную систему, другой — за канал передачи данных, третий — за модуль передачи данных, четвёртый — за само распознавание.

Таким образом поступают некоторые банки, которые хотят гибко управлять инфраструктурой. Очевидный недостаток гибридного подхода — высокая ресурсоёмкость и сложность интеграции разных решений.

Выводы

Технологии распознавания документов критически важны в автоматизации современных бизнес-процессов. Преодолеть возникающие на практике проблемы OCR можно различными способами:

Улучшить качество изображения — долго и требует усилий.
Использовать более современные алгоритмы распознавания — дорого.
Применять более продвинутые аппаратные ускорители — дорого.
Перейти на облачный SaaS-сервис с гарантией работы под ключ — оптимальный вариант, если нет принципиального запрета со стороны службы безопасности и если подрядчик лицензирован на обработку данных.

Один из самых важных вызовов для систем OCR — распознать рукописный текст, если он не идеален каллиграфически, или распознать нестандартизированные формы. Как правило, необходимо либо постоянно дообучать систему на новых образцах, либо комбинировать автоматическое распознавание с ручной верификацией данных — операторами на стороне заказчика или сервисной компании.

Сервисы выигрывают по цене, качеству и масштабируемости, но на некоторых типах сложных документов работают медленнее коробочного ПО. SaaS-модель подразумевает, что данные, хотя и защищённые, уходят на обработку в облако. При сервисном подходе заказчик и исполнитель несут солидарную ответственность за безопасность данных. Выполнение всех протоколов безопасности делает облачную обработку такой же надёжной, как и on-premise решения.

Оцифруйте бесплатно

Часто задаваемые вопросы

Что такое OCR и как технология применяется для распознавания документов?

OCR (optical character recognition — оптическое распознавание символов) — это технология перевода печатных и рукописных символов с изображений в редактируемый цифровой формат. Система захватывает изображение документа, предварительно обрабатывает его, устраняет шумы и геометрические искажения, сегментирует символы, извлекает их признаки и сопоставляет с обучающей выборкой. В бизнесе OCR применяется для автоматического переноса данных из паспортов, договоров, анкет и других документов в информационные системы — вместо ручного ввода.

Почему OCR-системы ошибаются и дают низкую точность распознавания?

Ошибки возникают по нескольким причинам: низкое качество исходного изображения (блики, геометрические искажения, недостаточное разрешение), слишком плотное расположение символов, которые система не может корректно сегментировать, нестандартные или рукописные элементы, не входившие в обучающую выборку, а также недостаточная вычислительная мощность при обработке большого потока документов.

Каким должно быть качество изображения для корректного распознавания документов?

Идеальным считается чёткий скан с разрешением от 300 dpi, без бликов, перекосов и геометрических искажений. На практике фотографии документов с телефона почти всегда содержат погрешности. Для улучшения результата можно установить более качественное сканирующее оборудование и источники освещения или задать пользователям чёткие требования к загружаемым фото.

Можно ли распознавать рукописный текст в документах с гарантированной точностью?

Это один из самых сложных вызовов для OCR-систем. Распознавание рукописного текста требует либо постоянного дообучения системы на новых образцах почерков, либо комбинированного подхода: автоматического распознавания того, что поддаётся обработке, и ручной верификации остального — операторами на стороне заказчика или сервисной компании.

Что такое гибридный подход к распознаванию документов и когда он эффективен?

Гибридный подход предполагает одновременное использование нескольких систем распознавания от разных вендоров. Это позволяет устранить зависимость от одного поставщика, распределять нагрузку в пиковые периоды, направлять разные типы документов к тем системам, которые с ними справляются лучше. Недостаток — высокая ресурсоёмкость и сложность интеграции. Такой подход чаще всего используют крупные банки.

В чём преимущества облачного SaaS-сервиса распознавания документов перед коробочным ПО?

SaaS-модель обеспечивает быструю и лёгкую масштабируемость с минимальными инвестициями: не нужно покупать коробочное ПО и развивать собственную ИТ-инфраструктуру. Облачные сервисы работают на мощных распределённых серверах, поддерживают широкий спектр типов документов и позволяют запустить распознавание сразу после подключения. Главный нюанс — данные передаются в облако, что требует проверки наличия у провайдера лицензий ФСТЭК и ФСБ и соответствия ФЗ-152.

Как обеспечить масштабируемость OCR-решения при росте объёма документов?

Масштабируемость зависит от наличия предобученных шаблонов для стандартных форм, возможности дообучать систему на новых типах документов и способности работать с нестандартными формами. Самый быстрый и экономичный путь — перейти на облачный SaaS-сервис с широкой библиотекой шаблонов и мониторингом результатов. Альтернатива — наращивание мощности собственной инфраструктуры и внедрение параллельной обработки.

Безопасна ли передача персональных данных из документов в облачный OCR-сервис?

Да, при условии что сервис соответствует требованиям безопасности. Передача данных защищается шифрованными каналами связи, надёжные провайдеры применяют методики обезличивания информации. При выборе сервиса следует убедиться в наличии лицензий ФСТЭК и ФСБ, соответствии ФЗ-152 и размещении данных на российских серверах — тогда облачная обработка по уровню безопасности сопоставима с on-premise решениями.

27.02.2024