Автоматизация потоковой оцифровки паспортов для банков

05.10.2021

Как ускорить работу с клиентами и вернуть упущенную выгоду в периоды пиковых нагрузок, используя нейросети?

Паспорт — ключевой документ в отношениях “банк-клиент”. Открыть счёт, оформить потребительский кредит, подать заявку на ипотеку и т.д. — паспорт задействован в большом количестве процессов. Сотрудники совершают множество однотипных операций, когда работают с бумажными и отсканированными паспортами. Ввод данных, сверка с оригиналом, базами данных и т.д. — рутина съедает время и человеческую энергию, которые лучше направить на внимательную и оперативную работу с клиентами. Реально ли полностью автоматизировать процесс обработки паспортов? Какую роль в этом играют нейросети?

 

 

Распознавание паспортов в банках

Клиент приходит в офис с оригиналом паспорта, с которого сотрудник снимает скан, или присылает фото/скан паспорта в личный кабинет. На входе это простая картинка. Данные с изображения ещё нужно как-то перевести в информационную систему и проверить — не истёк ли срок действия документа, не поддельный ли он, не значится ли заёмщик в списке мошенников.

Проблема ручного ввода данных при обработке заявок

Из-за медленного ручного ввода, сверки и/или допущенных людьми ошибок банк не успевает отработать дневную норму заявок. Часть объёма переходит на следующий день. И так — каждый день. Тем временем клиенты  подают заявления в несколько банков. Конкурентное преимущество получит тот, кто сделает выгодное предложение быстрее. Другим грозит упущенная выгода в виде недополученных процентов по выданным кредитам.

Как и любой рутинный труд, ручной ввод данных о паспортах быстро утомляет, концентрация падает, индекс счастья и мотивация сотрудника стремятся к нулю.

Проблемы автоматизации распознавания паспортов

Наступает момент истины: вы задаётесь вопросом, как автоматизировать процесс обработки паспортов? Ведь необходимо ускорить обработку кредитных заявок, улучшить взаимодействие с клиентами.

Уже в процессе становится понятно, что существующие технологии распознавания паспортов не совершенны. Они умеют считывать не более 93-95% информации с точностью выше 99%

Даже при такой точности распознания на тысячу полей с данными будет 5-10 ошибок. Дополнительная трудность возникает с рукописными текстами, которые почти никогда не удаётся хорошо распознать с помощью нейросетей. 

Всё это звучит так, словно стопроцентная автоматизация процесса невозможна. Кстати, именно по этой причине многие банки оставляют в силе ручной ввод силами сотрудников. Зачем что-то менять, если процесс нельзя полностью автоматизировать?

Что делать? Какие решения выбрать?

Действительно, с помощью одних только технологий нельзя гарантировать стопроцентную точность распознания текста. Тем более, если речь идёт о рукописных страницах. Нейросетке мешают и низкое качество скана/фотографии, и блики на изображении  (очень частое явление, когда пользователь присылает фото паспорта, сделанное на смартфон) и т.д. 

На рынке существует несколько решений на основе ИИ, которые используют банки и финансовые организации.

“Коробка”= работа своими силами + безопасность данных

В случае коробочных решений, когда ПО для распознавания паспортов устанавливают в контуре банка, неудачно распознанные документы верифицируются силами сотрудников. Таким образом, информация гарантированно остаётся внутри IT-инфраструктуры, что даёт высокую уверенность в безопасной работе с персональными данными заемщиков (по-прежнему помним о том, что основаная причина утечек — это инсайдер, а не сбой системы). Минус тоже есть: сам процесс остаётся на стороне заказчика. О полной автоматизации говорить нельзя. Кроме того, кастомная система для распознавания долго настраивается, сотрудников надо обучать работе с ней.

“Облако” = аутсорс + проверка своими силами

В качестве альтернативы коробочным решениям банкам предлагают облачные услуги оцифровки паспортов. Банк ничего внутри не устанавливает, а просто отдаёт на аутсорс рутинный процесс. Все требования к работе с персональными данными соблюдаются и в этом случае — нет никакого запрета на их обработку в облаке. Облака —  тренд цифровизации, позволяющий компаниям быстро расти при минимальных вложениях в ИТ-инфрастукрутру. Тем не менее, вновь нет гарантированной точности оцифровки. Сотрудникам надо контролировать процесс.

Облако + человек = полная автоматизация и стабильный результат даже в периоды пиковых нагрузок

Согласно самым современным идеям в области ИИ, гораздо эффективнее использовать искусственный интеллект не в чистом виде, а в комбинации с человеческим. Например, система ИИ + человек недавно обыграла в популярную и сложную восточную игру Го чистый ИИ.

На российском рынке обработки документов представлено решение, объединяющее облачный сервис распознавания при помощи нейросетей и краудсорсинговую платформу, к которой удаленно подключены операторы ввода данных. Важно, что это не сотрудники организации-заказчика, таким образом непрерывность и автоматизация процесса распознавания в банке не страдают. Заказчик получает только результат — автоматически оцифрованный паспорт, проверенные данные в своей системе.

  • без настройки шаблонов
  • без операторов на проверку данных
  • с гарантией качества даже для рукописных и слабоструктурированных документов и фото.

А что же персональные данные? Операторы имеют к ним доступ? Нет, все данные обрабатываются в деперсонализированном виде — по отдельным фрагментам невозможно определить, к чему или к кому они относятся. Конечно, находятся эксперты, которые говорят, что деперсонализированные данные (фрагменты) — это всё ещё персональные данные. Выглядят такие заявления, мягко говоря, странно. Какой вывод может сделать человек по цифрам 4508, например? Скажем, это серия паспорта. И что? первые две цифры — долдны обозначать номер региона, вторые две — год выдачи. На практике даже это не всегда соответствует действительности.

Поскольку к платформе подключены операторы-граждане РФ, которые работают в разных часовых поясах, оцифровка и верификация документов происходят в режиме 24/7. Благодаря этому облачная платформа “вывозит” процесс оцифровки практически любого масштаба, а качество распознанных документов не снижается даже в периоды пиковых нагрузок.

Исполнитель страхует свою ответственность, финансово отвечает за каждую ошибку. Гарантии применимы к обработке большинства типов документов.

Как мы сделали свою нейросеть для оцифровки паспортов и отправили её в «облако»

Разработчики “Биорг” собрали и обучили промышленную нейронную сеть на массиве из более чем 500 000 паспортных разворотов. Скан разворота паспорта она распознает и переводит в цифровой вид за 2-5 секунд с качеством около 99%. 

 

С чего начинали: от алгоритмов к нейросетям

На первоначальном этапе система распознавания паспортов работала на основе алгоритмов и распознавала 50-60 процентов всех полей на страницах паспорта. Согласно классическому подходу, алгоритмы разбивали страницу на линии, где искали слова. На каждый этап работы нужен был свой собственный алгоритм.

Недостаток был в том, что любой сколь-либо нестандартный случай приводил к сбою в работе алгоритма, который анализировал страницу в соответствии с заложенными правилами. Отсюда и столь низкий процент распознавания. Алгоритмам мешали «шумы»: нетривиальное расположение слов, блики, тени и т.д.

Тренд разработки: End-To-End подход

Задачей было повысить качество автоматического распознавания паспортов и сократить время на обработку документа.

«Чтобы улучшить систему, в которой очень много частей, нужно потратить много времени на каждую отдельную часть. Потребовалась бы куча работы, чтобы улучшить сервис в общей сложности всего на 2%. Возникла идея вместо усовершенствования многих составляющих по-отдельности сделать одну цельную нейронная сеть», — Михаил Захаров, разработчик.

В исследовательском сообществе последние 10 лет исповедуют подход, когда задачу решают не фрагментарно, а каким-то одним методом. Это называют end-to-end подходом.

«Смысл в том, что не нужно ничего додумывать за сетку, дописывать алгоритмы, разделять задачи и подставлять другие костыли. Нужно просто позволить ей всё делать самой. Это гораздо лучше работы на основе пошаговой постановки задач, как в случае с алгоритмами», — объясняет Михаил Захаров.

Оригинальная идея: единая нейросеть + облака

Новизна заключается в том, что при помощи одной и той же нейронной сетки решили определять и распознавать слова, и соотносить их со значениями полей документа. Эксклюзивность решения в том, что нейросети отправили работать в облако и объединили их функционал с сервисом верификации данных силами человека.

Архитектурно нейросетка устроена точно так же, как инструменты для распознавания отдельных слов. Разработчики использовали небольшой набор трюков, подсмотрев их у нейронок для обработки аудио и видеопотоков.

Полмиллиона паспортов для обучения

Для того, чтобы сеть научилась “читать” паспорт без ошибок потребовался большой массив документов.

Сначала нейросеть около двух дней обучали на синтетических данных. Это были сгенерированные значения, которые не относились к реальным документам, но имели все атрибуты настоящих паспортов: разные шрифты, масштабы, раскладку текста. Всего через нейросеть прогнали около 500 000 синтетических паспортов.

Для закрепления «пройденного» потребовался ещё один день. Тест системы проводили на настоящих сканах документов, используя датасет из 20 тысяч реальных паспортных разворотов в рамках реального проекта.

От идеи до реализации прошло около двух недель. В результате нейросеть полностью самостоятельно определяет в документе поля, находит слова, соотносит их с нужными значениями и т.д. Весь процесс занимает 2-5 секунд на печатных разворотах, точность работы — выше 99 процентов.

Что нужно для запуска облачной ИИ-системы распознавания паспортов в банке?

Для настройки автоматизированного конвейера обработки документов нужны:

  •         Сканнер или мобильное приложение
  •         Интернет

Всё остальное для заказчика происходит в автоматическом режиме.

Запустить проект быстро,  100% мощности с первого дня

Благодаря компьютерному зрению, объединенному с краудсорсиноговым подходом, в банках и финансовых организациях можно полностью автоматизировать процесс потоковой оцифровки паспортов в офисах, на мобильных точках и на выезде, и через личные кабинеты клиентов. Работа с заявками ускоряется в 3-5 раз. 

Информацию, которую нейросеть не распознала, заказчику не нужно вводить вручную — он получает готовый и проверенный результат. 

  • Банк получает данные в своей системе уже после их сверки с предоставленным сканом или, в случае необходимости, с базой данных.
  • ПДн обрабатываются в деперсонализированном виде
  • Требования к информационной безопасности банков соблюдаются на 100%
  • Отсутствует сложное внедрение системы, поскольку все главные процессы происходят в облаке
  • Старт проекта можно осуществить за несколько дней, необходимые настройки компания Биорг  проводит своими силами.
  • Качество и скорость работы не снижаются даже в периоды пиковых нагрузок — обработка паспортов в режиме 24/7 за счет объединенных возможностей ИИ и распрееделённой сети квалифицированных операторов верификации данных
  • Опыт запуска проектов с крупнейшими компаниями России

 

    На указанный вами email мы автоматически пришлем презентацию.

    Вся информация по трудоустройству на странице "Вакансии"
    [contact-form-7 404 "Не найдено"]
    [contact-form-7 404 "Не найдено"]