В RnD-подразделении «Биорг» рассказали, как решить проблему классификации документов в банке

На «Хабре» вышел материал нашего разработчика, который на реальном примере рассказал, как решать задачу классификации изображений документов в процессе автоматизации кредитного конвейера. Из статьи также можно узнать, какой вопрос объединяет машинное обучение с Библией :)

Постановка проблемы

Перед коллективом была поставлена задача решить проблему классификации изображений документов.

Надо было добиться высоких значений метрик в разделении документов на 12 классов, таких как:

  • COLLAGE — несколько документов на одном листе, как правило Паспорт+ВУ, либо Паспорт+СНИЛС
  • DLIC — водительское удостоверение
  • EPTS — электронный ПТС
  • IPSS — загран РФ
  • PSS — паспорт РФ
  • PTS — бумажный ПТС
  • QUEST — анкеты на получение кредита
  • SNILS — СНИЛС, а также форма АДИ-РЕГ
  • SOPD — согласие на обработку персональных данных
  • STS — СТС
  • TREG — временная регистрация
  • OTHER — сюда попадают все изображения, не относящиеся ни к какому из вышеперечисленных классов

Распознавание комплектов документоы

Как решали задачу?

Поход по граблям в поисках оптимального решения начался с метода классификации распознанного текста, но этот подход оказался медленным и неэффективным. Затем мы перепробовали различные методы извлечения признаков из изображений, чтобы добиться лучших результатов.

В классическом подходе правильный выбор признаков, на основе которых строится модель — ключевой фактор успеха в ML. А в нейросетевом подходе — выбор архитектуры.

Но что делать, если ни один из выбранных признаков не дает заметного преимущества? В таких случаях на помощь приходит идея объединить различные признаки — конкатенация, которая позволяет совместить разные типы информации и повысить эффективность обучения.

В нашей работе мы использовали линейный классификатор на основе объединения классических признаков с нейросетевыми признаками.

В качестве классических признаков была выбрана пространственная пирамида (Spatial pyramid pooling), где в каждой ячейке пирамиды вычисляется сумка визуальных слов (Bag Of Visual Words).

Bag of Visual words, мешок слов - это

В качестве нейросетевых признаков использовали признаки с предпоследнего слоя сети ResNet-50, предобученной на датасете ImageNet.

нейросетевые признаки

Вывод

Мы считаем, что наш подход получился достаточно универсальным благодаря сочетанию большого количества признаков и комбинации нейросетевых методов с классическими.

Ожидаем, что его можно будет успешно применить и к другим наборам данных.

Подробности, нюансы, ключевые требования к выполнению задачи и поный текст статьи читайте на Хабре.

02.07.2025

Работаем только с юридическими лицами

Работаем только с юридическими лицами.

    На указанный вами email мы автоматически пришлем презентацию.

      На указанный вами email мы автоматически пришлем типовое ТЗ.

      Работаем только с юридическими лицами.

      Вся информация по трудоустройству на странице "Вакансии"

      Ошибка: Контактная форма не найдена.

      Ошибка: Контактная форма не найдена.