Что такое OCR (оптическое распознавание символов) и как технология работает в реальности

18.08.2023

OCR (оптическое распознавание символов или оптическое считывание символов) — это преобразование изображений бумажных печатных и рукописных документов в машиночитаемый текст с помощью специального программного обеспечения. Иначе говоря, преобразование физических документов в цифровые данные.

Технологию широко применяют для оцифровки бумажных книг, архивов, потоков входящих документов, для автоматизации различных бизнес-процессов.

Благодаря OCR отсканированный или сфотографированный текст можно перевести в электронный вид, чтобы редактировать, искать в текстовом массиве информацию по отдельным словам и фразам, хранить информацию в более компактной форме и анализировать её, а также форматировать текст или преобразовывать его в речь.

Несколько слов про историю OCR

Сама идея и первая реализация технологии преобразования изображений в текст существуют с конца 1920-х годов. Выдающийся венский инженер Густав Таушек в 1929 году придумал первую механическую OCR-машину, известную как Читающая машина Густава Таушека. Устройство могло переводить изображения текста обратно в печатный вид на основе заготовленных шаблонов букв и фотодетектора.

Читающая машина Густава Таушека — патентный рисунок
Читающая машина Густава Таушека — патентный рисунок

В 1970-м Рэй Курцвейл впервые применил оптическое распознавание символов в устройстве на базе машинного обучения для слепых: разработка переводила печатный текст в звук и читала вслух. Затем Курцвейл продал бизнес компании Xerox, которая занималась коммерциализацией технологий оцифровки — в частности, газетных архивов.

В России современные OCR-системы появились в начале 1990-х годов. Отечественная разработка выпускников МФТИ легла в основу известного западного ПО Paragon. Широко была известна продукция компании Abbyy. После того как в начале 2022 года она вывела свои продукты из реестра отечественного ПО, на рынке оцифровки документов в РФ осталось несколько крупных игроков с собственными разработками, в числе которых — компания «Биорг».

За прошедшие годы технология OCR стала работать быстрее и точнее — в том числе за счёт перехода от алгоритмов и шаблонов к принципам распознавания с помощью нейросетей, обученных на больших массивах данных. Задачи распознавания входят в область компьютерного зрения и машинного обучения — магистральных направлений развития искусственного интеллекта.

Как работает распознавание текста

Когда вы читаете слова на экране — это тоже OCR. Ваши глаза распознают различные тёмные и светлые паттерны, из которых состоят буквы и цифры. Затем мозг разбирает эти символы, группируя их в слова и предложения. Мы все буквально занимаемся оптическим распознаванием символов, даже не задумываясь об этом.

Преобразователь изображения в текст

OCR-решение по своей сути — преобразователь. Программное обеспечение анализирует буквы и цифры на изображении и преобразует распознанные символы в текст, доступный для машинной обработки.

Простой механизм OCR (например, сканер визитных карточек) работает на основе сохранённых шаблонов шрифтов. Алгоритм символ за символом сравнивает отсканированные текстовые изображения со своей внутренней базой данных. Некоторые системы сопоставляют не отдельные символы, а целые слова — это называется оптическим распознаванием слов.

Схема работы OCR-преобразователя

Оптическое распознавание символов на основе искусственного интеллекта

Современные OCR-задачи решают быстрее и качественнее благодаря технологиям ИИ: компьютерному зрению, машинному обучению, нейросетевому распознаванию и обработке естественного языка.

Нейронные сети имитируют логический процесс принятия решений, используя доступную информацию. В контексте OCR модели ИИ учат «видеть» документ и «узнавать» его структуру и содержание — без постоянного сопоставления с шаблонами. Проблема с шаблонами ещё и в том, что малейшее несоответствие «живого» документа шаблону приводит к ошибкам распознавания.

Чтобы нейросеть успешно распознавала документы, необходимо предварительно обучить её на достаточно большом объёме данных. Чем крупнее и точнее размечен массив для обучения, тем лучше работает нейросеть. Всё как у людей: чем больше практики, тем лучше получается.

Преимущества распознавания текста

Сотрудникам компаний и госведомств больше не нужно часами вручную вводить данные из бумажных счетов-фактур, паспортов, таблиц, кадровых документов, сложных форм, рукописных заявлений. Нет ошибок, спровоцированных монотонным ручным вводом.

Если подняться с операционного на организационный уровень, видно, как OCR меняет темп и правила работы. Процесс ввода данных занимает в 5–10, а иногда и в 200 раз меньше времени. Неструктурированные документы легко преобразуются в структурированные машиночитаемые данные. На их основе становится проще управлять расходами, оплачивать счета, автоматизировать доступ к данным, вести бухгалтерию, анализировать бизнес, реализовывать программы лояльности.

Если компании используют не дорогие коробочные решения, а облачные (SaaS) сервисы — это ещё и положительно сказывается на финансовой отчётности: сервисы не требуют капитальных затрат.

Как используют распознавание текста на практике?

Во всех случаях применения OCR основные цели примерно одинаковы: отказ от рутинного ручного ввода данных, высокое качество данных и безопасность их обработки. Несколько практических примеров из проектного опыта компании «Биорг»:

Цифровое госуправление

Цифровой помощник позволяет автоматически проверять документы при регистрации сделок и в процессе формирования заявлений.

Автоматизация доступа к документации

Оцифровка технического архива на базе сервиса распознавания и технологии контроля качества. Помогает тиражировать опыт безаварийной эксплуатации сложных предприятий.

Банки и финансовые организации

Банк может сократить время обработки комплектов кредитных заявок более чем в два раза — с 45 до 20 минут, — нарастив количество выданных кредитов в 1,5–2 раза.

Страхование

OCR-сервис сократил время обработки заявок на страхование жизни и профессиональной ответственности с 20 до 7 минут. Точность распознавания документов — не ниже 99%.

ОЦО — объединённые центры обработки данных

Автоматизация обработки больших потоков разноформатных документов, в частности кадровых комплектов (включая трудовые книжки, военные билеты, рукописные заявления), сократила время оформления фармацевтов с 40 до 10 минут. Обработка договоров и дополнительных соглашений: ИИ автоматизировал до 80% объёма документов, скорость распознавания — около 20 секунд на документ.

Проблемы с распознаванием текста в реальных задачах

Технология OCR помогает исключить ручной труд и влияние человеческого фактора. Однако инструменты OCR не всегда одинаково хорошо справляются с поставленными задачами.

ИИ для задач OCR хорош ровно настолько, насколько качественно его обучили. Чем больше данных обработала нейросетевая модель, тем точнее она понимает контекст, классифицирует данные и принимает решения.

Какие проблемы могут возникнуть с распознаванием бумажных документов:

  • Плохое качество бумаги, печати или изображения: размытые фото с бликами, смятая или выцветшая бумага архивных документов, неразборчивый текст из-за выцветших чернил или устаревших шрифтов.
  • Пометки, сделанные от руки.
  • Путаница похожих символов: OCR может распознать «О» как «0» или «С», букву «З» как цифру «3».
  • Документы на разных языках — если модель не обучена на нужном языке, количество ошибок значительно возрастает.

Ошибки имеют свойство быстро накапливаться даже в рамках одного бизнес-процесса. Организации начинают разочаровываться в OCR: в чём смысл автоматического распознавания, если сотрудники всё равно перепроверяют результаты вручную?

Проблемы OCR в реальных задачах

Будущее OCR за машинным обучением и платформенными решениями, где ИИ работает вместе с человеком

На сегодняшний день, несмотря на значительный прогресс, OCR всё ещё плохо справляется со сложными и слабоструктурированными документами — именно с теми видами бумаг, которые чаще всего встречаются в обычной жизни.

Добиться высокого качества обработки данных можно только с помощью верификации: когда результаты после ИИ отсматривает человек. Как это выглядит на примере сервиса «Биорг»?

В основе платформы Beorg Smart Vision — модуль на базе ИИ, обученный на миллиардах полей с данными. Компания занимается оцифровкой документов с 2017 года и входит в перечень зарегистрированных операторов персональных данных. Для верификации нераспознанных значений у «Биорг» есть собственная защищённая краудсорсинговая платформа.

«Биорг» реализовал и запатентовал методику двухэтапного распознавания: на первом этапе документ обрабатывает нейросеть, а данные, распознанные с низким порогом уверенности, переходят к оператору облачной платформы, который верифицирует значения и одновременно дообучает систему. Защита данных обеспечена механизмом деперсонализации — нейросети разрезают документы на фрагменты, информация передаётся по защищённому каналу.

Благодаря модулю верификации сервис распознавания паспортов от «Биорг» — самое точное решение на российском рынке, в том числе для рукописных разворотов и прописки.

В контексте цифрового госуправления платформа актуальна для наполнения реестров ведомственных данных с высочайшими требованиями по чистоте и непротиворечивости информации. На базе таких реестров ведомства будут обмениваться данными автоматически, а граждане — получать проактивные госуслуги.

Чем больше обучается ИИ через платформу, тем меньше нужно человеческого участия. Но есть проекты, где без людей не обойтись — в частности, распознавание технических документов и чертежей, где ошибки могут привести к серьёзным последствиям.

Только платформенные решения, где объединён потенциал естественных и искусственных нейросетей, наиболее полно отвечают запросу на высокий уровень автоматизации и качества обработки данных.

Если вы хотите увидеть демо по распознаванию документов на платформе «Биорг», свяжитесь с нами.

Часто задаваемые вопросы

Что такое OCR простыми словами?

OCR (оптическое распознавание символов) — это преобразование изображений печатных и рукописных документов в машиночитаемый текст с помощью специального программного обеспечения. Благодаря OCR отсканированный или сфотографированный текст можно редактировать, искать по нему, хранить в компактном виде и анализировать.

Когда появилась технология OCR?

Первая механическая OCR-машина была изобретена венским инженером Густавом Таушеком в 1929 году — она работала на основе шаблонов букв и фотодетектора. В 1970 году Рэй Курцвейл применил OCR в устройстве на базе машинного обучения для слепых. В России современные OCR-системы появились в начале 1990-х годов.

Чем OCR на базе ИИ отличается от классического OCR?

Классический OCR сравнивает символы с внутренней базой шаблонов — малейшее несоответствие вызывает ошибки. OCR на базе ИИ учит модель «видеть» документ и узнавать его структуру без шаблонов, как человек. Нейросеть обучается на больших массивах данных: чем больше практики, тем выше точность. Современные ИИ-системы справляются с нестандартными шрифтами и рукописным текстом.

Какие реальные задачи решает OCR в бизнесе?

Банки сокращают время обработки кредитных заявок с 45 до 20 минут, увеличивая количество выданных кредитов в 1,5–2 раза. В страховании время обработки заявок падает с 20 до 7 минут при точности не ниже 99%. В ОЦО время оформления кадровых документов сокращается с 40 до 10 минут, а ИИ автоматизирует до 80% объёма договоров за ~20 секунд на документ. В целом OCR ускоряет ввод данных в 5–200 раз.

Какие проблемы могут возникнуть при OCR-распознавании?

Типичные проблемы: размытые фото с бликами, мятая или выцветшая бумага, неразборчивые чернила, устаревшие шрифты, рукописные пометки, документы на языках, которым модель не обучена. OCR может путать похожие символы — например, «О» и «0», «З» и «3». Ошибки быстро накапливаются, что вынуждает сотрудников перепроверять результаты вручную.

Как Биорг решает проблему неточного OCR-распознавания?

Биорг реализовал и запатентовал методику двухэтапного распознавания: сначала документ обрабатывает нейросеть платформы Beorg Smart Vision (обученной на миллиардах полей данных), затем данные с низким порогом уверенности передаются оператору собственной краудсорсинговой платформы. Оператор верифицирует значения и одновременно дообучает систему. Механизм деперсонализации разрезает документы на фрагменты, данные передаются по защищённому каналу.

Работаем только с юридическими лицами

Работаем только с юридическими лицами.

    На указанный вами email мы автоматически пришлем презентацию.

      На указанный вами email мы автоматически пришлем типовое ТЗ.

      Работаем только с юридическими лицами.

      Вся информация по трудоустройству на странице "Вакансии"

      Ошибка: Контактная форма не найдена.

      Ошибка: Контактная форма не найдена.

      Ошибка: Контактная форма не найдена.