Что такое OCR (оптическое распознавание символов) и как технология работает в реальности

18.08.2023

Несколько слов про историю OCR

OCR (оптическое распознавание символов или оптическое считывание символов) —это преобразование изображений бумажных печатных и рукописных документов в машиночитаемый текст с помощью специального программного обеспечения. Иначе говоря, преобразование физических документов в цифровые данные.

Технологию широко применяют для оцифровки бумажных книг, архивов, потоков входящих документов, для автоматизации различных бизнес-процессов.

Благодаря OCR отсканированный или сфотографированный текст можно перевести в электронный вид, чтобы редактировать, искать в текстовом массиве информацию по отдельным словам и фразам, хранить информацию в более компактной форме и анализировать её, а также форматировать текст или преобразовать его в речь.

Сама идея и первая реализация технологии преобразования изображений в текст существуют с конца 1920-х годов. Выдающийся венский инженер Густав Таушек, который в 1932 году изобрел магнитную память барабанного тира, а чуть ранее устройство и систему для перфокарт, в 1929 году придумал первую механическую OCR-машину, известную как Читающая машина Густава Таушека. Устройство могло переводить изображенния текста обратно в печатный вид. Работало оно на основе заготовленных шаблонов букв и фотодетектора.

Читающая машина Густава Таушека

Читающая машина Густава Таушека — патентный рисунок

В 1970-м Рэй Курцвейл впервые применил оптическое распознавание символов в устройстве на базе машинного обучения для слепых. Благодаря разработке удавалось переводить печатный текст в звук – то есть читать вслух слепым людям. Затем Курцвейл продал свой бизнес компании Xerox, которая делала ставку на дальнейшую коммерциализацию технологий для преобразования данных из аналогового в электронный формат, например, для оцифровки газетных архивов.

В России современные OCR системы появились в начале 1990-х годов. Так, отечественная разработка выпускников МФТИ легла в основу известного западного ПО Paragon. На Родине широко стала известная продукция изначально российской компании Abbyy, которая предоставляла готовые решения по распознаванию и для корпоративного сектора заказчиков и для физических лиц. После того, как в начале 2022 года компания вывела свои продукты из реестра отечественного ПО, передав права на них юрлицам в США, на рынке оцифровки документов в РФ осталось несколько крупных игроков с собственными разработками, в числе которых и компания «Биорг».

За прошедшие годы технология OCR стала работать быстрее и точнее, в том числе за счет перехода от алгоритмов и шаблонов к принципам распознавания с помощью нейросетей, обученных на больших массивах данных. Сегодня функции OCR широко доступны для рынка корпоративных и частных пользователей. Задачи распознавание входят в область исследований компьютерного зрения и машинного обучения – магистральных направлений развития искусственного интеллекта (ИИ).

Как работает распознавание текста

Когда вы читаете слова на этом экране – это тоже ОСR. Ваши глаза распознают различные темные и светлые паттерны, из которых состоят буквы и цифры. Затем мозг разбирает эти символы, группируя их в слова и предложения. Мы все буквально занимаемся оптическим распознаванием символов, даже не задумываясь об этом.

Преобразователь изображения в текст

OCR-решение по своей сути – преобразователь. ПО анализирует буквы и цифры на изображении и преобразует распознанные символы в текст, доступный для обработки машинным способом, компьютером.

Простой механизм OCR (например, сканер визитных карточек) работает на основе различных сохраненных шаблонов шрифтов и текстовых изображений. Алгоритм символ за символом сравнивает отсканированные или сфотографированные текстовые изображения со своей внутренней базой данных. Некоторые системы сопоставляют не отдельные символы, а целые слова, это называется оптическим распознаванием слов.

Далее программное обеспечение складывает из букв и цифр или слов, распознанных на изображениях, текст, который мы с вами можем редактировать.

Оптическое распознавание символов на основе искусственного интеллекта

Современные OCR-задачи решают быстрее и качественнее благодаря технологиям искусственного интеллекта: компьютерному зрению, машинному обучению (в частности, нейросетевому распознаванию и обработке естественного языка).

Нейронные сети имитируют логический процесс принятия решений, используя доступную информацию. В контексте задач OCR модели ИИ учат «видеть» документ и «узнавать» его структуру и содержание, не сопоставляя его каждый раз с внутренней базой шаблонов. Проблема с шаблонами ещё и в том, что малейшее несоответствие «живого» документа шаблону приводит к ошибкам распознания.

Чтобы нейросеть успешно распознавала документы, необходимо её предваритльно обучить на довольном большом объеме данных. Чем крупнее и точнее размечен массив данных для обучения, тем лучше будет работать нейросеть. Все как у людей – чем больше практики, тем лучше получается.

Преимущества распознавания текста

Сотрудникам компаний и госведомств больше не нужно часами вручную вводить данные из бумажных счетов-фактур, паспортов, таблиц, кадровых документов, сложных форм, а также рукописных заявлений и т.д. Нет ошибок, спровоцированных монотонным ручным вводом данных.

Если подняться с операционного на организационный уровень, то мы видим, как OCR и здесь меняет темп и правила работы.  Благодаря OCR процесс ввода данных занимает в 5-10, а иногда и в 200 раз меньше времени. Неструктурированные документы, легко преобразовать в структурированные машиночитаемые, цифровые данные. На основе информации в электронном виде становится легче: управлять расходами, оплачивать счета, автоматизировать доступ к данным, вести бухгалтерию, анализировать бизнес, реализовывать программы лояльности клиентов (карты лояльности и т.д)

Технология OCR обеспечивает быстрое, иногда мгновенное и безошибочное извлечение данных из аналоговых документов. Компании на более высоких скоростях, с большей результативностью и прозрачностью ведут бизнес: управляют процессами, анализируют их эффективность, более качественно взаимодействуют с большим числом клиентов, повышая лояльность заказчиков, срезая стоимость различных рутинных нецелевых процессов и максимизировать прибыль.

Если же компании используют не дорогие коробочные решения, которые нужно устанавливать в свой ИТ-контур, а облачные (SaaS) сервисы для распознавания, это ещё и положительно сказывается на финансовой отчетности. Сервисы не требуют капитальных затрат.

Как используют распознавание текста на практике?

Во всех случаях применения OCR в бизнесе основные цели примерно одинаковы. Это отказ от рутинного ручного ввода данных, высокое качество данных и безопасность их обработки, поскольку для взаимодействия с данными не требуются люди.

Рассмотрим несколько практических примеров из реальной жизни на базе проектного опыта компании «Биорг»:

Цифровое госуправление

Цифровой помощник позволяет автоматически проверять документы при регистрации сделок и в процессе формирования самих заявлений.

Автоматизация доступа к документации

Оцифровка технического архива документов на базе сервиса распознавания и технологии контроля качества. Оцифровка бумажных документов поможет тиражировать опыт безаварийной эксплуатации сложных прелприятий.

Банки и финансовые организации

Банк может сократить время обработки комплектов кредитных заявок более чем в два раза – с 45 до 20 минут, — нарастив количество выданных кредитов в 1,5-2 раза.

Страхование

OCR-cервис сократил время обработки заявок на страхование жизни и профессиональной ответственности с 20 до 7 минут. Точность распознавания документов не ниже 99%.

ОЦО – объединенные центры обработки данных

Автоматизация обработки больших потоков разноформатных документов, в частности, кадровых комплектов (включая трудовые книжки, военные билеты, рукописные заявления) и сократили время оформления фармацевтов с 40 до 10 минут.

Обработка договоров, допсоглашений и приложений к ним и т.д.: ИИ автоматизировал до 80% от обработки всего объема документов. Скорость распознавания составила около 20 секунд на документ.

Проблемы с распознаванием текста в реальных задачах

Технология оптического распознавания символов помогает исключить ручной труд и влияние человеческого фактора на обработку данных.  Хотя далеко не всегда инструменты OCR одинаково хорошо справляются с поставленными задачами.

ИИ для задач OCR хорош ровно настолько, насколько качественно его обучили, а значит, насколько хорошо был подготовлен массив данных. Чем больше данных обработала нейросетевая модель, тем точнее она «понимает» контекст, классифицирует данные и принимает на их основе решения.

Разумеется, целевым образом разработанная и хорошо обученная модель ИИ поможет автоматизировать обработку даже не совсем качественных и четких изображений документов. Однако кастомная разработка — это всегда дольше и дороже, чем типовые решения на базе ИИ.

Какие проблемы могут возникнуть с распознаванием бумажных документов?

Плохое качество бумаги, печати или изображения: размытые фотографии с мобильного устройства, фото с бликами, смятая или выцветшая бумага архивных документов, неразборчивый текст из-за выцветших чернил, или из-за устаревших типов шрифтов, которых не знает и на которых не была обучена программа; пометки, сделанные от руки и т.д. OCR может неправильно расшифровать отдельные символы, из-за чего возникают проблемы с определением ключевых слов. Например, букву «О» программа распознает как «ноль» или «С».

Ещё один уровень сложности – обработка документов на разных языках, из разных стран. Если модель ИИ не «понимает» этих нюансов, распознавание данных будет не на высоте, и количество различных ошибок значительно увеличится.

Эти ошибки имеют свойство быстро накапливаться даже в рамках одного бизнес-процесса. Не удивительно, что организации начинают разочаровываться в технологиях OCR. В чем смысл автоматического распознавания, если сотрудникам приходится перепроверять результаты распознавания, по сути, занимаясь тем же самым ручным трудом? Если бизнес-процесс нельзя автоматизировать, зачем тратить деньги на технологии?

Как этот зазор между возможностями технологий и реальными потребностями бизнеса можно устранить на практике?

Будущее OCR за машинным обучением и платформенными решениями, где ИИ работает вместе с человеком

На сегодняшний день, несмотря на значительный прогресс в сфере технологий распознавания, они всё ещё плохо справляются со сложными и слабоструктурированными документами. То есть именно с теми видами бумаг, которые чаще всего встречаются в обычной жизни.

Добиться высокого качества обработки данных и, соответственно, автоматизации бизнес-процессов (когда сотрудники компании не перепроверяют распознанные значения) можно только с помощью верификации: когда результаты обработки данных после ИИ отсматривает человек. Как это выглядит на примере сервиса от компании «Биорг»?

В основе платформы Beorg Smart Vision модуль на базе ИИ, который обучен на миллиардах полей с данными. Компания занимается оцифровкой документов и распознаванием изображений с 2017 года и входит в перечень зарегистрированных операторов персональных данных: имеет право их обрабатывать и хранить. Более того, для эффективной разметки массивов данных и верификации нераспознанных значений у «Биорг» есть собственная защищенная краудсорсинговая платформа – облачный модуль.

Таким образом в «Биорг» реализовали и запатентовали методику фирменного двухэтапного распознавания: на первом этапе документ обрабатывает нейросеть, а данные, распознанные с низким порогом уверенности, переходят на оператора облачной платформы, который верифицирует значения и одновременно дообучает систему. Защита данных на платформе обеспечена механизмом деперсонализации — нейросети разрезают документы на фрагменты. Информация передаётся по защищенному каналу. Подход применяют для высококачественной оцифровки любых бумажных документов.

Благодаря модулю верификации сервис распознавания паспортов от «Биорг» — самое точное решение на российском рынке, в том числе для рукописных разворотов паспорта и прописки. Полностью автоматизированные коробочные решения, где разработчики предоставляют чистые технологии, просто напросто не справляются с обработкой подобных данных с качеством на уровне 100 процентов.

В контексте развития цифрового госуправления платформа «Биорг» актуальна для наполнения реестров ведомственных данных, потому что к процессу предъявляют высочайшие требования по чистоте и непротиворечивости информации. На базе таких реестров ведомства будут обмениваться данными автоматически, а граждане смогут получать проактивные госуслуги. Например, родился ребенок – автоматически назначили пособия, выдали СНИЛС, поставили на очередь в детский сад; приобрел недвижимость – автоматически получил налоговый вычет.

Конечно, чем больше обучается ИИ через платформу, тем меньше нужно человеческого участия в процессе. Но есть проекты, где без людей не обойтись.  В частности, это распознавание технических документов, чертежей, где ошибки могут привести к самым печальным последствиям.

Именно модульность и гибкость решения Beorg Smart Vision для распознавания документов — это гарантия, что отдельные документоемкие процессы можно полностью автоматизировать.

На сегодняшний день, в контексте OCR-задач для бизнеса и государства, только платформенные решения, где объединен потенциал естественных и искусственных нейросетей — наиболее полно отвечают запросу на высокий уровень автоматизации и качества обработки данных..

Если вы хотите увидеть демо по распознаванию документов на платформе «Биорг», свяжитесь с нами.

 

Работаем только с юридическими лицами

Работаем только с юридическими лицами.

    На указанный вами email мы автоматически пришлем презентацию.

    Работаем только с юридическими лицами.

    Вся информация по трудоустройству на странице "Вакансии"

    Ошибка: Контактная форма не найдена.

    Ошибка: Контактная форма не найдена.