Содержание
OCR (оптическое распознавание символов или оптическое считывание символов) — это преобразование изображений бумажных печатных и рукописных документов в машиночитаемый текст с помощью специального программного обеспечения. Иначе говоря, преобразование физических документов в цифровые данные.
Технологию широко применяют для оцифровки бумажных книг, архивов, потоков входящих документов, для автоматизации различных бизнес-процессов.
Благодаря OCR отсканированный или сфотографированный текст можно перевести в электронный вид, чтобы редактировать, искать в текстовом массиве информацию по отдельным словам и фразам, хранить информацию в более компактной форме и анализировать её, а также форматировать текст или преобразовывать его в речь.
Сама идея и первая реализация технологии преобразования изображений в текст существуют с конца 1920-х годов. Выдающийся венский инженер Густав Таушек в 1929 году придумал первую механическую OCR-машину, известную как Читающая машина Густава Таушека. Устройство могло переводить изображения текста обратно в печатный вид на основе заготовленных шаблонов букв и фотодетектора.

В 1970-м Рэй Курцвейл впервые применил оптическое распознавание символов в устройстве на базе машинного обучения для слепых: разработка переводила печатный текст в звук и читала вслух. Затем Курцвейл продал бизнес компании Xerox, которая занималась коммерциализацией технологий оцифровки — в частности, газетных архивов.
В России современные OCR-системы появились в начале 1990-х годов. Отечественная разработка выпускников МФТИ легла в основу известного западного ПО Paragon. Широко была известна продукция компании Abbyy. После того как в начале 2022 года она вывела свои продукты из реестра отечественного ПО, на рынке оцифровки документов в РФ осталось несколько крупных игроков с собственными разработками, в числе которых — компания «Биорг».
За прошедшие годы технология OCR стала работать быстрее и точнее — в том числе за счёт перехода от алгоритмов и шаблонов к принципам распознавания с помощью нейросетей, обученных на больших массивах данных. Задачи распознавания входят в область компьютерного зрения и машинного обучения — магистральных направлений развития искусственного интеллекта.
Когда вы читаете слова на экране — это тоже OCR. Ваши глаза распознают различные тёмные и светлые паттерны, из которых состоят буквы и цифры. Затем мозг разбирает эти символы, группируя их в слова и предложения. Мы все буквально занимаемся оптическим распознаванием символов, даже не задумываясь об этом.
OCR-решение по своей сути — преобразователь. Программное обеспечение анализирует буквы и цифры на изображении и преобразует распознанные символы в текст, доступный для машинной обработки.
Простой механизм OCR (например, сканер визитных карточек) работает на основе сохранённых шаблонов шрифтов. Алгоритм символ за символом сравнивает отсканированные текстовые изображения со своей внутренней базой данных. Некоторые системы сопоставляют не отдельные символы, а целые слова — это называется оптическим распознаванием слов.

Современные OCR-задачи решают быстрее и качественнее благодаря технологиям ИИ: компьютерному зрению, машинному обучению, нейросетевому распознаванию и обработке естественного языка.
Нейронные сети имитируют логический процесс принятия решений, используя доступную информацию. В контексте OCR модели ИИ учат «видеть» документ и «узнавать» его структуру и содержание — без постоянного сопоставления с шаблонами. Проблема с шаблонами ещё и в том, что малейшее несоответствие «живого» документа шаблону приводит к ошибкам распознавания.
Чтобы нейросеть успешно распознавала документы, необходимо предварительно обучить её на достаточно большом объёме данных. Чем крупнее и точнее размечен массив для обучения, тем лучше работает нейросеть. Всё как у людей: чем больше практики, тем лучше получается.
Сотрудникам компаний и госведомств больше не нужно часами вручную вводить данные из бумажных счетов-фактур, паспортов, таблиц, кадровых документов, сложных форм, рукописных заявлений. Нет ошибок, спровоцированных монотонным ручным вводом.
Если подняться с операционного на организационный уровень, видно, как OCR меняет темп и правила работы. Процесс ввода данных занимает в 5–10, а иногда и в 200 раз меньше времени. Неструктурированные документы легко преобразуются в структурированные машиночитаемые данные. На их основе становится проще управлять расходами, оплачивать счета, автоматизировать доступ к данным, вести бухгалтерию, анализировать бизнес, реализовывать программы лояльности.
Если компании используют не дорогие коробочные решения, а облачные (SaaS) сервисы — это ещё и положительно сказывается на финансовой отчётности: сервисы не требуют капитальных затрат.
Во всех случаях применения OCR основные цели примерно одинаковы: отказ от рутинного ручного ввода данных, высокое качество данных и безопасность их обработки. Несколько практических примеров из проектного опыта компании «Биорг»:
Цифровой помощник позволяет автоматически проверять документы при регистрации сделок и в процессе формирования заявлений.
Оцифровка технического архива на базе сервиса распознавания и технологии контроля качества. Помогает тиражировать опыт безаварийной эксплуатации сложных предприятий.
Банк может сократить время обработки комплектов кредитных заявок более чем в два раза — с 45 до 20 минут, — нарастив количество выданных кредитов в 1,5–2 раза.
OCR-сервис сократил время обработки заявок на страхование жизни и профессиональной ответственности с 20 до 7 минут. Точность распознавания документов — не ниже 99%.
Автоматизация обработки больших потоков разноформатных документов, в частности кадровых комплектов (включая трудовые книжки, военные билеты, рукописные заявления), сократила время оформления фармацевтов с 40 до 10 минут. Обработка договоров и дополнительных соглашений: ИИ автоматизировал до 80% объёма документов, скорость распознавания — около 20 секунд на документ.
Технология OCR помогает исключить ручной труд и влияние человеческого фактора. Однако инструменты OCR не всегда одинаково хорошо справляются с поставленными задачами.
ИИ для задач OCR хорош ровно настолько, насколько качественно его обучили. Чем больше данных обработала нейросетевая модель, тем точнее она понимает контекст, классифицирует данные и принимает решения.
Какие проблемы могут возникнуть с распознаванием бумажных документов:
Ошибки имеют свойство быстро накапливаться даже в рамках одного бизнес-процесса. Организации начинают разочаровываться в OCR: в чём смысл автоматического распознавания, если сотрудники всё равно перепроверяют результаты вручную?

На сегодняшний день, несмотря на значительный прогресс, OCR всё ещё плохо справляется со сложными и слабоструктурированными документами — именно с теми видами бумаг, которые чаще всего встречаются в обычной жизни.
Добиться высокого качества обработки данных можно только с помощью верификации: когда результаты после ИИ отсматривает человек. Как это выглядит на примере сервиса «Биорг»?
В основе платформы Beorg Smart Vision — модуль на базе ИИ, обученный на миллиардах полей с данными. Компания занимается оцифровкой документов с 2017 года и входит в перечень зарегистрированных операторов персональных данных. Для верификации нераспознанных значений у «Биорг» есть собственная защищённая краудсорсинговая платформа.
«Биорг» реализовал и запатентовал методику двухэтапного распознавания: на первом этапе документ обрабатывает нейросеть, а данные, распознанные с низким порогом уверенности, переходят к оператору облачной платформы, который верифицирует значения и одновременно дообучает систему. Защита данных обеспечена механизмом деперсонализации — нейросети разрезают документы на фрагменты, информация передаётся по защищённому каналу.
Благодаря модулю верификации сервис распознавания паспортов от «Биорг» — самое точное решение на российском рынке, в том числе для рукописных разворотов и прописки.
В контексте цифрового госуправления платформа актуальна для наполнения реестров ведомственных данных с высочайшими требованиями по чистоте и непротиворечивости информации. На базе таких реестров ведомства будут обмениваться данными автоматически, а граждане — получать проактивные госуслуги.
Чем больше обучается ИИ через платформу, тем меньше нужно человеческого участия. Но есть проекты, где без людей не обойтись — в частности, распознавание технических документов и чертежей, где ошибки могут привести к серьёзным последствиям.
Только платформенные решения, где объединён потенциал естественных и искусственных нейросетей, наиболее полно отвечают запросу на высокий уровень автоматизации и качества обработки данных.
Если вы хотите увидеть демо по распознаванию документов на платформе «Биорг», свяжитесь с нами.
OCR (оптическое распознавание символов) — это преобразование изображений печатных и рукописных документов в машиночитаемый текст с помощью специального программного обеспечения. Благодаря OCR отсканированный или сфотографированный текст можно редактировать, искать по нему, хранить в компактном виде и анализировать.
Первая механическая OCR-машина была изобретена венским инженером Густавом Таушеком в 1929 году — она работала на основе шаблонов букв и фотодетектора. В 1970 году Рэй Курцвейл применил OCR в устройстве на базе машинного обучения для слепых. В России современные OCR-системы появились в начале 1990-х годов.
Классический OCR сравнивает символы с внутренней базой шаблонов — малейшее несоответствие вызывает ошибки. OCR на базе ИИ учит модель «видеть» документ и узнавать его структуру без шаблонов, как человек. Нейросеть обучается на больших массивах данных: чем больше практики, тем выше точность. Современные ИИ-системы справляются с нестандартными шрифтами и рукописным текстом.
Банки сокращают время обработки кредитных заявок с 45 до 20 минут, увеличивая количество выданных кредитов в 1,5–2 раза. В страховании время обработки заявок падает с 20 до 7 минут при точности не ниже 99%. В ОЦО время оформления кадровых документов сокращается с 40 до 10 минут, а ИИ автоматизирует до 80% объёма договоров за ~20 секунд на документ. В целом OCR ускоряет ввод данных в 5–200 раз.
Типичные проблемы: размытые фото с бликами, мятая или выцветшая бумага, неразборчивые чернила, устаревшие шрифты, рукописные пометки, документы на языках, которым модель не обучена. OCR может путать похожие символы — например, «О» и «0», «З» и «3». Ошибки быстро накапливаются, что вынуждает сотрудников перепроверять результаты вручную.
Биорг реализовал и запатентовал методику двухэтапного распознавания: сначала документ обрабатывает нейросеть платформы Beorg Smart Vision (обученной на миллиардах полей данных), затем данные с низким порогом уверенности передаются оператору собственной краудсорсинговой платформы. Оператор верифицирует значения и одновременно дообучает систему. Механизм деперсонализации разрезает документы на фрагменты, данные передаются по защищённому каналу.
Работаем только с юридическими лицами
Работаем только с юридическими лицами.
Работаем только с юридическими лицами.
Ошибка: Контактная форма не найдена.
Ошибка: Контактная форма не найдена.
Ошибка: Контактная форма не найдена.