Импортозамещение: распознавание документов, OCR

15.07.2022

Как выбрать отечественный сервис для распознавания и интеллектуальной обработки документов, чтобы извлекать данные из структурированных и слабоструктурированных форм, распознавать, анализировать и загружать качественные данные в информационную систему? Как можно использовать искусственный интеллект (ИИ), чтобы обрабатывать ведомственные данные, формировать электронный архив и обучить цифрового помощника?

 

Реестр отечественного ПО Минцифры

С 2021 года госучреждения могли приобрести импортный программный продукт только доказав, что у ПО нет российских аналогов. То же самое касалось продления лицензий на уже внедренные решения. Возможно, до конца февраля 2022 года и был шанс обойти это правило — иностранное ПО приобретали в составе различных программно-аппаратных комплексов. Сегодня это не только рискованно, но и просто нецелесообразно по целому ряду причин. Многие западные разработчики, среди которых Oracle, Adobe, Microsoft, Cisco, IBM, SAP и др., уходят с российского рынка.

В 2022 году об альтернативном ПО задумались и пользователи софта для распознавания и извлечения данных из документов — интеллектуальной обработки. Причиной послужил показательный шаг ABBYY, крупного «российского» разработчика софта, который отозвал значительную часть своих решений из отечественного реестра, курируемого Минцифры. Права на свой софт производитель передал юрлицам из США.

Как распознавать документы и переводить их в машиночитаемый вид?

Для коммерческих заказчиков «смена гражданства» ведущего вендора может и не стать потрясением, им не нужно обосновывать свой выбор перед высшей инстанцией. Однако всегда есть риск просто остаться без поддержки. Потенциальная возможность, что разработчик откроет российское юрлицо, этой озабоченности не снимает. Как открывается, так и закрывается.

В числе самых озадаченных импортозамещением в сфере интеллектуальной обработки документов оказались многочисленные государственные организации и компании с госучастием. В их числе Сбер, ФНС, Государственная Дума, ФГБУ «Федеральный центр тестирования» (ЕГЭ) и многие другие. В ближайшем будущем эта озабоченность очень перерастёт в потребность. Это неминуемо на фоне развивающейся программы цифровизации Правительства с жесткими дедлайнами и нормативами по срокам и качеству предоставления госуслуг. Здесь же уместно вспомнить концепцию умных городов – управления развитием территорий на основе данных. Реализовать эти программы можно только вместе масштабной оцифровкой федеральных, региональных и муниципальных архивов, потока входящих запросов граждан, спутниковых снимков территорий и т.д. Перевод подобной информации в машиночитаемый вид нужен, чтобы подготовить слои данных для работы различных информационных систем. Геологические и пространственные данные переводят в электронный вид, чтобы на основе их анализа принимать решения о развитии территорий — планировать застройку, выявлять самострой и т.д.

Иногда есть потребность переводить в цифровой формат данные ЖКХ — например, оцифровывают теплоэнергосети, чтобы знать, на каком участке, что просходит, где уже требуется, а где надо запланирвоать ремонт.

Что может предложить отечественный рынок: шаблонированное распознавание

Распознавать формализованные документы, например, бухгалтерскую первичку, достаточно просто: на стандартные документы настраиваются программные шаблоны, благодаря которым машина точно «видит», какие поля нужно распознать, какие данные перенести в информационную систему. Существует довольно много «коробочных» решений, которые обрабатывают шаблонные данные довольно точно. Среди производителей — как молодые инновационные компании, так и опытные ИТ разработчики других систем (1С и др.), которые заинтересованы, чтобы встроить системы распознавания в собственные продукты.

Что может предложить отечественный рынок: распознавание неструктурированных документов, цифровые помощники

Вторая задача — распознавать неформализованные документы. Именно от её решения зависит успешная цифровая трансформация взаимоотношений «человек-государство». На государственном уровнем мало структурированных документов, к которым можно применить шаблонное распознавание. Зато есть много форм, которые не вписываются ни в один шаблон: со множеством полей, разнообразием данных и рукописным текстом. Качественно распознать эти документы при помощи «коробочного» ПО нельзя. Нужны системы на основе искусственного интеллекта, которые — в отличие от «коробки» — надо обучать на реальны массивах, под конкретный бизнес-процесс. Необходимо научить машину видеть и «понимать», что и как «читать». В таких задачх не обойтись без масштабной разметки данных – это всегда происходит вручную, с применением краудсорсинговых сервисов. Процесс занимает время и обходится недешево (до 40% всей стоимости проекта). Однако результат того стоит. Обученная ИИ-система — цифровой помощник — может брать на себя от 70% до 95% рутинных задач и обеспечивать точность распознавания не менее 99%+.

Готовых продуктов в нише цифровых помощников ещё никогда не было. Такая система может распознавать смысловые сущности в текстах — например, автоматизировать проверки по договорам и доверенностям при регистрации сделок с недвижимостью. Отечественные разработчики таких систем с самого начала развивали свои решения с прицелом на обработку неформализованных документов, в том числе рукописных текстов и чертежей.

Как действовать пользователям ПО для распознавания?

Любое решение необходимо подбирать точечено под задачу. Перечень отечественных сервисов и систем оцифровки на базе ИИ-технологий лучше изучать в архиве гостендеров по словам «цифровой помощник», «системы распознавания» и «искусственный интеллект».

Один из разработчиков кастомных решений для обработки ведомственных и корпоративных данных с применением технологий искусственного интеллекта — компания «Биорг», лидер отечественного рынка оцифровки. Вендор входит в число резидентов ИТ-кластера Фонда «Сколково», разработал собственную технологическую платформу Beorg Smart Vision на базе компьютерного зрения, машинного обучения, нейросетевого распознавания и верификации данных для интеллектуальной обработки документов с последующей выгрузкой данных в систему заказчика. На базе платформы также проводится обучение систем распознавания и анализа под отдельные бизнес-процессы ведомств.

ПО «Биорг» востребовано в государственных корпорациях, ведомствах, производственном и финансовом секторе, ретейле и т.д. – везде, где заказчику приходится иметь дело с большими потоками документов, в том числе рукописных, вручную переносить данные в систему, формировать электронный архив и сталкиваться с вытекающими последствиями: терять время и ресурсы на рутинные операции, сталкиваться с ошибками при ручном переносе данных в систему.

«Биорг» предоставляет услуги государственным и крупным корпоративным клиентам как в виде облачного сервиса, так и разрабатывает решения, работающие в контуре заказчика. Обе модели услуг имеют свои преимущества.

Недавно «Биорг» расширила свою продуктовую линейку, представив новый продукт для верификации личности с помощью биометрии и оплаты по лицу, разработанный совместно с лидером российского рынка компьютерного зрения – компанией VisionLabs. Решение полезно во множестве областей: начиная финтехом и заканчивая сферой развлечений, где верификация клиентов и оплата по лицу – становится важной составляющей безопасности.

 

    На указанный вами email мы автоматически пришлем презентацию.

    Вся информация по трудоустройству на странице "Вакансии"
    [contact-form-7 404 "Не найдено"]
    [contact-form-7 404 "Не найдено"]