Как внедрить ведомственную систему распознавания и анализа данных?

23.11.2021

К 2024 году каждые 7 из 10 госуслуг должны быть предоставлены гражданам в цифровой форме. Без личного посещения госорганов станут доступны все приоритетные госуслуги и сервисы. 90% документооборота между чиновниками перейдёт в онлайн-формат. Такие задачи для России записаны в направлении «Цифровое государственное управление» национальной программы «Цифровая экономика».

Как ведомствам обеспечить достижение поставленной цели? Какие решения подходят? Что делать, когда человек приносит документы в МФЦ и поможет ли здесь ИИ?

 

 

Государство как сервис

Государство как сервисная платформа для жителей — одна из главных стратегических целей цифровой трансформации госуправления. На пути к этой цели последние 10 лет государство накапливает в своих информационных системах огромное количество сведений о гражданах, объектах и правах.

Если сведения соответствуют критериям полноты и достоверности (критерии НСУД), ведомственная база может служить источником данных и их обмена без участия человека. Когда все ведомства выйдут на подобный уровень цифровой зрелости, время ответов на межведомственные запросы станет минимальным — несколько секунд там, где сегодня требуются дни.

Граждане смогут гораздо быстрее регистрировать изменения в правах и получать любую информацию в рамках суперсервисов и проактивных госуслуг. А в каких-то случаях госуслуги уже будут предоставляться автоматически – без запроса. Например, социальные выплаты.

Останется решить лишь несколько типовых «болей» госорганов, и одна из них – случай, когда человек сам приносит комплект документов и просит зарегистрировать свои права.

Типовая «боль» современного ведомства — когда человек сам приносит комплект документов и просит зарегистрировать свои права.

Масштаб проблем

Скорость и качество предоставления госуслуг сильно зависят от их количества и масштаба запросов. Список услуг каждого ведомства исчисляется десятками. Например, у МВД их 33 — от регистрации транспортных средств до выдачи статуса беженца. У Росреестра — 15 и т. д.

У любой услуги есть регламент, в котором перечислены и описаны шаги для ее выполнения. Обязательный пункт регламента — срок оказания услуги, который ведомство обязано соблюдать независимо от количества сотрудников в штате и количества запросов.

Число запросов может измеряться и тысячами, и сотнями тысяч в день. Так ПФР обслуживает 43,6 миллиона получателей пенсий. В Росреестр ежедневно поступает около 120 тысяч обращений на государственную регистрацию прав и кадастровый учет.

Как и в сфере торговли, здесь бывает «сезонность». В пиковые периоды рутинная нагрузка на сотрудников ведомств увеличивается, и время оказания услуг затягивается. Как следствие, растет и время ожидания, а степень удовлетворенности получателей – падает.

Чем больше услуг оказывает то или иное ведомство, чем больше обращений поступает от граждан, тем больше ресурсов (как человеческих, так и технологических) требуется для обработки входящего потока документов.

Чем больше ресурсов тратит ведомство – тем больше выгод несет цифровая трансформация. Но как ее осуществить в приложении к документам?

Сложность автоматизации

Разные ведомства работают с разными видами документации. Есть структурированные документы, которые составляются по единому для всех шаблону — например, бухгалтерская отчетность для ФНС.

А есть неструктурированные — любые гражданско-правовые договоры. Гражданский кодекс не содержит требований к их оформлению и написанию юридически правильных выражений. Каждый из них — это абзацы с произвольно написанными данными, и автоматически перенести эту информацию в систему сложно: имена и фамилии сторон договора, адреса, площади, стоимости на практике пишутся «как душе угодно».

С этим сталкивается любое крупное ведомство. Например, в Федеральную службу по аккредитации ежедневно «прилетают» от таможни тысячи комплектов документов на товары, пересекающие границу. В этих комплектах содержатся сведения о результатах предварительных испытаний этих товаров на безопасность. Задача специалистов Росаккредитации — подтвердить их правомерность, право аккредитованного эксперта проводить проверку и правомерность вынесенного решения. Ввиду объемов запросов, в подобных ситуациях ведомствам часто приходится переходить на выборочную проверку, ведь у товаров есть приоритет, и задерживать на таможне, скажем, скоропортящиеся продукты попросту нельзя.

Может ли ИИ помочь там, где есть множество разнородных, далеко не всегда типовых документов и проверок?

Автоматизация не по шаблону

Для автоматизации бизнес-процессов, в которых используются хорошо структурированные типовые документы, вполне подойдет коробочный программный продукт, который будет распознавать документы по единожды введенному шаблону и вносить их в базу данных.

А там, где стандартизации нет, коробочный продукт применить невозможно. Вычленить из документа параметры объектов недвижимости, юридические особенности сделки, понять статусы сторон (собственник, представитель, доверенное лицо) — задача непосильная для стандартных программ. Решить её можно исключительно за счёт искусственного интеллекта, способного понимать семантику и смысл. По этой причине задача распознавания нетиповых и тем более рукописных документов всегда включает в себя обучение нейросетей работе с реальными документами.

Нейросети и их обучение на реальных массивах документов уже доказали свою эффективность

 

Как разработать и внедрить систему распознавания нетиповых документов

Основа работы любой нейросети — обучение. Изначально нейросеть, как ребенок, не понимает, что от нее хотят, не знает, какие именно данные она должна извлекать из текста и как их интерпретировать. Человек должен сам научить её это делать, указав искусственному интеллекту, на что нужно обращать внимание. Для этого формируют правила, в соответствии с которыми «сетка» отбирает и преобразует полученную информацию в требуемый результат. Это называется разметкой датасетов, на основе которых и проходит обучение.

Датасеты в 99% размечают люди. Это рутинный и трудоемкий процесс. Задача специалиста-разметчика NER — находить и помечать в тексте смысловые сущности различных классов, чтобы в будущем система научилась распознавать из автоматически.

Результатом этой работы становится некая матрица, где каждому классу данных соответствует множество встречающихся в тексте вариантов их обозначения. Например, если сущность — это адрес, этой сущности будут соответствовать улица, этаж, дом, квартира во всем множестве вариантов их написания: это может быть и «Ул.», и «Эт.», и «на первом этаже» и т. д.

Чем больше сущностей, тем сложнее процесс обучения. Где-то достаточно вычленить 10, а где-то 20 смысловых сущностей. Для договора государственной регистрации права – их более 100.

В дальнейшем нейросети наставник не нужен. Основываясь на собственном опыте, она сама находит данные, которые надо извлечь из документа. На основании корректно распознанных сведений автоматизируются проверки – самая трудоемкая часть работ, которая обычно проводится в ручном режиме квалифицированными сотрудниками ведомства.

Развитая ИИ-система способна формировать полноценное «второе мнение»
и делать 90% работы за эксперта.

Сколько времени требуется на обучение нейросети и запуск системы

Создание подобной системы идентично разработке любой ведомственной ГИС. Система запускается по ГОСТам: размещение в тестовом контуре, отладка всех компонентов, пилотная эксплуатация, доработка и перевод в промышленную эксплуатацию.

Сроки проекта зависят от задачи. Простой проект внедрения ИИ занимает примерно три месяца. Он включает в себя разметку датасетов и разработку ядра системы, которая будет настроена на автоматизацию одного бизнес-процесса. На этом этапе качество распознавания может быть на уровне 60%–90%. На основе полученного результата определяют, сколько нужно еще наборов данных, чтобы дообучить сетку до целевых значений.

Под грифом «секретно»: можно ли наладить распознавание конфиденциальных данных?

Есть государственные органы, которые работают с конфиденциальными документами и даже секретностью. Это могут быть базы данных осужденных, журналы выдачи оружия, архивы уголовных дел и многие другие. Системы автоматического распознавания и анализа документов могут не только помочь в решении внутренних задач самих ведомств (например, построение моделей преступлений для обучения следователей), но и повысить безопасность нашей страны.

Собственными силами построить и обучить нейросеть достаточно сложно. Но выдать документы за свой периметр ведомство не может. В такой ситуации единственный выход из положения — реализовать проект во внутреннем контуре организации, когда cистему создают, обучают и тестируют на территории заказчика.

Компания «Биорг» не раз получала специальный допуск для работы с информацией «под грифом». Консультанты компании формируют датасеты, обучают нейросети на небольших объемах документов, после чего запускают систему и формируют внутренний сервис верификации данных на основе внутренних ресурсов ведомства (например, привлекая курсантов).

Формат «конфиденциальной» системы востребован многими организациями с развитыми службами безопасности – ОГВ, банками, промышленностью.

Экономический эффект

Эффект от внедрения систем распознавания может оцениваться через экономию трудозатрат, повышение качества принятых решений, и сокращение сроков исполнения услуг. Все они включены в KPI чиновника.

Если система настроена на обработку обычных входящих документов, она может заменить двух из трех сотрудников и — при стоимости в 1–2 миллиона рублей — окупится менее чем за год. Если масштабы больше и сложность задач выше, то параметры экономии будет совсем другими.

Для ведомства, оказывающего услуги всему населению страны, годовая экономия может составить 50 и более миллионов рублей.

Еще один немаловажный показатель эффективности подобных проектов — скорость обработки. Сканирование документа, извлечение из него реквизитов и аналитическая проверка должны занимать одну минуту, независимо от объема входящего потока заявок. Это типовое требование к работе системы. Если его соблюсти, входящие запросы можно регистрировать в 3 раза быстрее, а обрабатывать разные типы договоров — в 20 раз быстрее, нежели вручную.

Как это отразится на конечных пользователях — потребителях госуслуг?

Представьте, что вы продаете квартиру и, наконец, нашли покупателя. Вам срочно нужно оформить сделку, чтобы получить деньги и приобрести дом своей мечты. Вы готовы бежать оформлять договор. Вдруг в последний момент выясняется, что доли на детей в квартире не выделены. Так могло произойти, если для покупки квартиры вы использовали материнский капитал.

Для продажи квартиры, где был использован маткапитал, нужно оформить соглашение, наделить обязательно долями детей, получить распоряжение органов опеки и попечительства, и найти объект, который будет приобретаться. Выставляется квартиру на продажу без соблюдения этих требований — грубейшее нарушение. Впоследствии такая сделка может быть признана недействительной.

Что делать? Срочно бежать всей семьей к нотариусу и подавать в МФЦ комплект документов на регистрацию прав всех членов семьи. Эта процедура займет как минимум три недели, за которые покупатель может передумать, а дом мечты «уплыть» в другие руки. Сейчас иного пути нет.

Искусственный интеллект способен сократить этот срок до нескольких дней.

Искусственный интеллект как основа цифровой зрелости

3 апреля 2021 г. Правительство утвердило обновлённую методику расчёта ключевых показателей эффективности деятельности для высших должностных лиц и деятельности органов исполнительной власти субъектов РФ  (Постановление №542). «Цифровая зрелость» — в числе показателей, и ведомственная система распознавания данных на базе ИИ огромное подспорье.

Проекты на основе ИИ-помощников могут стать локомотивом преобразований, связанных непосредственно с федеральным проектом «Искусственный интеллект» (входит в национальную программу «Цифровая экономика»). Шаги первых семи федеральных ведомств в этом направлении закреплены еще в ноябре 2020 года.

Внедрение технологий искусственного интеллекта на всех уровнях власти — цель развития нашего государства на ближайшие годы.

 

    На указанный вами email мы автоматически пришлем презентацию.

    Вся информация по трудоустройству на странице "Вакансии"
    [contact-form-7 404 "Не найдено"]
    [contact-form-7 404 "Не найдено"]