Какие задачи решает ИИ в области оцифровки документов?

18.11.2022

Как получить измеряемый результат от технологий искусственного интеллекта (ИИ), внедряемых в процесс оцифровки архивных фондов и потоковых документов? Как состыковать жесткие требования закона о закупках с тем фактом, что ИИ – это всегда работа с вероятностями?

Эксперт: Илья Веригин, директор БИОРГ по работе с государственными заказчиками.

Статья подготовлена по материалам выступления на XXIX Международной научно-практической конференции «Документация в информационном обществе: формирование и сохранение наследия цифровой эпохи», организованной ВНИИДАД.

Просто сканировать документы — уже недостаточно

Последние пять лет отрасль уверенно движется от простого сканирования архивов к обработке и популяризации информации, извлеченной из документов. На первый план выходит потребность гибко работать с данными.

Извлечь из аналогового документа или его цифрового образа информацию, перевести её в машиночитаемый вид помогают технологии ОСR – оптического распознавания символов. Их разрабатывают уже около тридцати лет, но до сих пор технология не давала стопроцентного результата. Даже несмотря на то, что современный ОСR работает на базе нейросетевого распознавания, а не простых алгоритмов.

Так нейросеть не может распознать «угасающий» текст, поврежденные буквы – потому что не может «увидеть» аналогий в шрифте. Ей не знакомы старые шрифты. ИИ не может гарантированно распознать рукописный текст, ведь почерки у всех разные – а каждый новый почерк нейросеть «воспринимает» как новый язык.

Даже в свежем документе нейросети ошибаются в одном-двух символах, поэтому производители OCR-систем никогда не заявляют качество 100%.

Проблемы восприятия ИИ – магическое мышление

Большинство проблем с ИИ-проектами в государственных учреждениях возникает от того, что искусственный интеллект воспринимают как волшебную палочку: купили, взмахнули, решили любую задачу. Во многом это связано со спецификой законодательства о закупках: по итогу закупки нужно получить результат с определёнными характеристиками. Противоречие в том, что ИИ – это не какое-то готовое решение, а чистая математика и работа с вероятностями. Решать специфические задачи с помощью ИИ можно, но его надо обучить, объяснив нейросетям, на что смотреть и какие операции проводить.

Современное понимание ИИ заключается в том, что машина возьмёт на себя рутинные операции, оставляя за человеком креативную часть, связанную с принятием решений. Это и нужно грамотно формулировать в закупочной документации: описывать, как будет выглядеть процесс, сопровождать его определенными метриками скорости, качества, необходимости верифицировать работу ИИ и пр.

Интеллектуальная обработка документов

Как же применять ИИ в оцифровке архивных фондов и потоков входящих документов?

Нейросети обучают искать в распознанном тексте необходимые смысловые сущности, «понимать» их значение. Это называется интеллектуальной обработкой документов: когда информация не просто распознана, но и может быть представлена нужным образом. На базе такого массива данных можно создать умный электронный архив, базу, где с данными можно работать, конфигурировать их.

По этому принципу работают экспертные системы поддержки принятия решений — так называемые цифровые помощники. Они могут на высоком уровне выполнить за человека большое количество рутинных действий – например, провести формальные проверки в комплекте документов, найти соответствия или несоответствия. В этом смысле правильная постановка задачи для ИИ – это и есть залог успешной реализации проекта.

Машина, скорее всего, никогда не сможет полностью заменить человека, принимать сложные самостоятельные решения. ИИ не умеет действовать в условиях неопределенности, не умеет принимать решений вне того опыта, который в него заложили. В таких ситуациях ориентируется только человек. Кстати, именно по этой причине ряд экспертов сомневается в будущем беспилотного транспорта в полном смысле слова – без выделенных полос.

Как внедрять искусственный интеллект

Выиграет тот, кто будет применять ИИ как инструмент автоматизации массовых рутинных задач.

Лучший результат получится, если ИИ будет работать в паре с человеком. На первом этапе именно человек качественно размечает массивы данных для обучения нейросетей. Далее люди модерируют передачу машине человеческого опыта, исправляют ошибки. На этапе готовности технологии люди продолжают верифицировать результат работы машины — дообучают её — и использует полученные данные в своих интересах.

Самое главное – достичь высокого уровня доверия к цифровому помощнику, получить уверенность, что он не ошибается в базовых для человека, но не очень понятных для машины вещах. Например, кто в документе покупатель и кто продавец недвижимости, а кто доверенное лицо. На горизонте 5-7 лет ожидается существенное продвижение ИИ в сторону более полной, но вовсе не окончательной самостоятельности.

ИИ по-прежнему путает букву О, «ноль» и составную часть буквы «Ю», за счет нейросетевого комплекса можно автоматизировать конкретную задачу. Технологию надо контролировать, верифицировать результат её работы – те же электронные данные, извлеченные при оцифровке документов.

И всё же применять технологию будет выгоднее, чем поручать рутинную работу десяткам человек. ИИ работает быстрее и в большинстве случаев – точнее, т.к. машина, в отличие от людей, не устает от рутинных однотипных действий.

Применение ИИ для оцифровки архивов позволит создать уникальный массив электронных данных, цифровые профили по различным отраслям экономики и истории государства. Работа с этой информацией представляет значительный интерес и для специалистов и заказчиков анализа данных в лице государственных структур.

______________

Организаторами научно-практической конференции «Документация в информационном обществе: формирование и сохранение наследия цифровой эпохи» выступили: Федеральное архивное агентство (Росархив), Всероссийский научно-исследовательский институт документоведения и архивного дела (ВНИИДАД), Российский государственный гуманитарный университет (РГГУ), Главное архивное управление города Москвы (Главархив Москвы).

    На указанный вами email мы автоматически пришлем презентацию.

    Вся информация по трудоустройству на странице "Вакансии"
    [contact-form-7 404 "Не найдено"]
    [contact-form-7 404 "Не найдено"]