Содержание
Существуют 2 способа распознавания рукописи. В онлайновом буквы выводятся при помощи стилуса и тут же появляются в печатном виде на экране устройства. В офлайновом подразумевается именно распознавание документов: текст уже существует на бумаге и его надо перевести в электронный вид. При этом распознавание текста можно проводить как на базе отсканированной копии, так и фотографии. Когда вы слышите о программе распознавания документов, всегда подразумевается именно офлайновый метод.
Чтобы распознать рукописный текст, программа должна его предварительно обработать. Сначала искусственному интеллекту нужно отделить объект (текст) от фона. Это не всегда бывает просто. Если приходится иметь дело с фотографиями, особенно старыми, фон может быть затемнённым. Бумага может содержать загрязнения, пожелтеть от времени и др. Все подобные артефакты осложняют процесс распознавания.
Если фон сложный, дополнительно производится так называемое удаление шумов: программа распознаёт не имеющие смысла элементы и убирает их.
Чем больше наклон букв, тем сложнее оцифровать текст, поэтому на подготовительном этапе наклон выравнивается.
Далее текст разделяется на строки, затем на слова и в конце концов на отдельные символы.
Документ просто подготовить к распознаванию, если строки прямые и расстояние между словами больше, чем между буквами. В этом случае достаточно элементарной нейросети. В большинстве случаев применяются гибридные модели распознавания документов.
Если документ слабо структурирован — строки не прямые, расстояние между словами и буквами варьируется, — применяют более сложные системы с элементами, например, скрытой марковской модели: на основе известных параметров угадываются неизвестные.
Осложнить этап подготовки могут также:
Если рукописный текст содержит сложные символы или элементы, нейросеть, как правило, справляется не очень хорошо.
На этом этапе к работе необходимо подключать верификаторов — людей, которые работают либо в штате компании/архива, либо привлекаются как внешние квалифицированные сотрудники (аутсорс). Аутсорсинговую верификацию предлагают далеко не все игроки рынка, из-за чего в проектах оцифровки документов с рукописными элементами на практике возникают трудности.
У компании «Биорг» для целей верификации есть собственная краудсорсинговая облачная платформа, где трудоустроены сотрудники, прошедшие специальное обучение. В случае необходимости они получают доступ к отдельным распознаваемым элементам (не целым документам), чтобы корректно ввести нераспознанное значение. На пиковых этапах, когда компания выполняла крупные проекты с колоссальными объёмами документов, на платформе было зарегистрировано более 50 тыс. операторов. Такая методика двухэтапного распознавания (ИИ + люди) позволяет оцифровать даже самый сложный документ с высокой степенью точности.
Верификаторы на платформе, распознавая сложные значения, одновременно дообучают ИИ. В дальнейшем даже сложные тексты можно распознавать намного быстрее, а людей-верификаторов требуется меньше.
В зависимости от типа текста применяют разные виды нейросетей. Например, если документ стандартный, его можно распознать при помощи языковой модели: она умеет предсказывать следующее слово по нескольким предшествующим. Особенно хорошо языковая модель работает при распознавании однотипных документов, где встречаются повторяющиеся слова, словосочетания и предложения. Так, если при оцифровке документов ИИ работает с приказами или заявлениями, составленными по схожим шаблонам, значительную часть документа можно распознать довольно быстро.
Классификатор ИИ может работать как с отдельными словами, так и с целыми строками. Сначала к работе приступают сверточные нейронные сети (СНС). Их главная задача — сформировать карту характерных признаков. Как только каждый элемент изображения проанализирован, СНС приступают к пуллингу: сформированные карты признаков становятся менее подробными, то есть их уменьшают в размере.
Затем к работе приступают рекуррентные нейронные сети (РНС). Их применяют для работы с последовательностями — результат зависит не только от входного слова, но и от всех предыдущих. Эти свойства полезны, чтобы правильно классифицировать элементы текста.
Одна из популярных разновидностей РНС — LSTM-сети: сегодня показывают одни из лучших результатов при работе с рукописями. Существуют и другие разновидности: IDCN, mdlstm и др.
Перед распознаванием рабочего массива документов нейросеть нужно обязательно обучить на качественно размеченном тестовом наборе данных. Его создают из реальных документов, требующих распознавания. В процессе обучения результат распознавания сверяется с датасетом, в котором хранится множество изображений для каждой буквы, написанной разным почерком. Вычисляется разница между предсказанным и реальным значением, и на этом основании нейросеть обучается (меняются веса в слоях нейросети).
После того как текст оцифрован, нейросеть проводит проверку орфографии. Даже если исходный текст содержал ошибки, конечный оцифрованный документ будет представлен в корректном виде.
Иногда в текстах есть специальные термины, которые отсутствуют в стандартных словарях (например, недавно появившиеся аббревиатуры или узкоспециализированные термины). В этом случае ИИ дополнительно обучается их распознавать. Очень часто именно на этапе постобработки выявляются разные буквы, которые человек написал одинаково (например, буквы «у» и «д» или цифру «3» и заглавную букву «З»).
Постобработка может значительно улучшить качество оцифрованного документа (на 10% и более).
Если после автоматической постобработки точность распознавания всё ещё ниже изначально установленной, документ отправляется на верификацию через краудсорсинговую платформу. Люди уточняют распознанные ИИ данные. Таким образом, можно переводить в электронный вид даже очень важные документы — чертежи, формулы, древние рукописи. Когда в процессе участвуют и искусственный интеллект, и люди, это даёт надёжность распознавания на уровне 100%.
Процесс состоит из нескольких этапов: подготовка изображения (удаление шумов, выравнивание наклона, разбивка на строки и символы), основное распознавание при помощи сверточных и рекуррентных нейросетей, и постобработка с проверкой орфографии. Если уверенность ИИ низкая — подключаются верификаторы-люди.
При онлайновом распознавании буквы выводятся стилусом и сразу появляются в печатном виде на экране устройства. Офлайновое — это распознавание уже существующего текста на бумаге по скану или фотографии. Именно офлайновый метод используется в программах распознавания документов.
Распознавание усложняют: тёмный или загрязнённый фон, пожелтевшая бумага, сильный наклон букв, нестандартный формат листа, размазанные чернила, слабо пропечатанные символы, устаревшие шрифты, штампы поверх текста, а также нестандартные форматы — например, широкоформатные чертежи и каротажные карты.
Сначала работают сверточные нейронные сети (СНС): они формируют карту характерных признаков изображения. Затем подключаются рекуррентные нейронные сети (РНС), в том числе LSTM-сети — одни из лучших для работы с рукописями. Для слабо структурированных документов применяются гибридные модели, в том числе со скрытой марковской моделью.
Когда нейросеть не справляется со сложными символами или выдаёт низкую уверенность, к работе подключаются верификаторы-люди. В Биорг для этого используется собственная краудсорсинговая платформа с обученными операторами — на пике к ней было подключено более 50 тыс. человек. Верификаторы одновременно дообучают ИИ, что сокращает потребность в ручной проверке в будущем.
После распознавания нейросеть проверяет орфографию, выявляет похожие символы (например, «у» и «д», цифру «3» и букву «З»), распознаёт специальные термины и аббревиатуры. Постобработка может улучшить качество документа на 10% и более. Если точность всё ещё недостаточна — документ отправляется на верификацию к операторам-людям.
Работаем только с юридическими лицами
Работаем только с юридическими лицами.
Работаем только с юридическими лицами.
Ошибка: Контактная форма не найдена.
Ошибка: Контактная форма не найдена.
Ошибка: Контактная форма не найдена.