Как нейросети переводят рукописный текст в цифровой формат

25.04.2023

Как программы распознавания документов разбираются в рукописных текстах

Существуют 2 способа распознавания рукописи. В онлайновом буквы выводятся при помощи стилуса и тут же появляются в печатном виде на экране девайса. В офлайновом подразумевается именно распознавание документов: текст уже существует на бумаге и его надо перевести в электронный вид. При этом распознавание текста можно проводить на базе отсканированной копии так и фотографии. Когда вы слышите о программе распознавания документов, всегда подразумевается именно офлайновый метод.

Как выглядит подготовка к процессу распознавания рукописи

Чтобы распознать рукописный текст, программа должна его предварительно обработать. Сначала искусственному интеллекту нужно отделить объект (текст) от фона. Это не всегда бывает просто.  Если приходится иметь дело с фотографиями, особенно старыми, фон может быть затемненным. Бумага может содержать загрязнения, пожелтеть от времени и др. Все подобные артефакты осложняют процесс распознавания.

Если фон сложный, то дополнительно производится так называемое удаление шумов: программа распознает не имеющие смысла элементы и убирает их.

Чем больше наклон букв, тем сложнее оцифровать текст, потому на подготовительном этапе наклон выравнивается.

Далее текст разделяется на строки, затем на слова и в конце концов на отдельные символы.

Документ просто подготовить к распознаванию, если строки прямые и расстояние между словами больше, чем между буквами. В этом случае достаточно элементарной нейросетки. В большинстве же случаев применяются гибридные модели распознавания документов.

Если документ слабо структурирован — строки не прямые, расстояние между словами и буквами варьируется, — применяют более сложные системы с элементами, например, скрытой марковской модели: на основе известных параметров угадываются неизвестные.

Осложнить этап подготовки могут также:

  • нестандартный формат и текстура бумажного листа
  • размазанные чернила или слабо пропечатанные на печатной машинке буквы
  • устаревшие печатные шрифты
  • наличие штампов, особенно, если их несколько и они нанесены один поверх другого и др.

Распознавание + верификация: что в процессе делают люди

Если рукописный текст содержит сложные символы или элементы, то нейросеть, как правило, справляется не очень хорошо.

На этом этапе к работе необходимо подключать верификаторов — людей, которые работают либо в штате компании/архива, либо нанимать внешних квалифицированных сотрудников, то есть отдать вопрос на аутсорс. Аутсорсинговую верификацию предлагают далеко не все игроки рынка, из-за чего в проектах оцифровки документов, которые содержат рукописные элементы, по факту возникают трудности.

У компании «Биорг» для целей верификации есть собственная краудсорсинговая облачная платформа, где трудоустроены сотрудники, прошедшие специальное обучение. В случае необходимости они получают доступ к отдельным распознаваемым элементам (не целым документам), чтобы корректно ввести нераспознанное значение. На пиковых этапах, когда компания выпоняла большие проекты с колоссальными объёмами документов, на платформе было зарегистрировано более 50 тыс. операторов. Такая методика фирменного двухэтапного распознавания (ИИ+люди) позволяет оцифровать даже самый сложный документ с высокой степенью точности.

Верификаторы на платформе, распознавая сложные значения, одновременно дообучают ИИ. В дальнейшем даже сложные тексты можно распознавать намного быстрее, а людей-верификаторов требуется меньше.

Как происходит основной процесс распознавания рукописи

В зависимости от типа текста, применяют разные виды нейросетей. Например, если документ стандартный, его можно распознать при помощи языковой модели: она умеет предсказывать следующее слово по нескольким предшествующим. Особенно хорошо языковая модель работает при распознавании однотипных документов, где встречаются повторяющиеся слова, словосочетания и предложения. Так, если при оцифровке документов ИИ работает с приказами или заявлениями, которые, как правило, составлены по схожим шаблонам, значительную часть документа можно распознать довольно быстро.

Классификатор ИИ может работать как с отдельными словами, так и с целыми строками. Сначала к работе приступают сверточные нейронные сети (СНС). Их главная задача — сформировать карту характерных признаков. Как только каждый элемент изображения проанализирован, СНС приступают к пуллингу: сформированные карты признаков становятся менее подробными, то есть их просто уменьшают в размере.

Дальше к работе приступают рекуррентные нейронные сети (РНС). Их применяют для работы с последовательностями – результат зависит не только от входного слова, но и от всех предыдущих.  Эти свойства полезны, чтобы правильно классифицировать элементы текста.

Например, одна из популярных разновидностей РНС — это LSTM-сети: сегодня показывают одни из лучших результатов при работе с рукописями. Но есть также и другие разновидности: IDCN, mdlstm и др.

Перед распознаванием рабочего массива документов нейросеть нужно обязательно обучить на качественно размеченном тестовом наборе данных. Его создают из реальных документов, требующих распознавания. В процессе обучения результат распознавания сверяется с датасетом, в котором хранится множество изображений для каждой буквы, написанной разным почерком. Вычисляется разница межу предсказанным и реальным значением и на этом основании нейросеть обучается (меняются веса в слоях нейросети)

Что входит в постобработку оцифрованного рукописного документа

После того как текст оцифрован, нейросеть проводит проверку орфографии. Даже если исходный текст содержал ошибки, конечный оцифрованный документ будет представлен в корректном виде.

Иногда в текстах есть специальные термины, которые отсутствуют в стандартных словарях (например, недавно появившиеся аббревиатуры или узкоспециализированные термины). В этом случае ИИ дополнительно обучается их распознавать. Очень часто именно на этапе постобработки выявляются разные буквы, которые человек написал одинаково (например, буквы «у» и «д» или цифру «3» и заглавную букву «З»).

Постобработка может значительно улучшить качество оцифрованного документа (на 10 % и более).

Если после автоматической постобработки точность распознавания все еще ниже изначально установленной, документ отправляется на верификацию через краудсорсинговую платформу. Люди уточняют распознанные ИИ данные. Таким образом, можно переводить в электронный вид даже очень важные документы, оцифровка которых связана с серьёзной степенью ответственности. Это могут быть чертежи, формулы, древние рукописи. Когда в процессе участвуют и искусственный интеллект, и люди, это дает надежность распознавания на уровне 100 %.

 

Работаем только с юридическими лицами

Работаем только с юридическими лицами.

    На указанный вами email мы автоматически пришлем презентацию.

    Работаем только с юридическими лицами.

    Вся информация по трудоустройству на странице "Вакансии"

    Ошибка: Контактная форма не найдена.

    Ошибка: Контактная форма не найдена.