Как нейросети переводят рукописный текст в цифровой формат

Содержание

Подготовка к процессу распознавания рукописи
Распознавание + верификация: что делают люди
Основной процесс распознавания рукописи
Постобработка оцифрованного документа
Часто задаваемые вопросы

Существуют 2 способа распознавания рукописи. В онлайновом буквы выводятся при помощи стилуса и тут же появляются в печатном виде на экране устройства. В офлайновом подразумевается именно распознавание документов: текст уже существует на бумаге и его надо перевести в электронный вид. При этом распознавание текста можно проводить как на базе отсканированной копии, так и фотографии. Когда вы слышите о программе распознавания документов, всегда подразумевается именно офлайновый метод.

Как выглядит подготовка к процессу распознавания рукописи

Чтобы распознать рукописный текст, программа должна его предварительно обработать. Сначала искусственному интеллекту нужно отделить объект (текст) от фона. Это не всегда бывает просто. Если приходится иметь дело с фотографиями, особенно старыми, фон может быть затемнённым. Бумага может содержать загрязнения, пожелтеть от времени и др. Все подобные артефакты осложняют процесс распознавания.

Если фон сложный, дополнительно производится так называемое удаление шумов: программа распознаёт не имеющие смысла элементы и убирает их.

Чем больше наклон букв, тем сложнее оцифровать текст, поэтому на подготовительном этапе наклон выравнивается.

Далее текст разделяется на строки, затем на слова и в конце концов на отдельные символы.

Документ просто подготовить к распознаванию, если строки прямые и расстояние между словами больше, чем между буквами. В этом случае достаточно элементарной нейросети. В большинстве случаев применяются гибридные модели распознавания документов.

Если документ слабо структурирован — строки не прямые, расстояние между словами и буквами варьируется, — применяют более сложные системы с элементами, например, скрытой марковской модели: на основе известных параметров угадываются неизвестные.

Осложнить этап подготовки могут также:

нестандартный формат и текстура бумажного листа;
размазанные чернила или слабо пропечатанные на печатной машинке буквы;
устаревшие печатные шрифты;
наличие штампов, особенно если их несколько и они нанесены один поверх другого.

Получить консультацию

Обсудите вашу задачу со специалистом — это бесплатно

Нужно оцифровать архив или поток входящих документов? Свяжитесь с нашим экспертом Евгением Гусарским, чтобы оценить проект.

ЕГ

Евгений Гусарский Менеджер проекта

По телефону +7 (495) 739-92-37

Написать нам

@beorg_sup

Узнать подробнее об оцифровке архивов

Распознавание + верификация: что в процессе делают люди

Если рукописный текст содержит сложные символы или элементы, нейросеть, как правило, справляется не очень хорошо.

На этом этапе к работе необходимо подключать верификаторов — людей, которые работают либо в штате компании/архива, либо привлекаются как внешние квалифицированные сотрудники (аутсорс). Аутсорсинговую верификацию предлагают далеко не все игроки рынка, из-за чего в проектах оцифровки документов с рукописными элементами на практике возникают трудности.

У компании «Биорг» для целей верификации есть собственная краудсорсинговая облачная платформа, где трудоустроены сотрудники, прошедшие специальное обучение. В случае необходимости они получают доступ к отдельным распознаваемым элементам (не целым документам), чтобы корректно ввести нераспознанное значение. На пиковых этапах, когда компания выполняла крупные проекты с колоссальными объёмами документов, на платформе было зарегистрировано более 50 тыс. операторов. Такая методика двухэтапного распознавания (ИИ + люди) позволяет оцифровать даже самый сложный документ с высокой степенью точности.

Верификаторы на платформе, распознавая сложные значения, одновременно дообучают ИИ. В дальнейшем даже сложные тексты можно распознавать намного быстрее, а людей-верификаторов требуется меньше.

Как происходит основной процесс распознавания рукописи

В зависимости от типа текста применяют разные виды нейросетей. Например, если документ стандартный, его можно распознать при помощи языковой модели: она умеет предсказывать следующее слово по нескольким предшествующим. Особенно хорошо языковая модель работает при распознавании однотипных документов, где встречаются повторяющиеся слова, словосочетания и предложения. Так, если при оцифровке документов ИИ работает с приказами или заявлениями, составленными по схожим шаблонам, значительную часть документа можно распознать довольно быстро.

Классификатор ИИ может работать как с отдельными словами, так и с целыми строками. Сначала к работе приступают сверточные нейронные сети (СНС). Их главная задача — сформировать карту характерных признаков. Как только каждый элемент изображения проанализирован, СНС приступают к пуллингу: сформированные карты признаков становятся менее подробными, то есть их уменьшают в размере.

Затем к работе приступают рекуррентные нейронные сети (РНС). Их применяют для работы с последовательностями — результат зависит не только от входного слова, но и от всех предыдущих. Эти свойства полезны, чтобы правильно классифицировать элементы текста.

Одна из популярных разновидностей РНС — LSTM-сети: сегодня показывают одни из лучших результатов при работе с рукописями. Существуют и другие разновидности: IDCN, mdlstm и др.

Перед распознаванием рабочего массива документов нейросеть нужно обязательно обучить на качественно размеченном тестовом наборе данных. Его создают из реальных документов, требующих распознавания. В процессе обучения результат распознавания сверяется с датасетом, в котором хранится множество изображений для каждой буквы, написанной разным почерком. Вычисляется разница между предсказанным и реальным значением, и на этом основании нейросеть обучается (меняются веса в слоях нейросети).

Что входит в постобработку оцифрованного рукописного документа

После того как текст оцифрован, нейросеть проводит проверку орфографии. Даже если исходный текст содержал ошибки, конечный оцифрованный документ будет представлен в корректном виде.

Иногда в текстах есть специальные термины, которые отсутствуют в стандартных словарях (например, недавно появившиеся аббревиатуры или узкоспециализированные термины). В этом случае ИИ дополнительно обучается их распознавать. Очень часто именно на этапе постобработки выявляются разные буквы, которые человек написал одинаково (например, буквы «у» и «д» или цифру «3» и заглавную букву «З»).

Постобработка может значительно улучшить качество оцифрованного документа (на 10% и более).

Если после автоматической постобработки точность распознавания всё ещё ниже изначально установленной, документ отправляется на верификацию через краудсорсинговую платформу. Люди уточняют распознанные ИИ данные. Таким образом, можно переводить в электронный вид даже очень важные документы — чертежи, формулы, древние рукописи. Когда в процессе участвуют и искусственный интеллект, и люди, это даёт надёжность распознавания на уровне 100%.

Получить презентацию

Часто задаваемые вопросы

Как нейросеть распознаёт рукописный текст?

Процесс состоит из нескольких этапов: подготовка изображения (удаление шумов, выравнивание наклона, разбивка на строки и символы), основное распознавание при помощи сверточных и рекуррентных нейросетей, и постобработка с проверкой орфографии. Если уверенность ИИ низкая — подключаются верификаторы-люди.

Чем онлайновое распознавание рукописи отличается от офлайнового?

При онлайновом распознавании буквы выводятся стилусом и сразу появляются в печатном виде на экране устройства. Офлайновое — это распознавание уже существующего текста на бумаге по скану или фотографии. Именно офлайновый метод используется в программах распознавания документов.

Что осложняет распознавание рукописных документов?

Распознавание усложняют: тёмный или загрязнённый фон, пожелтевшая бумага, сильный наклон букв, нестандартный формат листа, размазанные чернила, слабо пропечатанные символы, устаревшие шрифты, штампы поверх текста, а также нестандартные форматы — например, широкоформатные чертежи и каротажные карты.

Какие нейросети применяются для распознавания рукописей?

Сначала работают сверточные нейронные сети (СНС): они формируют карту характерных признаков изображения. Затем подключаются рекуррентные нейронные сети (РНС), в том числе LSTM-сети — одни из лучших для работы с рукописями. Для слабо структурированных документов применяются гибридные модели, в том числе со скрытой марковской моделью.

Зачем нужны верификаторы при распознавании рукописей?

Когда нейросеть не справляется со сложными символами или выдаёт низкую уверенность, к работе подключаются верификаторы-люди. В Биорг для этого используется собственная краудсорсинговая платформа с обученными операторами — на пике к ней было подключено более 50 тыс. человек. Верификаторы одновременно дообучают ИИ, что сокращает потребность в ручной проверке в будущем.

Что такое постобработка оцифрованного документа и насколько она важна?

После распознавания нейросеть проверяет орфографию, выявляет похожие символы (например, «у» и «д», цифру «3» и букву «З»), распознаёт специальные термины и аббревиатуры. Постобработка может улучшить качество документа на 10% и более. Если точность всё ещё недостаточна — документ отправляется на верификацию к операторам-людям.