Что такое разметка данных и для чего она нужна?

Разметка или аннотация данных – обязательный этап в процессе разработки модели машинного обучения (ML), в процессе обучения нейросетей решать те или иные задачи.

Машина, в отличие от взрослого образованного человека, не обладает способностью понимать то, что видит. Например, идентифицировать документ как паспорт и распознать паспорт, то есть понять, что написано в полях документа и извлечь данные – это разные процессы.

В процессе разметки данных нужно идентифицировать все необработанные, неизвестные машине, данные и добавить к ним одну или несколько меток. Так задают контекст для обучения ИИ-моделей. После нейросеть учится делать более-менее точные прогнозы. Например, большие языковые модели (GPT) начинают довольно точно предсказывать следующее слово в предложении, на основе чего генерируют тексты.

Разметка данных лежит в основе машинного обучения, включая и такие важные и быстро растущие его направления, как компьютерное зрение и обработка естественного языка (НЛП). Она же, разметка данных, а ещё чаще, нехватка данных, становится бутылочным горлышком в процессе развития большинства ИИ-проектов.

Что может делать ИИ, обученный на правильно размеченных данных?

Классифицировать — распределять полученную информацию по категориям. Например, анализировать результаты томографии или рентген-снимков, определять наличие или отсутствие определённых признаков, которые помогают корректно диагностировать заболевания.
Объяснять причинно-следственную связь по методу регрессии — находить связь между зависимой и независимыми переменными. Например, оценивать, как связаны выделенный на рекламу бюджет и количество продаж товара.

Содержание

Как происходит разметка данных?
Размеченные и сырые данные
Подходы к разметке данных
Преимущества и проблемы маркировки данных
Когда чаще всего нужна разметка данных
Часто задаваемые вопросы

Протестировать бесплатно

Как происходит разметка данных?

Для обучения ИИ данные должны быть чистыми, без ошибок, структурированными и качественно аннотированными, размеченными. Только такой массив представляет ценность и может стать основой для обучения нейросетей.

Специальные метки позволяют data-аналитикам выделить важные переменные внутри набора данных, а значит, подобрать оптимальные способы, чтобы научить модель предсказывать эти переменные в каждом последующем случае.

Например, в комплекте документов «договор + доверенность», модель учится безошибочно находить ФИО продавца и покупателя, данные доверенных лиц и не путать эту информацию. Метки позволяют провести векторизацию данных, то есть преобразовать их из исходного формата в определённый набор чисел, которые понятны моделям машинного обучения. На основе этих числовых значений машина и учится «прогнозировать», предсказывать или распознавать данные.

Довольно часто для задач по разметке данных требуется участие человека, автоматическая разметка данных, на которую пытались делать ставку, напротив, постепенно доказывает свою неэффективность, т.к. в процессе возникает много неточностей. Участие человека в разметке окрестили методикой human in the loop – HITL — «человек в цикле». Методика HITL основана на интеллектуальном потенциале людей, которые понимают, что и как размечать, чтобы ИИ-модель обучилась максимально корректно. Человек направляет процесс аннотации данных в соответствии с задачами того или иного проекта машинного обучения.

Поскольку довольно часто для корректного обучения машины требуется много размеченных данных, то «аннотаторы» работают через облачные технологии: к примеру, через Яндекс.Толоку. Примеры других платформ, которые превратили разметку данных в большой бизнес: Amazon Mechanical Turk, Remotasks, Labelbox и др. За качественными массивами данных всегда стоит очередь из разработчиков ИИ-решений. Однако важно понимать качество обучения аннотаторов на платформе и умение владельца краудсорсингового ресурса управлять проектами.

Размеченные и сырые данные

Размеченные данные используются при обучении с учителем (метки показывают правильный ответ), немаркированные данные используются при обучении без учителя (система без вмешательства аналитиков самостоятельно решает поставленную задачу, в финале которой аналитик даёт алгоритму информацию, справился он с задачей или нет).
Аннотированный массив данных сложнее получить и хранить (т. е. это требует времени и денег), неразмеченные данные легче получить и хранить.
Размеченные данные можно использовать для задач прогнозирования, развития систем поддержки принятия решений для управления развитием на основе данных. Польза неразмеченных данных ограничена. Хотя обучение без учителя помогает обнаружить новые кластеры данных, что позволяет по-новому категоризировать данные при маркировке.

В машинном обучении также применяют комбинированные данные для полуконтролируемого обучения. Это снижает потребность в подробной ручной разметке данных и, возможно, обеспечивает большой набор аннотированных данных. Но качество таких решений под вопросом.

Подходы к разметке данных

Разметка данных — важнейший шаг в разработке высокопроизводительной модели машинного обучения. Хотя процесс выглядит довольно просто, его не всегда одинаково просто реализовать на практике.

HITL. Внутренняя разметка. Аннотаторами данных или AI-тренерами выступают люди, аналитики данных, внутри компании. Так проще отследить весь процесс обучения, обеспечить его точность и качество. Однако подход обычно требует много времени и ресурсов.
Синтетическая разметка. Новые данные генерируются из уже существующих размеченных наборов данных. С одной стороны, это повышает качество данных и экономит время. С другой стороны, требует больших вычислительных мощностей, что увеличивает стоимость данных и нагрузку на энергосистемы.
Программная маркировка. В этом случае применяют сценарии, позволяющие сократить временные затраты и необходимость применять человеческий труд. Однако возможность возникновения технических проблем велика. Необходимо, чтобы HITL была частью процесса обеспечения качества такого подхода.
HITL. Аутсорсинг. Оптимальный выбор для временных проектов высокого уровня. Однако управление рабочим процессом, ориентированным на фрилансеров, может занять много времени. Хотя платформы фрилансеров эффективны в целом, наём команд для проектной аннотации данных — трудоёмкая задача.
HITL. Краудсорсинг. Более быстрый и экономически эффективный метод для заказчика разметки данных. Крауд-платформы дают возможность разбивать задачи на множество микрозадач, которые доступны большому количеству пользователей платформы. Одним из самых известных примеров краудсорсинговой маркировки данных служит проект Recaptcha.

Протестировать бесплатно

Преимущества и проблемы маркировки данных

Общий минус процесса – его ресурсоёмкость. Хотя бизнес, основанный на анализе правильных данных, может масштабироваться быстрее, цена входа бывает высока. Разметка данных — дорого и доступна преимущественно большим компаниям и государству.

И всё же чистые, точные данные повышают качество, точность работы ИИ-моделей. Итоговая ценность, как правило, оправдывает вложения. Качественно размеченные данные — ключевой фактор в работе рекомендательных систем, принятии решений на основе данных — во всей экономике данных. Например, разметка данных помогает обеспечить более релевантные результаты поиска, более качественные рекомендации на платформах электронной коммерции.

Преимущества качественной разметки

Высокая точность прогнозов: ИИ лучше справляется с задачами, меньше ошибается.
Данные удобнее использовать в процессе обучения ИИ-моделей. Можно перезапустить классификатор, добавить новые категории, включить контрольные переменные для работы нейросети и т.д. Высококачественные данные – абсолютный приоритет в процессе разработки моделей ML и NLP.

Минусы качественной разметки

Долго, дорого.
Влияние человеческого фактора. Ошибки кодирования, ошибки ручного ввода могут снизить качество данных. Это, в свою очередь, приводит к неточной обработке данных и моделированию. Проверки качества, двойной ввод данных и арбитраж необходимы для поддержания качества разметки данных в краудсорсинговых проектах.

Когда чаще всего нужна разметка данных

В компьютерном зрении. Это область ИИ, где обучающий массив данных используют для построения модели, которая умеет сегментировать изображения, разбивать их на категории, идентифицировать ключевые точки на изображении и определять, где находятся объекты в пространстве.

Компания Биорг применяет в своих проектах собственную платформу разметки данных, которая позволяет нам обучать модели машинного зрения как на облачных ресурсах, так и в локальных центрах обработки данных. Компьютерное зрение используется во многих отраслях – от энергетики и коммунального хозяйства до производства и автомобилестроения. Мы применяем компьютерное зрение и связанные с ним технологии для распознавания изображений документов.

Обработка естественного языка (NLP). Этот сегмент ИИ-отрасли основан на сочетании лингвистических компетенций (компьютерная лингвистика) с компетенциями в области разработки статистических моделей, машинного и глубокого обучения. Задача — найти и маркировать в тексте важные разделы, распознать имена объектов и оптическое распознавание символов.

NLP массово используют для обнаружения спама, машинного перевода, распознавания речи, обобщений текста. Виртуальные помощники и чат-боты, системы навигации с голосовым управлением также основаны на этой технологии.

На технологиях НЛП основаны системы поддержки принятия решений, цифровые помощники, которых также разрабатывает и обучает компания «Биорг». Это системы, ставка на которые очень высока в условиях перехода к экономике данных.

Часто задаваемые вопросы

Что такое разметка данных простыми словами?

Разметка данных — это процесс добавления меток (аннотаций) к необработанным данным: изображениям, текстам, аудио. Метки дают машине контекст и позволяют нейросети обучиться распознавать объекты, классифицировать информацию и делать прогнозы.

Зачем нужна разметка данных для обучения ИИ?

Без размеченных данных модель машинного обучения не знает «правильного ответа» и не может обучиться с учителем. Качественная разметка — ключевой фактор точности прогнозов, работы рекомендательных систем, распознавания речи и документов.

Что такое метод HITL (Human in the Loop)?

HITL — методика, при которой человек участвует в процессе аннотации данных: направляет разметку, проверяет качество и исправляет ошибки. Это повышает точность обучения ИИ-модели по сравнению с полностью автоматической разметкой.

Чем отличаются размеченные данные от сырых?

Сырые (неразмеченные) данные — просто набор файлов без контекста. Размеченные данные снабжены метками, указывающими на правильный ответ. Именно размеченные данные используются для обучения с учителем, тогда как сырые — для обучения без учителя.

Какие существуют подходы к разметке данных?

Основные подходы: внутренняя разметка силами сотрудников компании (точно, но дорого), аутсорсинг специализированным командам, краудсорсинг через платформы (Amazon Mechanical Turk, Яндекс.Толока), синтетическая разметка на основе существующих данных и программная маркировка с помощью скриптов.

Где применяется разметка данных на практике?

Разметка данных используется в компьютерном зрении (распознавание документов, медицинская диагностика, автомобилестроение), обработке естественного языка — NLP (машинный перевод, чат-боты, голосовые помощники, антиспам), а также в рекомендательных системах и системах поддержки принятия решений.

16.12.2025