Что такое разметка данных и для чего она нужна?

31.05.2024

Разметка или аннотация данных – обязательный этап в процессе разработки модели машинного обучения (ML), в процессе обучения нейросетей решать те или иные задачи.

Машина, в отличие от взрослого образованного человека, не обладает способностью понимать то, что видит. Например, идентифицировать документ как паспорт и распознать паспорт, то есть понять, что написано в полях документв и извлечь данные – это разные процессы.

В процессе разметки данных нужно идентифицировать все необработанные, неизвестные машине, данные и добавить к ним одну или несколько меток. Так задают контекст для обучения ИИ-моделей. После нейросеть учится делать более-менее точные прогнозы. Например, большие языковые модели (GPT) начинают довольно точно предсказывать следующее слово в предложении, на основе чего генерируют тексты.

Разметка данных лежит в основе машинного обучения, включая и такие важные и быстро растущие его направления, как компьютерное зрение и обработка естественного языка (НЛП). Она же, разметка данных, а ещё чаще, нехватка данных, становится бутылочным горлышком в процессе развития большинства ИИ-проектов.

Что может делать ИИ, обученные на правильно размеченных данных?

  1. Классифицировать — распределять полученную информацию по категориям. Например, анализировать результаты томографии или рентген-снимков, определять наличие или отсутствие определенных признаков, которые помогают корректно диагностировать заболевания.
  2. Объяснять причинно-следственную связь по методу регрессии — находить связь между зависимой и независимыми переменными. Например, оценивать, как связаны выделенный на рекламу бюджет и количество продаж товара

Получить консультацию

Как происходит разметка данных?

Для обучения ИИ данные должны быть чистыми, без ошибок, структурированными и качественно аннотированными, размечеными. Только такой массив представляет ценность и может стать основой для обучения нейросетей.

Специальные метки позволяют data-аналитикам выделить важные переменные внутри набора данных, а значит, подобрать оптимальные способы, чтобы научить модель предсказывать эти переменные в каждом последующем случае.

Например, в комплекте документов «договор + доверенность», модель учится безошибочно находить ФИО продавца и покупателя, данные доверенных лиц и не путать эту информацию. Метки позволяют провести векторизацию данных, то есть преобразовать их из исходного формата в определенный набор чисел, которые понятны моделям машинного обучения. На основе этих числовых значений машина и учится «прогнозировать», предсказывать или распознавать данные.

Довольно часто для задач по разметке данных требуется участие человека, автоматическая разметка данных, на котороую пытались делать ставку, напротив, постепенно доказывает свою неэффективность, т.к. в процессе возникает много неточностей. Участие человека в разметке окрестили методикой human in the loop – HITL — «человек в цикле». Методика HITL основана на интеллектуальном потенциале людей, которые понимают, что и как размечать, чтобы ИИ-модель обучилась максимально корректно. Человек направляет процесс аннотации данных в соответствии с задачами того или иного проекта машинного обучения.

Поскольку довольно часто для корректного обучения машины требуется много размеченных данных, то «аннотаторы» работают через облачные технологии: к перимеру, через Яндекс.Толоку. Примеры других платформ, которые превратили разметку дыннх в большрй бизнес: Amazon Mechanical Turk, Remotasks, Labelbox и др. За качественными массивами данных всегда стоит очередь из разработчиков ИИ-решений. Однако важно понимать качество обучения аннотаторов на платформе и умение владельца краудсорсингового ресурса управлять проектами.

Размеченные и сырые данные

  • Размеченные данные используются при обучении с учителем (метки показывают правильный ответ), немаркированные данные используются при обучении без учителя (система без вмешательства аналитиков самостоятельно решает поставленную задачу, в финале которой аналитик даёт алгоритму информацию, справился он с задачей или нет).
  • Аннотированный массив данных сложнее получить и хранить (т. е. это требует времени и денег), неразмеченные данные легче получить и хранить.
  • Размеченные данные можно использовать для задач прогнозирования, развития систем поддержки принятия для управления развитием на основе данных. Польза неразмеченные данных ограничена. Хотя обучение без учителя помогает обнаружить новые кластеры данных, что позволяет по-новому категоризировать данные при маркировке.

В машинном обучении также применяют комбинированные данные для полуконтролируемого обучения. Это снижает потребность в подробной ручной разметке данных и, возможно, обеспечивает большой набор аннотированных данных. Но качество таких решений под вопросом.

Подходы к разметке данных

Разметка данных — важнейший шаг в разработке высокопроизводительной модели машинного обучения. Хотя процесс выглядит довольно просто, его не всегда одинаково просто реализовать на практике.

  • HITL. Внутренняя разметка. Аннотаторами данных или AI-тренерами выступают люди, аналитики данных, внутри компании. Так проще отследить весь процесс обучения, обеспечить его точность и качество. Однако, подход обычно требует много времени и ресурсов.
  • Синтетическая разметка. Новые данные генерируются из уже существующих размеченных наборов данных. С одной стороны, это повышает качество данных и экономит время. С другой стороны, требует больших вычислительных мощностей, что увеличивает стоимость данных и нагрузку на энергосистемы.
  • Программная маркировка. В этом случае применяют сценарии, позволяющие сократить временные затраты и необходимость применять человеческий труд. Однако возможность возникновения технических проблем велика. Необходимо, чтобы HITL была частью процесса обеспечения качества такого подхода.
  • HITL.Аутсорсинг.  Оптимальный выбор для временных проектов высокого уровня. Однако управление рабочим процессом, ориентированным на фрилансеров, может занять много времени. Хотя платформы фрилансеров эффективны в целом, наем команд для проектной аннотации данных – трудоемкая задача.
  • HITL.Краудсорсинг. Более быстрый и экономически эффективный метод для заказчика разметки данных.  Крауд-платформы дают возможность разбивать задачи на множество микрозадач, которые доступны большому количеству пользователей платформы. Одним из самых известных примеров краудсорсинговой маркировки данных служит проект Recaptcha. Например, Recaptcha просит пользователя идентифицировать все фотографии, на которых изображен автомобиль, мост и т.д., чтобы доказать, что он, пользователь – человек, а не бот. После этого программа может проверить собственные ответы на основе ответов пользователей.

Получить консультацию

Преимущества и проблемы маркировки данных

Общий минус процесса – его ресурсоемкость. Хотя бизнес, основанный на анализе правильных данных, может масштабироваться быстрее, цена входа бывает высока. Разметка данных –  дорого и доступна преимущественно большим компаниям и государству.

И все же чистые, точные данные повышают качество, точность работы ИИ-моделей. Итоговая ценность, как правило, оправдывает вложения. Качественно размеченные данные — ключевой фактор в работе рекомендательных систем, принятии решений на основе данных — во всей экономике данных. Например, разметка данных помогает обеспечить более релевантные результаты поиска, более качественные рекомендации на платформах электронной коммерции.

Преимущества качественой разметки

  • Высокая точность прогнозов: ИИ лучше справляется с задачами, меньше ошибается.
  • Данные удобнее использовать в процессе обучения ИИ-моделей. Можно перезапустить классификатор, добавить новые категории, включить контрольные переменные для работы нейросети и т.д. Высококачественные данные – абсолютный приоритет в процессе разработки моделей ML и NLP.

Минусы качественной разметки

  • Долго, дорого.
  • Влияние человеческого фактора. Ошибки кодирования, ошибки ручного ввода могут снизить качество данных. Это, в свою очередь, приводит к неточной обработке данных и моделированию. Проверки качества, двойной ввод данных и арбитраж, когда привлекается третий человек, если мнения двух расходятся, необходимы для поддержания качества разметки данных в краудсорсинговых проектах.

Когда чаще всего нужна разметка данных

В компьютерном зрении. Это область ИИ, где обучающий массив данных используют для построения модели, которая умеет сегментировать изображения, разбивать их на категории, идентифицировать ключевые точки на изображении и определять, где находятся объекты в пространстве.

Компания Биорг применяет в своих проектах собственную платформу разметки данных, которая позволяет нам обучать модели машинного зрения как на облачных ресурсах, так и в локальных центрах обработки данных. Компьютерное зрение используется во многих отраслях – от энергетики и коммунального хозяйства до производства и автомобилестроения. Мы применяем компьютерное зрения и связанные с ним технологии для распознавания изображений документов.

Обработка естественного языка (NLP). Этот сегмент ИИ-отрасли основан на сочетании лингвистических компетенций (компьютерная лингвистика) с компетенциями в области разработки статистических моделей, машинного и глубокого обучения. Задача  — найти и маркировать в тексте важные разделы, распознать имена объектов и оптического распознавания символов.

NLP массово используют для обнаружения спама, машинного перевода, распознавания речи, обобщений текста. Виртуальные помощники и чат-боты, системы навигации с голосовым управлением также основаны на это технологии.

На технологиях НЛП основаны системы поддержки принятия решений, цифровые помощники, которых также разрабатывает и обучает компании «Биорг». Это системы, ставка на которые очень высока в условиях перехода к экономике данных.

Работаем только с юридическими лицами

Работаем только с юридическими лицами.

    На указанный вами email мы автоматически пришлем презентацию.

    Работаем только с юридическими лицами.

    Вся информация по трудоустройству на странице "Вакансии"

    Ошибка: Контактная форма не найдена.

    Ошибка: Контактная форма не найдена.