Разметка или аннотация данных – обязательный этап в процессе разработки модели машинного обучения (ML), в процессе обучения нейросетей решать те или иные задачи.
Машина, в отличие от взрослого образованного человека, не обладает способностью понимать то, что видит. Например, идентифицировать документ как паспорт и распознать паспорт, то есть понять, что написано в полях документа и извлечь данные – это разные процессы.
В процессе разметки данных нужно идентифицировать все необработанные, неизвестные машине, данные и добавить к ним одну или несколько меток. Так задают контекст для обучения ИИ-моделей. После нейросеть учится делать более-менее точные прогнозы. Например, большие языковые модели (GPT) начинают довольно точно предсказывать следующее слово в предложении, на основе чего генерируют тексты.
Разметка данных лежит в основе машинного обучения, включая и такие важные и быстро растущие его направления, как компьютерное зрение и обработка естественного языка (НЛП). Она же, разметка данных, а ещё чаще, нехватка данных, становится бутылочным горлышком в процессе развития большинства ИИ-проектов.
Что может делать ИИ, обученный на правильно размеченных данных?
Содержание
Для обучения ИИ данные должны быть чистыми, без ошибок, структурированными и качественно аннотированными, размеченными. Только такой массив представляет ценность и может стать основой для обучения нейросетей.
Специальные метки позволяют data-аналитикам выделить важные переменные внутри набора данных, а значит, подобрать оптимальные способы, чтобы научить модель предсказывать эти переменные в каждом последующем случае.
Например, в комплекте документов «договор + доверенность», модель учится безошибочно находить ФИО продавца и покупателя, данные доверенных лиц и не путать эту информацию. Метки позволяют провести векторизацию данных, то есть преобразовать их из исходного формата в определённый набор чисел, которые понятны моделям машинного обучения. На основе этих числовых значений машина и учится «прогнозировать», предсказывать или распознавать данные.
Довольно часто для задач по разметке данных требуется участие человека, автоматическая разметка данных, на которую пытались делать ставку, напротив, постепенно доказывает свою неэффективность, т.к. в процессе возникает много неточностей. Участие человека в разметке окрестили методикой human in the loop – HITL — «человек в цикле». Методика HITL основана на интеллектуальном потенциале людей, которые понимают, что и как размечать, чтобы ИИ-модель обучилась максимально корректно. Человек направляет процесс аннотации данных в соответствии с задачами того или иного проекта машинного обучения.
Поскольку довольно часто для корректного обучения машины требуется много размеченных данных, то «аннотаторы» работают через облачные технологии: к примеру, через Яндекс.Толоку. Примеры других платформ, которые превратили разметку данных в большой бизнес: Amazon Mechanical Turk, Remotasks, Labelbox и др. За качественными массивами данных всегда стоит очередь из разработчиков ИИ-решений. Однако важно понимать качество обучения аннотаторов на платформе и умение владельца краудсорсингового ресурса управлять проектами.
В машинном обучении также применяют комбинированные данные для полуконтролируемого обучения. Это снижает потребность в подробной ручной разметке данных и, возможно, обеспечивает большой набор аннотированных данных. Но качество таких решений под вопросом.
Разметка данных — важнейший шаг в разработке высокопроизводительной модели машинного обучения. Хотя процесс выглядит довольно просто, его не всегда одинаково просто реализовать на практике.
Общий минус процесса – его ресурсоёмкость. Хотя бизнес, основанный на анализе правильных данных, может масштабироваться быстрее, цена входа бывает высока. Разметка данных — дорого и доступна преимущественно большим компаниям и государству.
И всё же чистые, точные данные повышают качество, точность работы ИИ-моделей. Итоговая ценность, как правило, оправдывает вложения. Качественно размеченные данные — ключевой фактор в работе рекомендательных систем, принятии решений на основе данных — во всей экономике данных. Например, разметка данных помогает обеспечить более релевантные результаты поиска, более качественные рекомендации на платформах электронной коммерции.
В компьютерном зрении. Это область ИИ, где обучающий массив данных используют для построения модели, которая умеет сегментировать изображения, разбивать их на категории, идентифицировать ключевые точки на изображении и определять, где находятся объекты в пространстве.
Компания Биорг применяет в своих проектах собственную платформу разметки данных, которая позволяет нам обучать модели машинного зрения как на облачных ресурсах, так и в локальных центрах обработки данных. Компьютерное зрение используется во многих отраслях – от энергетики и коммунального хозяйства до производства и автомобилестроения. Мы применяем компьютерное зрение и связанные с ним технологии для распознавания изображений документов.
Обработка естественного языка (NLP). Этот сегмент ИИ-отрасли основан на сочетании лингвистических компетенций (компьютерная лингвистика) с компетенциями в области разработки статистических моделей, машинного и глубокого обучения. Задача — найти и маркировать в тексте важные разделы, распознать имена объектов и оптическое распознавание символов.
NLP массово используют для обнаружения спама, машинного перевода, распознавания речи, обобщений текста. Виртуальные помощники и чат-боты, системы навигации с голосовым управлением также основаны на этой технологии.
На технологиях НЛП основаны системы поддержки принятия решений, цифровые помощники, которых также разрабатывает и обучает компания «Биорг». Это системы, ставка на которые очень высока в условиях перехода к экономике данных.
Разметка данных — это процесс добавления меток (аннотаций) к необработанным данным: изображениям, текстам, аудио. Метки дают машине контекст и позволяют нейросети обучиться распознавать объекты, классифицировать информацию и делать прогнозы.
Без размеченных данных модель машинного обучения не знает «правильного ответа» и не может обучиться с учителем. Качественная разметка — ключевой фактор точности прогнозов, работы рекомендательных систем, распознавания речи и документов.
HITL — методика, при которой человек участвует в процессе аннотации данных: направляет разметку, проверяет качество и исправляет ошибки. Это повышает точность обучения ИИ-модели по сравнению с полностью автоматической разметкой.
Сырые (неразмеченные) данные — просто набор файлов без контекста. Размеченные данные снабжены метками, указывающими на правильный ответ. Именно размеченные данные используются для обучения с учителем, тогда как сырые — для обучения без учителя.
Основные подходы: внутренняя разметка силами сотрудников компании (точно, но дорого), аутсорсинг специализированным командам, краудсорсинг через платформы (Amazon Mechanical Turk, Яндекс.Толока), синтетическая разметка на основе существующих данных и программная маркировка с помощью скриптов.
Разметка данных используется в компьютерном зрении (распознавание документов, медицинская диагностика, автомобилестроение), обработке естественного языка — NLP (машинный перевод, чат-боты, голосовые помощники, антиспам), а также в рекомендательных системах и системах поддержки принятия решений.
Работаем только с юридическими лицами
Работаем только с юридическими лицами.
Работаем только с юридическими лицами.
Ошибка: Контактная форма не найдена.
Ошибка: Контактная форма не найдена.
Ошибка: Контактная форма не найдена.