Разметка или аннотация данных – обязательный этап в процессе разработки модели машинного обучения (ML), в процессе обучения нейросетей решать те или иные задачи.
Машина, в отличие от взрослого образованного человека, не обладает способностью понимать то, что видит. Например, идентифицировать документ как паспорт и распознать паспорт, то есть понять, что написано в полях документв и извлечь данные – это разные процессы.
В процессе разметки данных нужно идентифицировать все необработанные, неизвестные машине, данные и добавить к ним одну или несколько меток. Так задают контекст для обучения ИИ-моделей. После нейросеть учится делать более-менее точные прогнозы. Например, большие языковые модели (GPT) начинают довольно точно предсказывать следующее слово в предложении, на основе чего генерируют тексты.
Разметка данных лежит в основе машинного обучения, включая и такие важные и быстро растущие его направления, как компьютерное зрение и обработка естественного языка (НЛП). Она же, разметка данных, а ещё чаще, нехватка данных, становится бутылочным горлышком в процессе развития большинства ИИ-проектов.
Что может делать ИИ, обученные на правильно размеченных данных?
Для обучения ИИ данные должны быть чистыми, без ошибок, структурированными и качественно аннотированными, размечеными. Только такой массив представляет ценность и может стать основой для обучения нейросетей.
Специальные метки позволяют data-аналитикам выделить важные переменные внутри набора данных, а значит, подобрать оптимальные способы, чтобы научить модель предсказывать эти переменные в каждом последующем случае.
Например, в комплекте документов «договор + доверенность», модель учится безошибочно находить ФИО продавца и покупателя, данные доверенных лиц и не путать эту информацию. Метки позволяют провести векторизацию данных, то есть преобразовать их из исходного формата в определенный набор чисел, которые понятны моделям машинного обучения. На основе этих числовых значений машина и учится «прогнозировать», предсказывать или распознавать данные.
Довольно часто для задач по разметке данных требуется участие человека, автоматическая разметка данных, на котороую пытались делать ставку, напротив, постепенно доказывает свою неэффективность, т.к. в процессе возникает много неточностей. Участие человека в разметке окрестили методикой human in the loop – HITL — «человек в цикле». Методика HITL основана на интеллектуальном потенциале людей, которые понимают, что и как размечать, чтобы ИИ-модель обучилась максимально корректно. Человек направляет процесс аннотации данных в соответствии с задачами того или иного проекта машинного обучения.
Поскольку довольно часто для корректного обучения машины требуется много размеченных данных, то «аннотаторы» работают через облачные технологии: к перимеру, через Яндекс.Толоку. Примеры других платформ, которые превратили разметку дыннх в большрй бизнес: Amazon Mechanical Turk, Remotasks, Labelbox и др. За качественными массивами данных всегда стоит очередь из разработчиков ИИ-решений. Однако важно понимать качество обучения аннотаторов на платформе и умение владельца краудсорсингового ресурса управлять проектами.
В машинном обучении также применяют комбинированные данные для полуконтролируемого обучения. Это снижает потребность в подробной ручной разметке данных и, возможно, обеспечивает большой набор аннотированных данных. Но качество таких решений под вопросом.
Разметка данных — важнейший шаг в разработке высокопроизводительной модели машинного обучения. Хотя процесс выглядит довольно просто, его не всегда одинаково просто реализовать на практике.
Общий минус процесса – его ресурсоемкость. Хотя бизнес, основанный на анализе правильных данных, может масштабироваться быстрее, цена входа бывает высока. Разметка данных – дорого и доступна преимущественно большим компаниям и государству.
И все же чистые, точные данные повышают качество, точность работы ИИ-моделей. Итоговая ценность, как правило, оправдывает вложения. Качественно размеченные данные — ключевой фактор в работе рекомендательных систем, принятии решений на основе данных — во всей экономике данных. Например, разметка данных помогает обеспечить более релевантные результаты поиска, более качественные рекомендации на платформах электронной коммерции.
В компьютерном зрении. Это область ИИ, где обучающий массив данных используют для построения модели, которая умеет сегментировать изображения, разбивать их на категории, идентифицировать ключевые точки на изображении и определять, где находятся объекты в пространстве.
Компания Биорг применяет в своих проектах собственную платформу разметки данных, которая позволяет нам обучать модели машинного зрения как на облачных ресурсах, так и в локальных центрах обработки данных. Компьютерное зрение используется во многих отраслях – от энергетики и коммунального хозяйства до производства и автомобилестроения. Мы применяем компьютерное зрения и связанные с ним технологии для распознавания изображений документов.
Обработка естественного языка (NLP). Этот сегмент ИИ-отрасли основан на сочетании лингвистических компетенций (компьютерная лингвистика) с компетенциями в области разработки статистических моделей, машинного и глубокого обучения. Задача — найти и маркировать в тексте важные разделы, распознать имена объектов и оптического распознавания символов.
NLP массово используют для обнаружения спама, машинного перевода, распознавания речи, обобщений текста. Виртуальные помощники и чат-боты, системы навигации с голосовым управлением также основаны на это технологии.
На технологиях НЛП основаны системы поддержки принятия решений, цифровые помощники, которых также разрабатывает и обучает компании «Биорг». Это системы, ставка на которые очень высока в условиях перехода к экономике данных.
Работаем только с юридическими лицами
Работаем только с юридическими лицами.
Работаем только с юридическими лицами.
Ошибка: Контактная форма не найдена.
Ошибка: Контактная форма не найдена.