Краудсорсинг в мире ИИ: почему технология зависит от ручного труда?

23.05.2024

В мире искусственного интеллекта много ручного труда: люди размечают данные, обучают нейросети, контролируют результаты обучения и вносят корректировки. Для подобных задач применяют краудсорсинговые ресурсы, где работают десятки тысяч человек. Почему в сфере ИИ на самом деле нельзя обойтись без людей, разобрался генеральный, директор компании «Биорг«,  Руслан Алигаджиев

Люди обучают и контролируют результаты работы ИИ, чтобы получить уверенность в качестве автоматизации даже типовых процессов, таких как распознавание паспорта. Разметтка, верификация и обучение важны для непрерывных улучшений в ИИ-моделях. Однако есть компании, которые злоупотребляют человеческим фактором.

Бесплатный доступ к оцифровке

Слишком человеческое

Стартапы периодически уличают в обмане. В основе бизнес-модели оказывается не уникальная технология или работа ИИ, а ручной труд или работа подрядчиков.

В 2023 году разоблачили компанию Presto Automation Inc. Вместо ИИ заказы в ресторанах преимущественно обрабатывали удаленные сотрудники.

Amy Ingram — ИИ-помощник от стартапа X.ai, какзалось бы, выполнял рутинные задачи по планированию встреч и отправке имейл-уведомлений. Но каждое сообщение вместо ИИ писали люди.

В 2020 году «посыпался» финтех-стартап ScaleFactor, который привлек более $100 млн инвестиций. Компания автоматизировала бухгалтерию для малого и среднего бизнеса. Вместо ИИ работу выполняла «армия» наемных бухгалтеров в Техасе и на Филиппинах.

Engineer.ai, разрабатывавший ИИ-платформу для генерации приложений, привлекал для написания кода людей.

Почему же так получается? Ответ простой: люди, действительно, играют важную роль в ИИ-индустрии, просто иногда их участие замалчивается.

Ещё в 2019 году венчурная компания MMC выяснила, что около 40% европейских ИИ-стартапов не используют ИИ.

Люди для ИИ

ИИ часто восприимают, как «волшебную палочку», не понимают реальных возможностей и ограничений технологии.

ИИ хорош для типовых алгоритмизированных задач. Так, в области распознавания документов (OCR) нейросети хорошо справляются со стандартными формами. Проблемы начинаются, когда форма нестандартная, текст рукописный, изображение документа не идеальное, и т. д.

На фоне мифов о всемогуществе ИИ, страшилок о том, что машины отнимут работу у 40–60% специалистов, мы часто забываем, в какой степени разработанные ИИ-продукты тесно связаны с людьми. В течение многих лет компании пытались сократить расходы, автоматизировать кол-центры, предлагая клиентам общаться с ботами. Однако мы по-прежнему видим (или слышим) фразу «перевожу на оператора», когда общение даже слегка выходит за рамки сценария бота.

Не существует совершенных алгоритмов машинного обучения. Чтобы решать прикладные задачи и компенсировать недостатки нейросетей технологические компании нанимают людей. Их называют ИИ-тренерами, операторами, разметчиками или верификаторами данных. В зависимости от задач, работа на такой позиции требует разного рода квалификации.

Верификатор вручную исправляет данные, которые нейросеть распознала плохо. Так он обучает ее работать лучше. Методику называют human-in-the-loop (HITL) — «человек в цикле машинного обучение». Это абсолютно нормальный вариант, если речь идет о качественной разметке и проверке данных.

Tesla держит открытыми вакансии для модераторов данных. Amazon тренирует нейросети на базе крауд-платформы Amazon Mechanical Turk.

Google разрабатывает решения для оцифровки документов (Documents AI) и применяет в процессе распознавания верификацию силами людей.

Компания открыто рассказывает об этом процессе.

Rutube использует похожую методику проверки контента: ИИ присылает модератору на утверждение сомнительные моменты, которые находит в видео.

Бесплатный доступ к оцифровке

Бизнес в стиле HITL

HITL — это процесс последовательной (итеративной) обратной связи, которую человек или команда людей дают обученной модели искусственного интеллекта.

Непрерывная обратная связь улучшает способность модели распознавать данные, по аналогии с тем, как родители направляют развитие ребенка, объясняя, что кошки говорят «мяу», а собаки — «гав».

Термин также применяют для процесса разметки данных для обучения ИИ. HITL-разметка стала очень востребованной с ростом популярности машинного обучения, где основная проблема до сих пор — отсутствие качественных данных.

Для обучения ИИ нужно разметить много данных. Нагрузку перекладывают на краудсорсинговые платформы, где одновременно работают десятки тысяч человек.

В 2016 году Александр Ван основал компанию Scale AI. Стартап занялся разметкой данных в интересах разработчиков ИИ-решений. За услугами Scale AI в очередь выстроились производители беспилотных автомобилей, систем распознавания изображений и текста, сервисы видеоанализа и даже госструктуры. В числе заказчиков — Tesla, Open AI и его канадский конкурент Cohere — компания на пороге миллиардных инвестиций. В 2021 году инвесторы оценивали бизнес Scale AI в $7,3 млрд. В Remotasks (дочерняя компания Scale AI), которая занимается разметкой данных, работают около 240 тыс. человек.

Однако процессы HITL могут быть не очень быстрыми и ресурсоемкими. Люди могут ошибаться. Если человеческая ошибка останется незамеченной, это может отрицательно повлиять на производительность и результаты модели.

В 2020 году издание The Intercept рассказало, как сотрудники из исследовательского подразделения Amazon получили доступ к видеоконтенту с устройств для умного дома компании Ring, подконтрольной Amazon. Инженеры должны были контролировать недочеты ПО для умного дома. В теории они могли наблюдать за частной жизнью пользователей. Проблема оказалась в том, что в цифровом хранилище Amazon отсутствовало шифрование данных. Информацию можно было соотнести с конкретными людьми.

ИИ и краудсорсинг — прочная связка

Люди обучают и контролируют результаты работы ИИ, чтобы получить уверенность в качестве автоматизации даже типовых процессов, таких как распознавание паспорта. Верификация и обучение важны для непрерывных улучшений в ИИ-моделях на производстве, транспорте, в сфере безопасности, медицины, в сфере обработки данных и распознавания документов в широком смысле.

Есть проекты, где применять ИИ трудно или нецелесообразно в связи с очень сложными для распознавания видами данных. Тем не менее, такие данные оцифровывать необхоимо, так как они важны в контексте развития территорий и принятий управленческих решений. Это могут быть ведомственные географические планшетные карты. Пример задачи — разметить сельхозугодья в регионах РФ. На помощь вновь приходит краудсорсинг. Его преимущество в данном случае — возможность подключать специалистов из разных регионов и часовых поясов. За счет этого скорость работы возрастает в два раза.

Полную версию материала читайте на сайте издания Inc.

Работаем только с юридическими лицами

Работаем только с юридическими лицами.

    На указанный вами email мы автоматически пришлем презентацию.

    Работаем только с юридическими лицами.

    Вся информация по трудоустройству на странице "Вакансии"

    Ошибка: Контактная форма не найдена.

    Ошибка: Контактная форма не найдена.