В мире искусственного интеллекта много ручного труда: люди размечают данные, обучают нейросети, контролируют результаты обучения и вносят корректировки. Для подобных задач применяют краудсорсинговые ресурсы, где работают десятки тысяч человек. Почему в сфере ИИ на самом деле нельзя обойтись без людей, разобрался генеральный, директор компании «Биорг«, Руслан Алигаджиев
Люди обучают и контролируют результаты работы ИИ, чтобы получить уверенность в качестве автоматизации даже типовых процессов, таких как распознавание паспорта. Разметтка, верификация и обучение важны для непрерывных улучшений в ИИ-моделях. Однако есть компании, которые злоупотребляют человеческим фактором.
Стартапы периодически уличают в обмане. В основе бизнес-модели оказывается не уникальная технология или работа ИИ, а ручной труд или работа подрядчиков.
В 2023 году разоблачили компанию Presto Automation Inc. Вместо ИИ заказы в ресторанах преимущественно обрабатывали удаленные сотрудники.
Amy Ingram — ИИ-помощник от стартапа X.ai, какзалось бы, выполнял рутинные задачи по планированию встреч и отправке имейл-уведомлений. Но каждое сообщение вместо ИИ писали люди.
В 2020 году «посыпался» финтех-стартап ScaleFactor, который привлек более $100 млн инвестиций. Компания автоматизировала бухгалтерию для малого и среднего бизнеса. Вместо ИИ работу выполняла «армия» наемных бухгалтеров в Техасе и на Филиппинах.
Engineer.ai, разрабатывавший ИИ-платформу для генерации приложений, привлекал для написания кода людей.
Почему же так получается? Ответ простой: люди, действительно, играют важную роль в ИИ-индустрии, просто иногда их участие замалчивается.
Ещё в 2019 году венчурная компания MMC выяснила, что около 40% европейских ИИ-стартапов не используют ИИ.
ИИ часто восприимают, как «волшебную палочку», не понимают реальных возможностей и ограничений технологии.
ИИ хорош для типовых алгоритмизированных задач. Так, в области распознавания документов (OCR) нейросети хорошо справляются со стандартными формами. Проблемы начинаются, когда форма нестандартная, текст рукописный, изображение документа не идеальное, и т. д.
На фоне мифов о всемогуществе ИИ, страшилок о том, что машины отнимут работу у 40–60% специалистов, мы часто забываем, в какой степени разработанные ИИ-продукты тесно связаны с людьми. В течение многих лет компании пытались сократить расходы, автоматизировать кол-центры, предлагая клиентам общаться с ботами. Однако мы по-прежнему видим (или слышим) фразу «перевожу на оператора», когда общение даже слегка выходит за рамки сценария бота.
Не существует совершенных алгоритмов машинного обучения. Чтобы решать прикладные задачи и компенсировать недостатки нейросетей технологические компании нанимают людей. Их называют ИИ-тренерами, операторами, разметчиками или верификаторами данных. В зависимости от задач, работа на такой позиции требует разного рода квалификации.
Верификатор вручную исправляет данные, которые нейросеть распознала плохо. Так он обучает ее работать лучше. Методику называют human-in-the-loop (HITL) — «человек в цикле машинного обучение». Это абсолютно нормальный вариант, если речь идет о качественной разметке и проверке данных.
Tesla держит открытыми вакансии для модераторов данных. Amazon тренирует нейросети на базе крауд-платформы Amazon Mechanical Turk.
Google разрабатывает решения для оцифровки документов (Documents AI) и применяет в процессе распознавания верификацию силами людей.
Компания открыто рассказывает об этом процессе.
Rutube использует похожую методику проверки контента: ИИ присылает модератору на утверждение сомнительные моменты, которые находит в видео.
HITL — это процесс последовательной (итеративной) обратной связи, которую человек или команда людей дают обученной модели искусственного интеллекта.
Непрерывная обратная связь улучшает способность модели распознавать данные, по аналогии с тем, как родители направляют развитие ребенка, объясняя, что кошки говорят «мяу», а собаки — «гав».
Термин также применяют для процесса разметки данных для обучения ИИ. HITL-разметка стала очень востребованной с ростом популярности машинного обучения, где основная проблема до сих пор — отсутствие качественных данных.
Для обучения ИИ нужно разметить много данных. Нагрузку перекладывают на краудсорсинговые платформы, где одновременно работают десятки тысяч человек.
В 2016 году Александр Ван основал компанию Scale AI. Стартап занялся разметкой данных в интересах разработчиков ИИ-решений. За услугами Scale AI в очередь выстроились производители беспилотных автомобилей, систем распознавания изображений и текста, сервисы видеоанализа и даже госструктуры. В числе заказчиков — Tesla, Open AI и его канадский конкурент Cohere — компания на пороге миллиардных инвестиций. В 2021 году инвесторы оценивали бизнес Scale AI в $7,3 млрд. В Remotasks (дочерняя компания Scale AI), которая занимается разметкой данных, работают около 240 тыс. человек.
Однако процессы HITL могут быть не очень быстрыми и ресурсоемкими. Люди могут ошибаться. Если человеческая ошибка останется незамеченной, это может отрицательно повлиять на производительность и результаты модели.
В 2020 году издание The Intercept рассказало, как сотрудники из исследовательского подразделения Amazon получили доступ к видеоконтенту с устройств для умного дома компании Ring, подконтрольной Amazon. Инженеры должны были контролировать недочеты ПО для умного дома. В теории они могли наблюдать за частной жизнью пользователей. Проблема оказалась в том, что в цифровом хранилище Amazon отсутствовало шифрование данных. Информацию можно было соотнести с конкретными людьми.
Люди обучают и контролируют результаты работы ИИ, чтобы получить уверенность в качестве автоматизации даже типовых процессов, таких как распознавание паспорта. Верификация и обучение важны для непрерывных улучшений в ИИ-моделях на производстве, транспорте, в сфере безопасности, медицины, в сфере обработки данных и распознавания документов в широком смысле.
Есть проекты, где применять ИИ трудно или нецелесообразно в связи с очень сложными для распознавания видами данных. Тем не менее, такие данные оцифровывать необхоимо, так как они важны в контексте развития территорий и принятий управленческих решений. Это могут быть ведомственные географические планшетные карты. Пример задачи — разметить сельхозугодья в регионах РФ. На помощь вновь приходит краудсорсинг. Его преимущество в данном случае — возможность подключать специалистов из разных регионов и часовых поясов. За счет этого скорость работы возрастает в два раза.
Полную версию материала читайте на сайте издания Inc.
Работаем только с юридическими лицами
Работаем только с юридическими лицами.
Работаем только с юридическими лицами.
Ошибка: Контактная форма не найдена.
Ошибка: Контактная форма не найдена.