Как качественно обучить ИИ и цифровых/диалоговых помощников? Почему чат-боты не понимают нас?

Q: Какие три аспекта важны для качественного обучения чат-бота?

1) Данные — база знаний, созданная на основе реального клиентского опыта: чем больше запросов загружено в систему, тем точнее она работает. 2) Размеченный массив данных — запросы должны быть систематизированы по признакам: например, «как прописаться», «как зарегистрироваться» и «какие документы нужны для регистрации» относятся к одному классу «регистрация». 3) Алгоритмы — точные и вариативные методы для обработки запросов, учитывающие разные сценарии, включая ситуации неопределённости.

Q: Как Tesla и Google используют разметку данных для обучения ИИ?

Tesla использует миллиарды дорожных сцен, миллионы часов и тысячи терабайт данных с радаров автомобилей. Ключевое: реальная разметка делается с участием человека — действия водителя фиксируются и формируют датасеты. Google для переводчика начал с официальных парламентских документов ООН и ЕС, но затем понял, что для передачи сленга и культурных нюансов необходима ручная разметка — для дообучения потребовались миллионы размеченных документов.

Q: Как Биорг помогает создавать и обучать чат-ботов?

Биорг профессионально занимается разметкой датасетов и обучением ИИ с помощью краудсорсинговой модели на базе облачной платформы Beorg Smart Vision. К платформе удалённо подключены тысячи обученных операторов. Они собирают и размечают данные для чат-ботов, анализируют работу ИИ и вносят коррективы. Платформа может быть интегрирована в контакт-центр: если цифровой помощник не справляется, коммуникацию подхватывает оператор. Заказчик платит за результат, а не за лицензии.

Почему ставка на чистые технологии не приносит желаемого результата, когда речь идёт о качественном обучении искусственного интеллекта? Почему чат-боты нас постоянно разочаровывают, когда мы хотим получить ответ на сколь-либо сложный вопрос? Что делать, чтобы избежать казусов в отношениях с ИИ и цифровыми помощниками? Читайте в колонке Георгия Зуева, основателя компании Биорг.

Недавно специалисты из Gartner спрогнозировали, что в 2022 году 70% всех коммуникаций с клиентами в сервисных индустриях будет происходить при помощи ИИ. По оценкам экспертов, уже около 60% коммуникаций бизнеса с клиентами не требуют участия человека. Всё больше банков, телеком-операторов и других сервисных организаций используют ИИ для обработки входящих запросов. Без машинного обучения и цифровых «личностей» вскоре не обойдётся ни один контакт-центр. Однако довести такие коммуникации до совершенства удаётся не всем.

Обучение ИИ и цифровых помощников

Содержание

Почему чат-боты не понимают нас
Почему тупят чат-боты и как это исправить
Как правильно разметить данные для ИИ
Непрерывное обучение в мире машинного обучения
Как создать и обучить чат-бота с помощью краудсорсинга
Часто задаваемые вопросы

Получить консультацию

Почему чат-боты не понимают нас

— Что вы хотите заказать?
— Ничего, хочу узнать, почему мне не доставили мой заказ на Мясную улицу.
— Оформляю мясную пиццу!
— Да нет же! Заказ на Мясную улицу!

Недавно я звонил в один известный банк, чтобы выяснить, можно ли открыть брокерский счёт на несовершеннолетнего ребёнка. В диалоге с роботом и попытках объяснить ему, что мне не нужен обычный счёт или детская карта, было потеряно минут 10. В итоге машина сдалась и переключила меня на оператора.

Почему так произошло? ИИ слышит слово «счёт» и автоматически относит его к правилам открытия счёта. При повторном запросе он вычленяет слово «детский» и находит совпадение — «детская карта». Сценарий по моему запросу просто не был учтён разработчиками нейросети. А в ситуации неопределённости она не смогла принять решение.

Многие пользователи ждут, что чат-бот сможет поддерживать с ними осмысленный диалог. Когда понимают, что это не так — принципиально отказываются общаться с цифровым ассистентом и сразу просят перевести звонок на оператора.

Получить чёткий ответ от робота можно только на стандартный вопрос — например, узнать баланс счёта. Если вопрос звучит иначе, например «почему на моём балансе минус, если я вчера положил на счёт 500 рублей», то с высокой вероятностью бот озвучит либо тот же самый ответ, либо предложит самостоятельно посмотреть баланс в личном кабинете.

Кроме того, ИИ настроен на спокойную и медленную речь, короткие и внятные вопросы. Он плохо справляется с потоком мыслей и фраз. Если он привык, что у него заказывают мясную пиццу, то не поймёт, что ему называют Мясную улицу — и наоборот.

Обсудите вашу задачу со специалистом — это бесплатно

Нужна разметка изображений, текста или другого датасета для обучения ИИ? Свяжитесь с нашим экспертом Евгением Гусарским, чтобы оценить проект.

ЕГ

Евгений Гусарский Менеджер проекта

По телефону +7 (495) 739-92-37

Написать нам

@beorg_sup

Узнать подробнее о разметке данных

Почему тупят чат-боты, на которые потратили миллионы рублей? Как это исправить?

Чтобы ответить на эти вопросы, нужно понять, как бот «думает», распознаёт вопросы пользователей и находит подходящий ответ.

Диалоговые помощники — это софт на основе ИИ, который «понимает» естественный язык и синтезирует речь. Однако сам по себе ИИ не обладает волей, абстрактным мышлением или желанием говорить — он всё это имитирует. Чтобы ответить на вопрос, нейросеть должна получить входящий сигнал, определить ключевые значения, проанализировать тысячи заложенных сценариев, найти совпадения и выбрать правильный сценарий ответа. Всё это возможно только после качественного обучения. Здесь важны три аспекта:

Данные. Информация, с которой предстоит работать системе. База знаний для чат-бота создаётся на основе клиентского опыта. Чем больше клиентских запросов загружено в систему, тем лучше и точнее она будет работать.
Размеченный массив данных. Необходимо не только собрать как можно больше запросов, но и научить систему сортировать их по заранее сформулированным признакам. Так, запросы «как прописаться в новой квартире», «как зарегистрироваться в квартире» и «какие документы нужны для регистрации» должны быть отнесены к единому признаку — «регистрация».
Алгоритмы. Методы для решения поставленной задачи — точные и вариативные одновременно. Некоторые чат-боты запрограммированы искать ответ самостоятельно и не переключать абонента на оператора. А некоторые просят поставить оценку — и если в этот момент возникает новый вопрос, ответить на него уже не смогут.

Как правильно разметить данные для ИИ?

Машина не может автоматически понять естественный человеческий язык. Ей нужен набор данных и контекст в машиночитаемом формате. Это называется разметкой данных, которую проводят вручную или автоматически. Руками — долго, зато результат получается более точный. Автоматическая разметка на выходе даёт не только много ошибок, но и репутационные риски.

Один известный банк обучил своего диалогового помощника на данных, собранных автоматически из открытых источников. В какой-то момент чат-бот не нашёл ответ на вопрос клиента о биометрическом доступе и предложил ему… отрезать себе пальцы.

Если бы люди-операторы провели постмодерацию и проверили данные на токсичность, казуса можно было избежать.

Для этих целей компании привлекают собственных операторов или передают работу на аутсорсинг профильным исполнителям. Чем больше проверок проходит датасет, тем точнее будет впоследствии работать ИИ и тем эффективнее чат-бот сможет обрабатывать запросы клиентов.

Получить консультацию

Непрерывное обучение в мире машинного обучения

Когда чат-бот приступает к работе, его обучение не заканчивается. Чтобы скорректировать ошибки, нужно анализировать обратную связь, отбирать ситуации, где цифровой помощник не справляется, и исправлять ошибки нейросети — добавлять новые массивы данных и прописывать новые сценарии. Нейросеть при помощи подсказок человека обучается с учётом предыдущего опыта. С каждым разом она совершает всё меньше ошибок, но ситуации неопределённости — элементарные для человека и непонятные для машины — всё равно возникают.

Кейс №1: Tesla

Tesla работает над совершенствованием автопилота, используя для обучения нейросети миллиарды сцен, миллионы часов и тысячи терабайт информации, полученных с радаров машин. Это «слепки» конкретных дорожных ситуаций. Процесс автоматизирован, но реальная разметка делается с участием человека: когда человек садится за руль, его действия тщательно фиксируются. На основе полученной информации формируются датасеты для обучения сети. Анализ поступающих с автомобилей данных позволяет постоянно улучшать работу нейросети.

Кейс №2: Google-переводчик

Первоначально Google использовал официальные документы и переводы Европейского Парламента и Парламентской ассамблеи ООН — из-за строгости перевода они подошли для начального обучения. Но уже на втором этапе разработчики поняли: для передачи сленга, культурных особенностей и смысловых нюансов без ручной разметки не обойтись. Через аутсорсинговые компании были собраны исполнители, работавшие над разметкой датасетов. Для дообучения потребовались миллионы размеченных документов — процесс совершенствования системы продолжается постоянно.

Как создать и обучить чат-бота с помощью краудсорсинга

Набирать людей для разметки данных, обучать их, выстраивать систему оплаты и контроля — задача не из простых даже для крупных компаний.

Гораздо проще отдать этот вопрос на подряд. Тем более, что за разметкой датасетов, как правило, стоят более сложные задачи — создание цифровых помощников, цифровых двойников, чат-ботов и т.д.

Компания Биорг профессионально занимается разметкой массивов данных (датасетов) и обучением ИИ, используя краудсорсинговую модель и шэринг специалистов. Вся работа проводится на базе облачной платформы Beorg Smart Vision — собственной разработки компании. К платформе удалённо подключены тысячи операторов, имеющих навыки разметки и верификации данных, в том числе в федеральных проектах, где сложность обработки данных превышает возможности нейросетей.

На базе платформы можно решить вопрос создания чат-ботов: силами собственных операторов компания Биорг собирает информацию и делает подробную разметку. Благодаря «крауду» обеспечиваются скорость и полнота собранных данных. На основе размеченных данных обучают нейросети. Затем снова «включается» биологическая сеть: операторы анализируют работу ИИ и вносят коррективы.

Платформа может быть интегрирована в работу любого контакт-центра: если цифровой помощник не справляется с задачей, коммуникацию с клиентом может «подхватить» любой из обученных операторов.

Ключевое преимущество комбинации искусственных и биологических нейросетей — гарантия качества данных. Операторы верификации нивелируют ошибки нейросетей, параллельно дообучая их. При этом никакого внедрения на стороне заказчика не требуется — к платформе можно подключиться через облако и платить не за лицензии, а за полученный результат.

Получить консультацию

* По данным Gartner

Часто задаваемые вопросы

Почему чат-боты не понимают сложные вопросы?

ИИ не обладает абстрактным мышлением — он имитирует диалог, сопоставляя входящий сигнал с заложенными сценариями. При сложном или нестандартном запросе бот вычленяет ключевые слова и находит ближайшее совпадение из базы, игнорируя контекст. Если сценарий не был предусмотрен разработчиками, система не может принять решение и либо ошибается, либо переключает на оператора.

Какие три аспекта важны для качественного обучения чат-бота?

1) Данные — база знаний на основе реального клиентского опыта: чем больше запросов загружено, тем точнее работает система. 2) Размеченный массив данных — запросы должны быть систематизированы по смысловым признакам. 3) Алгоритмы — точные и вариативные методы обработки запросов, учитывающие разные сценарии, включая ситуации неопределённости.

Зачем нужна ручная разметка данных, если есть автоматическая?

Автоматическая разметка быстра, но даёт много ошибок и несёт репутационные риски. Известный пример: банк обучил чат-бота на автоматически собранных данных из интернета, и бот в ответ на вопрос о биометрическом доступе предложил клиенту «отрезать себе пальцы». Ручная постмодерация и проверка данных на токсичность позволяют избежать подобных казусов. Чем больше проверок проходит датасет, тем точнее работает ИИ.

Заканчивается ли обучение чат-бота после его запуска?

Нет. После запуска необходимо анализировать обратную связь, выявлять случаи, где помощник не справляется, и корректировать ошибки — добавлять новые массивы данных и прописывать новые сценарии. Нейросеть обучается с учётом предыдущего опыта: с каждым разом совершает меньше ошибок, но ситуации неопределённости всё равно возникают и требуют участия человека.

Как Tesla и Google используют разметку данных для обучения ИИ?

Tesla использует миллиарды дорожных сцен и тысячи терабайт данных с радаров автомобилей — реальная разметка делается с участием человека (действия водителя фиксируются и формируют датасеты). Google для переводчика начал с официальных парламентских документов ООН и ЕС, но затем понял, что для передачи сленга и культурных нюансов необходима ручная разметка миллионов документов.

Как Биорг помогает создавать и обучать чат-ботов?

Биорг занимается разметкой датасетов и обучением ИИ с помощью краудсорсинговой модели на базе платформы Beorg Smart Vision. К ней удалённо подключены тысячи обученных операторов, которые размечают данные, анализируют работу ИИ и вносят коррективы. Платформа интегрируется в контакт-центр — если цифровой помощник не справляется, коммуникацию подхватывает оператор. Заказчик платит за результат, а не за лицензии.

Обсудите вашу задачу со специалистом — это бесплатно

ЕГ

Евгений Гусарский Менеджер проекта

По телефону +7 (495) 739-92-37

Написать нам

@beorg_sup

Узнать подробнее о разметке данных

14.12.2021