Почему ставка на чистые технологии не приносит желаемого результата, когда речь идёт о качественном обучении искусственного интеллекта? Почему чат-боты нас постоянно разочаровывают, когда мы хотим получить ответ на сколь-либо сложный вопрос? Что делать, чтобы избежать казусов в отношениях с ИИ и цифровыми помощниками? Читайте в колонке Георгия Зуева, основателя компании Биорг.
Недавно специалисты из Gartner спрогнозировали, что в 2022 году 70% всех коммуникаций с клиентами в сервисных индустриях будет происходить при помощи ИИ. По оценкам экспертов, уже около 60% коммуникаций бизнеса с клиентами не требуют участия человека. Всё больше банков, телеком-операторов и других сервисных организаций используют ИИ для обработки входящих запросов. Без машинного обучения и цифровых «личностей» вскоре не обойдётся ни один контакт-центр. Однако довести такие коммуникации до совершенства удаётся не всем.

Содержание
— Что вы хотите заказать?
— Ничего, хочу узнать, почему мне не доставили мой заказ на Мясную улицу.
— Оформляю мясную пиццу!
— Да нет же! Заказ на Мясную улицу!
Недавно я звонил в один известный банк, чтобы выяснить, можно ли открыть брокерский счёт на несовершеннолетнего ребёнка. В диалоге с роботом и попытках объяснить ему, что мне не нужен обычный счёт или детская карта, было потеряно минут 10. В итоге машина сдалась и переключила меня на оператора.
Почему так произошло? ИИ слышит слово «счёт» и автоматически относит его к правилам открытия счёта. При повторном запросе он вычленяет слово «детский» и находит совпадение — «детская карта». Сценарий по моему запросу просто не был учтён разработчиками нейросети. А в ситуации неопределённости она не смогла принять решение.
Многие пользователи ждут, что чат-бот сможет поддерживать с ними осмысленный диалог. Когда понимают, что это не так — принципиально отказываются общаться с цифровым ассистентом и сразу просят перевести звонок на оператора.
Получить чёткий ответ от робота можно только на стандартный вопрос — например, узнать баланс счёта. Если вопрос звучит иначе, например «почему на моём балансе минус, если я вчера положил на счёт 500 рублей», то с высокой вероятностью бот озвучит либо тот же самый ответ, либо предложит самостоятельно посмотреть баланс в личном кабинете.
Кроме того, ИИ настроен на спокойную и медленную речь, короткие и внятные вопросы. Он плохо справляется с потоком мыслей и фраз. Если он привык, что у него заказывают мясную пиццу, то не поймёт, что ему называют Мясную улицу — и наоборот.
Чтобы ответить на эти вопросы, нужно понять, как бот «думает», распознаёт вопросы пользователей и находит подходящий ответ.
Диалоговые помощники — это софт на основе ИИ, который «понимает» естественный язык и синтезирует речь. Однако сам по себе ИИ не обладает волей, абстрактным мышлением или желанием говорить — он всё это имитирует. Чтобы ответить на вопрос, нейросеть должна получить входящий сигнал, определить ключевые значения, проанализировать тысячи заложенных сценариев, найти совпадения и выбрать правильный сценарий ответа. Всё это возможно только после качественного обучения. Здесь важны три аспекта:
Машина не может автоматически понять естественный человеческий язык. Ей нужен набор данных и контекст в машиночитаемом формате. Это называется разметкой данных, которую проводят вручную или автоматически. Руками — долго, зато результат получается более точный. Автоматическая разметка на выходе даёт не только много ошибок, но и репутационные риски.
Один известный банк обучил своего диалогового помощника на данных, собранных автоматически из открытых источников. В какой-то момент чат-бот не нашёл ответ на вопрос клиента о биометрическом доступе и предложил ему… отрезать себе пальцы.
Если бы люди-операторы провели постмодерацию и проверили данные на токсичность, казуса можно было избежать.
Для этих целей компании привлекают собственных операторов или передают работу на аутсорсинг профильным исполнителям. Чем больше проверок проходит датасет, тем точнее будет впоследствии работать ИИ и тем эффективнее чат-бот сможет обрабатывать запросы клиентов.
Когда чат-бот приступает к работе, его обучение не заканчивается. Чтобы скорректировать ошибки, нужно анализировать обратную связь, отбирать ситуации, где цифровой помощник не справляется, и исправлять ошибки нейросети — добавлять новые массивы данных и прописывать новые сценарии. Нейросеть при помощи подсказок человека обучается с учётом предыдущего опыта. С каждым разом она совершает всё меньше ошибок, но ситуации неопределённости — элементарные для человека и непонятные для машины — всё равно возникают.
Кейс №1: Tesla
Tesla работает над совершенствованием автопилота, используя для обучения нейросети миллиарды сцен, миллионы часов и тысячи терабайт информации, полученных с радаров машин. Это «слепки» конкретных дорожных ситуаций. Процесс автоматизирован, но реальная разметка делается с участием человека: когда человек садится за руль, его действия тщательно фиксируются. На основе полученной информации формируются датасеты для обучения сети. Анализ поступающих с автомобилей данных позволяет постоянно улучшать работу нейросети.
Кейс №2: Google-переводчик
Первоначально Google использовал официальные документы и переводы Европейского Парламента и Парламентской ассамблеи ООН — из-за строгости перевода они подошли для начального обучения. Но уже на втором этапе разработчики поняли: для передачи сленга, культурных особенностей и смысловых нюансов без ручной разметки не обойтись. Через аутсорсинговые компании были собраны исполнители, работавшие над разметкой датасетов. Для дообучения потребовались миллионы размеченных документов — процесс совершенствования системы продолжается постоянно.
Набирать людей для разметки данных, обучать их, выстраивать систему оплаты и контроля — задача не из простых даже для крупных компаний.
Гораздо проще отдать этот вопрос на подряд. Тем более, что за разметкой датасетов, как правило, стоят более сложные задачи — создание цифровых помощников, цифровых двойников, чат-ботов и т.д.
Компания Биорг профессионально занимается разметкой массивов данных (датасетов) и обучением ИИ, используя краудсорсинговую модель и шэринг специалистов. Вся работа проводится на базе облачной платформы Beorg Smart Vision — собственной разработки компании. К платформе удалённо подключены тысячи операторов, имеющих навыки разметки и верификации данных, в том числе в федеральных проектах, где сложность обработки данных превышает возможности нейросетей.
На базе платформы можно решить вопрос создания чат-ботов: силами собственных операторов компания Биорг собирает информацию и делает подробную разметку. Благодаря «крауду» обеспечиваются скорость и полнота собранных данных. На основе размеченных данных обучают нейросети. Затем снова «включается» биологическая сеть: операторы анализируют работу ИИ и вносят коррективы.
Платформа может быть интегрирована в работу любого контакт-центра: если цифровой помощник не справляется с задачей, коммуникацию с клиентом может «подхватить» любой из обученных операторов.
Ключевое преимущество комбинации искусственных и биологических нейросетей — гарантия качества данных. Операторы верификации нивелируют ошибки нейросетей, параллельно дообучая их. При этом никакого внедрения на стороне заказчика не требуется — к платформе можно подключиться через облако и платить не за лицензии, а за полученный результат.
* По данным Gartner
ИИ не обладает абстрактным мышлением — он имитирует диалог, сопоставляя входящий сигнал с заложенными сценариями. При сложном или нестандартном запросе бот вычленяет ключевые слова и находит ближайшее совпадение из базы, игнорируя контекст. Если сценарий не был предусмотрен разработчиками, система не может принять решение и либо ошибается, либо переключает на оператора.
1) Данные — база знаний на основе реального клиентского опыта: чем больше запросов загружено, тем точнее работает система. 2) Размеченный массив данных — запросы должны быть систематизированы по смысловым признакам. 3) Алгоритмы — точные и вариативные методы обработки запросов, учитывающие разные сценарии, включая ситуации неопределённости.
Автоматическая разметка быстра, но даёт много ошибок и несёт репутационные риски. Известный пример: банк обучил чат-бота на автоматически собранных данных из интернета, и бот в ответ на вопрос о биометрическом доступе предложил клиенту «отрезать себе пальцы». Ручная постмодерация и проверка данных на токсичность позволяют избежать подобных казусов. Чем больше проверок проходит датасет, тем точнее работает ИИ.
Нет. После запуска необходимо анализировать обратную связь, выявлять случаи, где помощник не справляется, и корректировать ошибки — добавлять новые массивы данных и прописывать новые сценарии. Нейросеть обучается с учётом предыдущего опыта: с каждым разом совершает меньше ошибок, но ситуации неопределённости всё равно возникают и требуют участия человека.
Tesla использует миллиарды дорожных сцен и тысячи терабайт данных с радаров автомобилей — реальная разметка делается с участием человека (действия водителя фиксируются и формируют датасеты). Google для переводчика начал с официальных парламентских документов ООН и ЕС, но затем понял, что для передачи сленга и культурных нюансов необходима ручная разметка миллионов документов.
Биорг занимается разметкой датасетов и обучением ИИ с помощью краудсорсинговой модели на базе платформы Beorg Smart Vision. К ней удалённо подключены тысячи обученных операторов, которые размечают данные, анализируют работу ИИ и вносят коррективы. Платформа интегрируется в контакт-центр — если цифровой помощник не справляется, коммуникацию подхватывает оператор. Заказчик платит за результат, а не за лицензии.
Работаем только с юридическими лицами
Работаем только с юридическими лицами.
Работаем только с юридическими лицами.
Ошибка: Контактная форма не найдена.
Ошибка: Контактная форма не найдена.
Ошибка: Контактная форма не найдена.