Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас
Генерируя голоса, которые не только человеческие и нюансы, но и разнообразный продолжает быть борьбой в разговорном ИИ.
В конце концов, люди хотят услышать голоса, которые звучат как они, или, по крайней мере, естественны, а не только американский стандарт трансляции 20-го века.
Startup Rime решает эту проблему с помощью Arcana Text-Topleak (TTS), новой модели разговорного языка, которая может быстро генерировать «бесконечные» новые голоса различных полей, возрастов, демографии и языков, основанных на простом текстовом описании предполагаемых характеристик.
Модель помогла увеличить продажи клиентов — для таких, как Domino’s и Wingstop — на 15%.
«Одно дело иметь действительно высококачественную, подобную жизненному, настоящему человеку модели»,-сказала VentureBeat Лили Клиффорд, генеральный директор и соучредитель Rime. «Еще одна — иметь модель, которая может просто создать один голос, а бесконечная изменчивость голосов вдоль демографических линий».
Голосовая модель, которая действует человеку »
Мультимодальная и авторегрессивная модель TTS Rime была обучена естественным разговорам с реальными людьми (в отличие от голосовых актеров). Пользователи просто вводят текстовое краткое описание голоса с желаемыми демографическими характеристиками и языком.
Например: «Я хочу 30 -летнюю женщину, которая живет в Калифорнии и занимается программным обеспечением» или «дайте мне голос австралийского мужчины».

«Каждый раз, когда вы это делаете, вы получите другой голос», — сказал Клиффорд.
Модель Rime Tist V2 TTS была построена для высокодолувых, критически важных приложений, позволяющих предприятиям создавать уникальные голоса для своих бизнеса. «Клиент слышит голос, который допускает естественный динамичный разговор без необходимости человеческого агента», — сказал Клиффорд.
Тем временем для тех, кто ищет необычные варианты, Rime предлагает восемь флагманских динамиков с уникальными характеристиками:
- Луна (женщина, холод, но возбудимый, оптимист Gen-Z)
- Селеста (женщина, теплый, непринужденный, веселый)
- Орион (мужчина, пожилой, афроамериканский, счастливый)
- Урса (мужчина, 20 лет, энциклопедические знания эмо -музыки 2000 -х годов)
- Астра (женщина, молодая, широко раскрытые)
- Эстер (женщина, старшая, китайская американская, любящая)
- Эстель (женщина, средняя, афроамериканская, звучит так мило)
- Андромеда (женщина, молодая, хриплая, йога
Модель обладает способностью переключаться между языками и может шептать, быть саркастическим и даже насмехаться. Аркана также может вставить смех в речь, когда ему дают токен <смех>. Это может вернуть разнообразные, реалистичные результаты, от «маленького смеха до большого гуфта», — говорит Рим. Модель также может интерпретировать
«Это выводит эмоции от контекста», — пишет Райм в технической статье. «Он смеется, вздыхает, гудит, слышно дышит и издает тонкие шумы в рту. Он говорит« ум », и другие дисфуальности естественным образом. В нем есть возникающее поведение, которое мы все еще обнаруживаем. Короче говоря, он действует человеку».
Захват естественных разговоров
Модель Rime генерирует звуковые токены, которые декодированы в речи, используя подход, основанный на кодеке, который, как говорит Рим, обеспечивает «более быстро, чем в реальном синтезе». При запуске время до первого аудио составило 250 миллисекунд, а задержка общественного облака составляла примерно 400 миллисекунд.
Аркана обучалась на три этапа:
- Предварительное обучение: RIME использовал большие языковые модели с открытым исходным кодом (LLMS) в качестве основы и предварительно обученного на большой группе пар текста-аудио.
- Под наблюдением точной настройки с «массивным» проприетарным набором данных.
- Точная настройка, специфичная для динамика: Rime определил динамиков, которые он нашел «наиболее образцовыми» среди своих наборов данных, разговоров и надежности.
Данные Rime включают в себя социолингвистические методы разговора (факторинг в социальном контексте, таких как класс, пол, местоположение), идиосекция (индивидуальные речевые привычки) и паралингвистические нюансы (невербальные аспекты общения, которые идут вместе с речью).
Модель также была обучена акцентным тонкостям, словам наполнителя (эти подсознательные «UHS» и «UMS»), а также паузы, паттерны просодического напряжения (интонация, время, подчеркивание определенных слогов) и многоязычное переключение кода (когда многоязычные колонки переключаются между языками).
Компания приняла уникальный подход к сбору всех этих данных. Клиффорд объяснил, что, как правило, модельные строители будут собирать фрагменты от голосовых актеров, а затем создаст модель для воспроизведения характеристик голоса этого человека на основе текстового ввода. Или они будут соскребить данные аудиокнига.
«Наш подход был совсем другим», — объяснила она. «Это было:« Как мы можем создать крупнейший в мире набор данных о разговорной речи? »
Для этого Rime построил свою собственную студию звукозаписи в подвале в Сан-Франциско и провел несколько месяцев, набирая людей из Craigslist, через слово из уст в уста или просто причинно собравшись, друзей и семьи. Вместо того, чтобы разговоры, они записали естественные разговоры и болтовню.
Затем они аннотировали голоса с подробными метаданными, кодируя пол, возраст, диалект, речь и язык. Это позволило RIME достичь точности от 98 до 100%.
Клиффорд отметил, что они постоянно дополняют этот набор данных.
«Как мы сможем звучать лично? Вы никогда не попадете туда, если вы просто используете голосовые актеры», — сказала она. «Мы сделали безумно тяжелую вещь сбора действительно натуралистических данных. Огромный секретный соус Rime в том, что это не актеры. Это настоящие люди».
«Жгут персонализации», которая создает на заказ голоса
Rime намерен дать клиентам возможность найти голоса, которые будут работать лучше всего для их применения. Они создали инструмент «ремни персонализации», чтобы позволить пользователям проходить A/B -тестирование с различными голосами. После данного взаимодействия API сообщает о Rime, которая предоставляет аналитическую панель, идентифицирующую наиболее эффективные голоса на основе показателей успеха.
Конечно, клиенты имеют разные определения того, что представляет собой успешный вызов. В пищевой службе это может быть увеличением порядок картофеля фри или дополнительных крыльев.
«Цель для нас состоит в том, как мы можем создать приложение, которое позволяет нашим клиентам легко управлять этими экспериментами?», — сказал Клиффорд. «Поскольку наши клиенты не являются директорами голоса, и мы не являемся. Задача — это то, как сделать этот слой аналитики персонализации действительно интуитивно понятным».
Еще один клиент KPI максимизируется, — это готовность звонящего поговорить с ИИ. Они обнаружили, что при переходе на Rime вызывающие абоненты чаще разговаривают с ботом.
«Впервые люди похожи на:« Нет, вам не нужно переводить меня. Я совершенно готов поговорить с вами », — сказал Клиффорд. «Или, когда они переведены, они говорят« спасибо »» (на самом деле 20%, на самом деле, являются сердечными при окончании разговоров с ботом).
Питание 100 миллионов звонков в месяц
Rime считается среди своих клиентов Domino’s, Wingstop, Converse Now и Ylopo. Клиффорд отметил, что они проводят много работы с большими контактными центрами.
«Когда мы перешли на Rime, мы увидели немедленное двузначное улучшение вероятности наших вызовов»,-сказал Акшай Каястха, директор по технике инженерии в Counterenow. «Работа с Rime означает, что мы решаем тонну проблем последней мили, которые возникают при доставке приложения с высоким воздействием».
Ylopo CPO GE Juefeng отметил, что для высокообъединенного приложения его компании им необходимо привести к немедленному доверию с потребителем. «Мы протестировали каждую модель на рынке и обнаружили, что голоса Rime преобразовали клиентов по самым высоким показателям», — сообщил он.
По словам Клиффорда, Rime уже помогает питать около 100 миллионов телефонных звонков в месяц. «Если вы называете Domino’s или Wingstop, есть шанс от 80 до 90%, что вы услышите голос», — сказала она.
Заглядывая в будущее, Rime подтолкнет больше в локальные предложения, чтобы поддержать низкую задержку. Фактически, они ожидают, что к концу 2025 года 90% их объема будет на предме. «Причина этого в том, что вы никогда не будете так быстро, если вы запускаете эти модели в облаке», — сказал Клиффорд.
Кроме того, Rime продолжает настраивать свои модели для решения других языковых проблем. Например, фразы, с которыми модель никогда не сталкивалась, например, «Meatza Extravaganzza». Как отметил Клиффорд, даже если голос персонализирован, естественный и реагирует в режиме реального времени, он потерпит неудачу, если он не сможет удовлетворить уникальные потребности компании.
«Есть еще много проблем, которые наши конкуренты считают проблемами последней мили, но наши клиенты считают проблемы первой мили»,-сказал Клиффорд.
Источник









