Stack de voz propietario para conversaciones de apariencia humana

Un pipeline de voz diseñado específicamente para afrontar la imprevisibilidad de las llamadas empresariales reales

Por qué la IA de voz de HappyRobot es diferente

La mayoría de las IAs de voz se construyen para condiciones controladas. La telefonía empresarial no lo es: las personas que llaman tienen acentos, ruido de fondo, terminología específica del sector y ninguna tolerancia a respuestas robóticas o pausas incómodas. El pipeline de voz de HappyRobot es un stack de 10 modelos donde cada componente está ajustado específicamente para la telefonía en directo a escala empresarial, no adaptado desde un producto de consumo de uso general.

Why HappyRobots voice AI is different
la capa de conversación

El ida y vuelta de una llamada real sin romper el flujo

Detección de fin de turno

Saber cuándo una persona ha terminado de hablar frente a cuándo hace una pausa a mitad del pensamiento, busca una palabra o se va apagando, es un problema difícil en la IA de voz. Un modelo dedicado de fin de turno garantiza que el agente no intervenga demasiado pronto ni espere demasiado, logrando un ritmo de conversación natural.

Gestión de muletillas e interrupciones

No todos los sonidos durante una llamada son interrupciones. Cuando alguien dice «eh» o «umm» a mitad de una frase, está pensando, no cediendo la palabra. Un modelo dedicado distingue las muletillas de las interrupciones genuinas para que el agente no reaccione ante cualquier ruido.

Detección de actividad de voz

El ruido de fondo, la música en espera y el sonido ambiente en los entornos de call center pueden generar falsos positivos en los sistemas básicos de detección de voz. Nuestro modelo de VAD está entrenado para aislar el habla real de todo lo demás que ocurre en una llamada en directo, de modo que el agente se centre en lo que dice la persona.

Back and forth of a real call without breaking flow
la capa de transcripción

Precisión en las palabras que más importan: todo lo que los modelos genéricos distorsionan

Transcripción con múltiples proveedores y conmutación automática por error

Los proveedores de transcripción en paralelo se ejecutan de forma simultánea con conmutación automática por error: si uno se degrada por cualquier motivo, el pipeline cambia al instante sin que la persona lo note ni se interrumpa la conversación.

Precisión en números y datos de referencia

Los modelos genéricos malinterpretan habitualmente secuencias de dígitos presentes en números de pedido, IDs de seguimiento, números de teléfono y referencias de cuenta. El stack de transcripción está específicamente ajustado para la precisión numérica en contextos empresariales donde un solo dígito mal escuchado rompe una consulta posterior.

Potenciación de palabras clave

Los términos específicos del sector, como códigos de producto, nombres de transportistas o jerga del sector, obtienen sistemáticamente un rendimiento inferior en los modelos de transcripción generales. La potenciación de palabras clave prepara la capa de transcripción para el vocabulario específico que utiliza tu operación, de modo que los términos más relevantes para tus flujos de trabajo se capturen con mayor precisión.

LA CAPA DE SÍNTESIS DE VOZ

Cómo suena el agente y por qué importa en las llamadas empresariales

Text-to-Speech (TTS) ajustado para el mundo real

La síntesis de voz en un entorno de llamadas en directo tiene requisitos diferentes a los de un pódcast o un altavoz inteligente. La pronunciación de números, fechas, abreviaturas y términos específicos del sector debe ser coherente y correcta. Nuestro modelo de TTS está ajustado para la entrega telefónica, no adaptado desde un producto de síntesis de voz de uso general.

Coincidencia de voz entre proveedores

Cuando se produce un cambio de proveedor a mitad de la llamada por conmutación por error o enrutamiento, las características de voz se preservan para que la persona no perciba ningún cambio en cómo suena el agente. La coherencia se mantiene a nivel de la persona, no solo a nivel del texto.

Más de 30 idiomas con calidad de voz equivalente

El soporte multilingüe no es solo traducción. Cada despliegue de idioma mantiene la misma calidad de voz, perfil de latencia y comportamiento del modelo de conversación que el idioma principal. Las personas que llaman en cualquier idioma admitido obtienen la misma experiencia, no una alternativa degradada.

Latencia

En voz en directo, la latencia no es una métrica, es algo que las personas perciben. Cada componente del pipeline (transcripción, razonamiento del LLM, síntesis TTS y tránsito de red) está optimizado de forma independiente y medido individualmente. La latencia de extremo a extremo se monitoriza por componente en producción para que cualquier degradación se trace hasta su origen de inmediato, en lugar de manifestarse como una ralentización general.

La IA de voz es una parte de la arquitectura de agentes más amplia de HappyRobot. Haz clic a continuación para obtener más información sobre cómo se construyen y despliegan los agentes de HappyRobot.

Poniendo agentes a trabajar en entornos complejos