Arquitectura
HappyRobot es una plataforma de orquestación de IA diseñada específicamente para que los trabajadores de IA funcionen a escala, incluida la interacción de voz en tiempo real. Este artículo ofrece una descripción detallada de la arquitectura subyacente, los modelos de IA integrados y la auditoría de IA. Está pensado para informar a los responsables técnicos que evalúan la resiliencia, la extensibilidad y la solidez operativa de la plataforma a escala empresarial.
Arquitectura de un vistazo
- Infraestructura cloud-native y contenerizada. Todos los servicios en tiempo de ejecución se despliegan en Kubernetes dentro de una red virtual aislada.
- Doble vía de acceso. El tráfico REST/webhook está protegido por un firewall de aplicaciones web y un balanceador de carga; la voz en tiempo real entra a través de una pasarela SIP reforzada. Ambas vías terminan TLS y reenvían únicamente el tráfico validado al clúster.
- División entre sin estado y con estado. Los manejadores de orquestación, lógica de negocio y medios en tiempo real escalan horizontalmente, mientras que los artefactos duraderos (grabaciones de llamadas, transcripciones, analíticas) residen en almacenes de datos cloud gestionados con replicación integrada.
- Observabilidad ante todo. Las métricas, los registros y las trazas se agregan en el clúster y se transmiten a una pila de monitorización central para cobertura SRE 24 × 7.
Interoperabilidad de modelos
- Pipeline conectable. Las etapas de reconocimiento automático de voz, modelo de lenguaje y síntesis de texto a voz se acceden a través de adaptadores ligeros, por lo que los proveedores pueden sustituirse —o insertarse opciones autoalojadas— sin modificar el código de telefonía.
- Diversidad de proveedores. La pila predeterminada utiliza los mejores motores comerciales de su clase, pero la capa de orquestación puede enrutar inquilinos individuales (o incluso llamadas individuales) hacia endpoints alternativos por razones de soberanía de datos o rendimiento.
- Compatibilidad con versiones futuras. Las nuevas capacidades multimodales (p. ej., imagen a texto, Q&A sobre documentos) se registran con el mismo contrato, protegiendo las integraciones descendentes frente a cambios.
- Modelos exclusivos de la plataforma. Para reducir la latencia y mejorar la calidad de voz, HappyRobot ejecuta una serie de modelos propietarios —como TTS mejorado, detección de actividad de voz/fin de turno, filtros de limpieza de audio, etc.— directamente dentro del clúster. Estos activos no se exponen como APIs independientes; permanecen en privado dentro de nuestra plataforma e se invocan de forma transparente a través de la misma capa de adaptadores.
Integración de telefonía
- SIP y SRTP basados en estándares. HappyRobot utiliza SIP estándar sobre TLS para la señalización y protege los medios con SRTP de extremo a extremo, lo que permite una interconexión fluida con operadores de nivel 1, PBX locales y plataformas de voz en la nube.
- Usa tu propio proveedor VoIP. Tanto si el tráfico llega desde Twilio, Telnyx, Vonage, un CLEC regional o un troncal SIP directo, las pasarelas de acceso normalizan la señalización para que el flujo de llamadas posterior nunca cambie.
- Endpoints WebRTC. Además de las redes telefónicas tradicionales, cada bot puede exponerse como un flujo WebRTC seguro, ideal para integrar voz en tiempo real en páginas web o aplicaciones móviles sin necesidad de plugins.
Resiliencia y mecanismos de respaldo

Capacidad de escalado
- Voz. Los nodos con soporte GPU se aprovisionan con margen para cargas de trabajo de audio en tiempo real. Cuando el tráfico aumenta, el autoescalador pone en línea capacidad adicional con la suficiente rapidez como para mantener la latencia conversacional dentro de un rango aceptable y perceptible para el ser humano.
- Mensajería y APIs. Los trabajadores basados en cola se expanden horizontalmente a medida que aumenta el trabajo pendiente o la tasa de solicitudes, mientras que los accesos HTTP escalan bajo demanda para preservar una baja latencia de cola en el tráfico webhook y REST.
- Capacidad de crecimiento futuro. Se está trabajando para reducir los tiempos de aprovisionamiento mediante imágenes precalentadas y para transmitir la tokenización en streaming, lo que permitirá miles de llamadas concurrentes por región sin cambios arquitectónicos.
Resumen de seguridad
- Cifrado en todas partes. TLS 1.3 se aplica en todos los accesos públicos (REST, webhooks, SIP-TLS) y en cualquier llamada saliente hacia endpoints de modelos externos.
- Gestión de identidad y acceso. SSO basado en OAuth, aplicación de MFA, RBAC detallado tanto para usuarios como para credenciales de máquinas.
- Monitorización continua. Los feeds de detección de amenazas, las alertas de anomalías y las auditorías de políticas impulsan un flujo de respuesta ante incidentes alineado con los controles SOC-2.
Modelos de IA
Una lista no exhaustiva de los modelos utilizados en la plataforma de orquestación y la pila de voz de HappyRobot: algunos modelos se usan tal cual y otros han requerido ajuste fino. Optimizamos el rendimiento y aplicamos ajuste fino cuando el modelo estándar no ofrece resultados suficientes.
Modelo de lenguaje grande (LLM)
Un modelo de lenguaje grande (LLM) actúa como motor central de razonamiento: interpreta las entradas, toma decisiones y coordina acciones. Ingiere datos estructurados y no estructurados, y utiliza su comprensión del lenguaje y el contexto para determinar la intención, generar respuestas y activar herramientas. Las herramientas de HappyRobot pueden ser utilizadas por el LLM para realizar una llamada a una API, transferir una llamada, enviar un mensaje o ejecutar código personalizado.
El LLM actúa como capa conectora entre los distintos componentes de IA, lo que permite una orquestación dinámica y contextual sin necesidad de codificar cada regla manualmente.
Evaluamos periódicamente el rendimiento de los LLM en función del coste, la latencia y la calidad de las respuestas. Optimizamos por caso de uso o por «trabajador de IA» qué LLM realiza la tarea de forma más eficaz y eficiente.
Texto a voz (TTS)
La síntesis de texto a voz (TTS) es el proceso de transformar el lenguaje escrito en palabras habladas con entonación, ritmo y claridad naturales. Es más compleja que simplemente dividir las palabras, convertirlas en voz por separado y luego combinarlas. Requiere que el modelo TTS subyacente sea capaz de comprender el contexto del texto y, a partir de ahí, generar el habla que se corresponda con ese contexto de una forma natural y similar a la humana.
Por ejemplo, una pregunta como «¿Ella no fue?» requiere una entonación ascendente, mientras que una afirmación como «Ella no fue.» exige un contorno descendente. Un simple cambio de puntuación puede requerir un cambio en la entonación, y la capacidad de comprender en profundidad el contexto del texto es fundamental para generar un habla natural y similar a la humana.
Gestionar esta variación de forma consistente es uno de los múltiples desafíos actuales del TTS, junto con la pronunciación correcta de entidades complejas como números, la gestión de frases cortas o abruptas sin que suenen cortadas, y el mantenimiento de la fluidez en las transiciones. Son áreas de mejora activa, y tendencias recientes —como la síntesis no autorregresiva— están ayudando a mejorar la velocidad y la estabilidad sin sacrificar la expresividad.
Transcriptor
Un transcriptor es un sistema —normalmente impulsado por reconocimiento automático de voz (ASR)— que convierte el lenguaje hablado en texto escrito. Escucha un flujo de audio y produce una transcripción alineada temporalmente que captura lo que se dijo y, a menudo, cuándo se dijo. Los transcriptores son fundamentales en las interfaces de voz, ya que permiten la búsqueda, el análisis y el procesamiento posterior por parte de modelos de lenguaje o motores de analítica.
La jerga, los acentos, las conversaciones paralelas, los ruidos de fondo, etc., pueden provocar errores en la transcripción, lo que tiene efectos negativos tanto en la conversación en directo como en el procesamiento y análisis posteriores. Estos desafíos suelen ser específicos del sector, y nuestro enfoque en la cadena de suministro nos permite ajustar finamente los transcriptores para superar esos retos.
Para equilibrar velocidad y precisión, utilizamos transcripción en línea para las interacciones en directo y luego mejoramos las transcripciones de forma offline para obtener mayor precisión y consistencia en los flujos de análisis y auditoría.
Fin de turno (EOT)
Un modelo de fin de turno (EOT) es un componente de aprendizaje automático utilizado en sistemas basados en voz para determinar cuándo un hablante ha terminado su turno en una conversación. Analiza señales acústicas (como pausas o descensos de tono), patrones lingüísticos y tiempos para predecir si el usuario ha terminado de hablar. Esto permite que los sistemas de IA respondan con rapidez sin interrumpir ni generar silencios antinaturales. Los modelos EOT son fundamentales en aplicaciones en tiempo real, donde una interacción fluida y similar a la humana es esencial.
El EOT suele pasarse por alto, pero es crucial para la experiencia del usuario y el éxito del despliegue de la IA en el mundo real. Aunque los modelos fundacionales sean cada vez más rápidos, saber cuándo hablar seguirá siendo un desafío. Ajustamos finamente los modelos EOT para gestionar los escenarios del mundo real de nuestros clientes.
Detección de actividad de voz (VAD)
La detección de actividad de voz (VAD) es una técnica de procesamiento de señales utilizada para identificar cuándo hay habla presente en un flujo de audio. Distingue entre segmentos de voz y sin voz, ayudando a los sistemas a ignorar el ruido de fondo, el silencio u otros sonidos que no son habla. El VAD suele ser el primer paso en un pipeline de procesamiento de voz, lo que permite que los componentes posteriores —como los modelos ASR o EOT— se activen únicamente cuando alguien está hablando.
Los modelos VAD siguen teniendo dificultades con entornos ruidosos, habla superpuesta y enunciados cortos o dubitativos, lo que puede dar lugar a detecciones perdidas o falsas. Existe un compromiso inherente entre latencia y precisión: los sistemas en tiempo real necesitan minimizar el retardo, pero las decisiones más rápidas aumentan el riesgo de errores. Combinar VAD con modelos de transcripción y eliminación de ruido mejora la precisión.
Técnicas como el filtrado consciente del idioma y el umbralado dinámico ofrecen caminos prometedores hacia adelante.
Auditoría de IA
Tomamos muy en serio las evaluaciones y la calidad de la comunicación, ya que nuestros clientes nos confían la enorme responsabilidad de contribuir a sus relaciones con los clientes, gestionar datos clave del negocio y llevar a cabo sus operaciones. Cada día, nuestros trabajadores de IA gestionan miles de conversaciones y documentos, y leen y escriben datos en bases de datos.
Aunque también realizamos auditorías manuales, la escala y complejidad de supervisar el comportamiento de los agentes manualmente a gran escala presenta desafíos significativos. Para abordar esto, hemos desarrollado un sistema de auditoría avanzado impulsado por IA que combina modelos de lenguaje grande (LLMs), ML clásico y algoritmos basados en reglas. Este enfoque híbrido permite una detección eficiente y precisa de los problemas clave, garantizando altos estándares de rendimiento y cumplimiento en todas las interacciones a escala.
Impacto en el cliente
Ahorra tiempo en la supervisión manual
En lugar de tener que supervisar cada interacción individual, nuestros clientes pueden confiar en que la calidad de las llamadas y la experiencia del usuario final se monitoriza y reporta de forma continua.
Alertas y reducción del tiempo hasta la resolución
Nuestro objetivo es ofrecer transparencia y resolución rápida para los problemas detectados en entornos de producción en nuestros agentes. Nuestro sistema de auditoría nos ayuda a identificar regresiones de forma proactiva, alertando a nuestros equipos de ingeniería y a los clientes. El sistema de auditoría ayuda a acotar el fallo y a minimizar el tiempo hasta la resolución.
Evaluaciones multimodales
En los sistemas de IA de voz, medir la calidad implica transcripciones, registros del sistema, respuestas de API y, fundamentalmente, la voz en sí misma. Al haber construido nuestra pila de voz desde cero, prestamos especial atención a esa experiencia de voz y auditamos todas las modalidades de datos disponibles para una llamada.
Qué medimos
Nuestro auditor principal es el Auditor Post-Llamada, un sistema que mide la calidad de las llamadas y detecta eventos y características clave de nuestros agentes. Cada uno de ellos está vinculado a los SLA y resultados que nos comprometemos a ofrecer a nuestros clientes. A continuación se muestra una selección no exhaustiva de las métricas y categorías de calidad que nuestro sistema rastrea:
Experiencia de voz
Métricas clave:
- Recuento de interrupciones: Registra las ocasiones en que la IA habla por encima de los clientes, lo que indica un flujo de conversación deficiente y genera experiencias de usuario frustrantes.
- Latencia: Mide el retardo de respuesta entre el habla del cliente y la respuesta de la IA. Una latencia excesiva rompe el ritmo conversacional y hace que las interacciones resulten artificiales.
- Precisión de transcripción: Mide la precisión de la conversión de voz a texto para la entrada del cliente. Una transcripción deficiente da lugar a solicitudes malinterpretadas y respuestas incorrectas.
Participación del usuario y flujo conversacional
Métricas clave:
- Solicitudes de escalado: Registra las ocasiones en que los clientes piden agentes humanos, lo que indica las limitaciones de la IA o insatisfacción. Tasas de escalado elevadas sugieren que la IA no está satisfaciendo las necesidades del cliente de forma efectiva.
- Puntuaciones de sentimiento: Supervisa el estado emocional del cliente a lo largo de la llamada. Un sentimiento en descenso alerta sobre posibles problemas antes de que se conviertan en escalados.
- Ratios de turnos de habla: Supervisa el equilibrio entre el tiempo de habla de la IA y el del cliente. La dominancia de la IA sugiere una escucha deficiente; la dominancia del cliente puede indicar confusión.
Autonomía del agente y colaboración humano-máquina
Métricas clave:
- Tasa de transferencia a humano: Mide la frecuencia de llamadas que requieren intervención humana, lo que indica los límites de capacidad de la IA. Tasas de transferencia elevadas sugieren carencias de entrenamiento o problemas demasiado complejos para el cliente.
- Análisis de motivos de transferencia: Categoriza los motivos de la derivación a un humano para identificar patrones y oportunidades de mejora. Comprender por qué se producen las transferencias ayuda a optimizar el entrenamiento de la IA y sus capacidades.
- Tasa de resolución autónoma: Registra el porcentaje de problemas resueltos sin intervención humana. Una mayor autonomía reduce los costes operativos y mejora la escalabilidad.
- Puntuación de fluidez en la transferencia: Evalúa la calidad del proceso de traspaso a agentes humanos. Las transferencias fluidas mantienen la satisfacción del cliente y la eficiencia operativa.
Precisión de datos y ejecución de herramientas
Métricas clave:
- Precisión en la selección de herramientas: Mide la elección de la herramienta correcta para las necesidades específicas del cliente. Una selección incorrecta de herramientas desperdicia tiempo y puede proporcionar información incorrecta.
- Ejecución de lógica de reintentos: Evalúa el manejo adecuado de errores transitorios o de red con APIs externas. Una buena lógica de reintentos evita que los problemas temporales se conviertan en fallos permanentes.
- Precisión de la información: Garantiza la corrección de los datos recuperados y comunicados a los clientes. La información inexacta daña la confianza y puede tener consecuencias para el negocio.
Eficiencia de las llamadas y resultados de negocio
Métricas clave:
- Duración de las llamadas: Supervisa la duración óptima de la llamada para los distintos tipos de resolución. Las llamadas excesivamente largas indican ineficiencia; las demasiado cortas pueden indicar una resolución incompleta.
- Tiempo para alcanzar las acciones clave: Mide la velocidad con la que se logran los objetivos principales de la llamada, como citas o ventas. Una resolución más rápida mejora la satisfacción del cliente y la eficiencia operativa.
- Tasa de resolución de llamadas: Mide el éxito en la consecución de los objetivos previstos de la llamada. Tasas de resolución bajas indican carencias en el entrenamiento de la IA o problemas en el proceso.
- Tasas de conversión: Registra el éxito en ventas, citas o acciones deseadas del cliente. Vincula directamente el rendimiento de la IA a los resultados de negocio y la generación de ingresos.
Lo que viene en auditoría de IA: ¿quién audita al auditor?
Una tendencia creciente en los sistemas de evaluación de IA, especialmente en los que incorporan modelos de lenguaje grande, es la noción de «¿Quién valida a los validadores?» (véanse los artículos académicos centrados en este tema). Y es una pregunta importante: ¿cómo sabemos que nuestro auditor de IA está detectando correctamente las regresiones en nuestros agentes de IA?
Además, para que un auditor sea verdaderamente útil, debe demostrar tanto una alta exhaustividad (identificar todos los casos en los que hubo regresiones) como una alta precisión (alertar únicamente en aquellos casos en los que efectivamente hubo regresiones), lo que significa que nuestro sistema de auditoría de IA debe tener una puntuación F elevada. Para garantizar que esto sea así, medimos en qué medida nuestro auditor de IA coincide con la auditoría humana en distintos tipos de interacciones de voz.


