Agentes Adversariales

Agentes de IA que garantizan que tu agente está preparado para enfrentarse a inputs hostiles, manipuladores y fuera del guion en producción.

Solicitar una demo

¿Qué son los agentes adversariales?

Los agentes adversariales son usuarios simulados impulsados por IA que intentan activamente romper tu agente simulando llamadas hostiles, manipuladoras y fuera del guion. Todo agente desplegado en un entorno real acabará encontrándose con algún interlocutor que se resiste, pone a prueba los límites o intenta subvertir deliberadamente la interacción. Los agentes adversariales simulan esa presión en una sesión en entorno aislado antes de que llegue a producción.

Más información sobre Governance

Configurar una prueba adversarial

Define el agente atacante

Escribe un prompt adversarial que especifique la persona, los objetivos y la estrategia de ataque del usuario simulado: inyección de prompts, desvío de temas, extracción de datos, manipulación y mucho más.

Ejecutar una sesión en entorno aislado

El sistema crea una conversación en vivo entre dos agentes: tu agente real frente al atacante simulado. Ambos conversan en tiempo real sin ningún impacto en clientes reales ni en datos en producción.

Evaluar frente a los northstars

Cuando finaliza la sesión, se ejecuta una auditoría de comportamiento completa frente a cada northstar. Los resultados muestran qué reglas se mantuvieron o se incumplieron bajo presión, con indicadores de éxito/fallo y sugerencias de corrección.

O ejecuta una suite de pruebas adversariales completa

Para una cobertura exhaustiva, puedes agrupar múltiples pruebas adversariales en una suite. Proporciona un prompt que describa los escenarios de ataque a cubrir, establece un número y el sistema genera automáticamente un conjunto diverso de escenarios. Ejecuta la suite y realiza un seguimiento de las tasas de éxito/fallo en cada prueba con un visor de progreso en tiempo real. Los resultados incluyen un visor de conversaciones en vivo, un gráfico de cobertura con los diferentes caminos de prueba, y un desglose de auditoría por northstar con sugerencias de corrección.

Los agentes adversariales son una parte de un marco de pruebas previas al despliegue más amplio en HappyRobot. Haz clic a continuación para saber más sobre cómo HappyRobot gobierna el comportamiento de los agentes desde la primera prueba hasta la producción.

Conoce HappyRobot Governance

Poniendo agentes a trabajar en entornos complejos

Solicitar una demo