sábado, 2 de agosto de 2025

El equipo rojo automatizado: AI Red Teaming Agent en Foundry

 

Antes, hacer red team a un agente de IA era trabajo artesanal. Un humano experto, pensando como atacante, probando payloads, observando comportamiento, iterando. Caro, lento, no escalable.

Microsoft sacó el AI Red Teaming Agent en Foundry para cambiar eso. La promesa: red team automatizado, escalable, repetible. La realidad: útil, no sustituto.

Lo probé en serio este trimestre, contra dos agentes de Copilot Studio que tengo en producción ligera. Voy a contar lo que vi.

The illustration depicts a comparison between a human agent and an AI agent, with the AI agent performing significantly more tasks in less time, highlighting the efficiency and speed of AI.

El contenido generado por IA puede ser incorrecto.

Qué hace

El agente toma tu agente bajo prueba y le tira payloads adversarios desde una librería curada. Cubre prompt injection directa, indirecta, jailbreak, content harms, tool abuse, agent hijack. La librería se actualiza. También permite cargar payloads custom, así que si tienes tu propio dominio (financiero, salud, legal), puedes meter ataques específicos.

Te entrega un reporte: qué payload pasó, qué se bloqueó, qué generó respuestas problemáticas. Métricas, severidades, sugerencias de mitigación.

 

Lo bueno

Velocidad. Mil ataques en una hora. Un humano hace cien en un día bueno. La cobertura amplia es donde brilla. Si tu agente tiene un patrón de fallo conocido, casi seguro lo encuentra.

Repetibilidad. Cada nueva versión de tu agente la pasas por la misma batería. Detectas regresiones. CI/CD para seguridad de IA. Esto es lo que más me cambió: meter el red teaming en el pipeline, no como ejercicio anual.

Integración con Foundry. El reporting fluye al mismo lugar donde llevas el resto de tus pruebas y safety evaluations. Vista única.

Lo no tan bueno

Encuentra ataques conocidos. Brilla menos con ataques nuevos, sutiles, específicos a tu dominio. Si tienes un caso de negocio peculiar, los payloads genéricos no van a detectar todos los caminos. Necesitas un humano experto que escriba payloads específicos a lo tuyo. El agente automatiza lo conocido, no lo creativo.

La interpretación de resultados sigue requiriendo expertise. Reporte que te dice “12 ataques pasaron, 88 bloqueados”. OK. ¿Cuáles son los 12? ¿Cuáles importan más? Eso lo tienes que entender tú o alguien con criterio.

Falsos positivos pasan. A veces el agente clasifica un comportamiento como problemático cuando es esperado en tu caso. La triangulación con un humano es necesaria.

 

The image depicts an AI Red Teaming Agent in a foundry environment, with a blocked attempt at 88% and a successful injection at 12%, including details on payload, library abuse, and mitigation suggestions.

El contenido generado por IA puede ser incorrecto.

Cómo lo uso

Para regresiones: parte del pipeline. Cada cambio de prompt, cada nuevo conector, cada update del modelo, batería completa. Si la baseline empeora, alerta antes de promover a producción.

Para baseline en agentes nuevos: antes de meter un agente nuevo a producción, ejercicio completo. Si pasa los ataques conocidos, listo el primer filtro. Después le sigo con red team manual sobre lo específico de mi dominio.

Para auditoría: el reporte automatizado es excelente evidencia para auditores externos. “Aquí está el resultado de la batería de pruebas adversarias contra cada agente, ejecutada cada N días”. Antes esto era difícil de producir. Ahora es un export.

Lo que me gustaría que tuviera

Más payloads en español. La librería está fuerte en inglés y los modelos modernos transfieren razonablemente, pero los ataques en español tienen sutilezas. Espero que la librería se siga internacionalizando.

Soporte mejor para agentes multi-step complejos. Los ataques que se desarrollan a lo largo de varios turnos, con planificación, son más difíciles de automatizar. Hoy detecta lo turn-by-turn bien, lo multi-turno con menos profundidad.

Integración nativa con MCP. La capacidad de probar agentes que usan MCP servers externos. Esto es un gap. Hoy si tu agente usa MCP, la cobertura del red team baja porque no entiende del todo las superficies extra. Espero ver mejoras en los próximos meses.

The diagram illustrates a Red Teaming Pipeline for Audit Evidence in a CI/CD integrated system, showing metrics and comparisons for agent severity, with automated adversarial reporting and a focus on production agents.

El contenido generado por IA puede ser incorrecto.

 

¿Es suficiente? No. Es parte del programa de seguridad, no el programa entero. Pero es un avance gigante respecto a hace dos años, donde literalmente no existía esta categoría de herramienta.

Si tienes agentes en producción y no estás haciendo red teaming sistemático sobre ellos, es la pieza que más rápido te baja el riesgo. Hazlo ahora.