From Features to Actions: Explainability in Traditional and Agentic AI Systems

Each language version is independently generated for its own context, not a direct translation.

Imagina que la Inteligencia Artificial (IA) ha estado cambiando su forma de trabajar. Durante mucho tiempo, las IAs funcionaban como máquinas de café automáticas: tú metes un grano (la entrada), presionas un botón, y sale una taza de café (la salida). Si el café sale amargo, los expertos en "explicabilidad" (XAI) miraban el grano para decirte: "Ah, el problema es que este grano era muy viejo".

Pero ahora, las IAs han evolucionado hacia agentes autónomos, que son más como chefs en una cocina profesional. Un chef no solo hace una cosa; sigue una receta compleja: corta verduras, calienta la sartén, añade sal, prueba la salsa, y si algo sale mal, intenta arreglarlo antes de servir el plato. Si el plato final está quemado, no basta con decir "la harina era mala". Hay que mirar toda la historia: ¿Se olvidó el chef de bajar el fuego? ¿Usó la sartén equivocada? ¿Se distrajo y dejó que el agua hirviera demasiado?

Este artículo, titulado "De Características a Acciones: Explicabilidad en Sistemas de IA Tradicionales y Agénticos", explica por qué las herramientas antiguas para entender a las IAs ya no funcionan para los nuevos "chefs" (agentes) y qué necesitamos en su lugar.

Aquí tienes los puntos clave explicados con analogías sencillas:

1. El Problema: La vieja lupa no sirve para el laberinto

Antiguamente, para explicar una IA, usábamos métodos como SHAP o LIME. Imagina que son una lupa que te dice qué palabras de un texto fueron las más importantes para que la IA tomara una decisión.

Funciona bien en lo estático: Si la IA solo tiene que clasificar un correo como "spam" o "no spam", la lupa funciona perfecto. Te dice qué palabras activaron la alarma.
Fallan en lo dinámico: Cuando la IA es un agente que toma decisiones paso a paso (como reservar un vuelo o navegar por internet), la lupa se queda corta. No puede decirte por qué el agente se equivocó en el paso 3, ni cómo ese error arruinó el paso 10. Es como intentar entender por qué un coche se salió de la carretera mirando solo el volante, sin ver el mapa, el estado de la carretera o las decisiones anteriores del conductor.

2. La Solución: El "Cinta de Video" (Trace-Based)

Los autores proponen que, para entender a los agentes, no necesitamos una lupa, sino una cinta de video completa de todo lo que hizo el agente.

En lugar de mirar solo la entrada y la salida, miramos la trayectoria: cada pensamiento, cada herramienta que usó, cada error que cometió y cómo intentó arreglarlo.
Imagina que tienes un detective privado que revisa la cinta de video del chef. El detective no solo dice "el plato salió mal", sino que señala: "Aquí, en el minuto 5, el chef usó la sal en lugar de la pimienta, y aunque intentó corregirlo en el minuto 8, ya era tarde".

3. El Hallazgo Sorprendente: La "Inconsistencia de Estado"

El equipo probó sus ideas en dos escenarios:

Escenario A (Estático): Clasificar ofertas de trabajo. Aquí, las herramientas antiguas funcionaron bien y fueron estables.
Escenario B (Agentes): Agentes que intentan reservar vuelos o ayudar en tareas web.

¿Qué descubrieron?
En los agentes, el error más común y peligroso no fue elegir la herramienta equivocada, sino perder el hilo de la historia.

La analogía: Imagina que eres un agente de viajes. El cliente dice: "Quiero volar el lunes". Tú buscas vuelos. Pero en tu "memoria" (estado interno), olvidaste que el cliente también dijo "no quiero escalas". Sigues buscando vuelos con escalas. Al final, el agente falla, pero no porque no supiera buscar, sino porque olvidó mantener la coherencia de lo que sabía.
El estudio encontró que esta "pérdida de memoria" o inconsistencia de estado era 2.7 veces más común en los intentos fallidos y reducía la probabilidad de éxito casi a la mitad.

4. La Nueva Herramienta: El "Paquete Mínimo de Explicación" (MEP)

Para arreglar esto, los autores proponen un nuevo formato de explicación llamado MEP.

Antes: Te daban un gráfico de barras diciendo "la palabra 'gratis' fue importante".
Ahora (MEP): Te dan un paquete que incluye:
1. La explicación: "El agente falló porque olvidó actualizar su memoria".
2. La evidencia: El registro exacto de dónde ocurrió el olvido en la cinta de video.
3. La verificación: Una señal que confirma que la explicación es real y no una invención.

Es como si, en lugar de recibir un informe de "coche averiado", recibieras el manual de reparación, la pieza rota y el video de cómo se rompió.

Conclusión: ¿Por qué importa esto?

Este cambio es vital para el futuro. Si queremos confiar en IAs que toman decisiones por sí mismas (en hospitales, bancos o coches autónomos), no podemos conformarnos con saber qué decisión tomaron. Necesitamos saber cómo llegaron a esa decisión, dónde se desviaron del camino y por qué no pudieron recuperarse.

En resumen:

IA Vieja (Estática): Como un examen de opción múltiple. Si fallas, miras la pregunta.
IA Nueva (Agente): Como un viaje en barco. Si te pierdes, no basta con mirar el mapa final; necesitas revisar el diario de navegación para ver en qué momento el capitán giró mal el timón.

Este artículo nos dice que es hora de dejar de mirar solo el resultado final y empezar a revisar el "diario de viaje" de nuestras IAs para hacerlas más seguras y confiables.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: De las Características a las Acciones: Explicabilidad en Sistemas de IA Tradicionales y Agénticos

1. Planteamiento del Problema

La Inteligencia Artificial Explicable (XAI) ha evolucionado durante la última década centrándose principalmente en la interpretación de predicciones individuales de modelos estáticos. Los métodos tradicionales (como SHAP, LIME y mapas de saliencia) generan explicaciones post-hoc que relacionan entradas con salidas bajo una estructura de decisión fija.

Sin embargo, el panorama de la IA ha cambiado con el surgimiento de sistemas agénticos (especialmente basados en Modelos de Lenguaje Grande o LLMs). A diferencia de los modelos estáticos que realizan una única inferencia, los agentes operan a través de trayectorias multi-paso que involucran secuencias de observaciones, decisiones, invocaciones de herramientas y actualizaciones de estado.

La brecha: Los métodos de explicación tradicionales, diseñados para un mapeo entrada-salida estático, son insuficientes para diagnosticar fallos en agentes donde el éxito o el fracaso depende de la integridad de una secuencia temporal larga.
La pregunta central: ¿Cómo se traducen los enfoques de explicación diseñados para predicciones estáticas a entornos agénticos donde el comportamiento emerge a lo largo del tiempo?

2. Metodología y Marco Teórico

Los autores proponen un marco unificado para comparar la explicabilidad estática y agéntica, introduciendo el concepto de Paquete de Explicación Mínima (MEP - Minimal Explanation Packet).

Distinción de Paradigmas:
- Estático: Explicación basada en atribuciones de características de entrada para una sola predicción ( $y = f(x)$ ).
- Agéntico: Explicación basada en la trayectoria ( $\tau = (s_0, a_0, o_0, \dots, s_T)$ ), donde la unidad de análisis es la secuencia completa de estados, acciones y observaciones.
El Paquete de Explicación Mínima (MEP):
Para cerrar la brecha, proponen que cualquier explicación debe incluir tres componentes:
1. Artefacto de explicación: La interpretación humana (ej. mapa de atribución o resumen de trazas).
2. Evidencia vinculada y contexto de ejecución: Datos que fundamentan el artefacto (ej. trazas de ejecución, logs de herramientas, actualizaciones de estado).
3. Señales de verificación: Indicadores de fiabilidad (ej. estabilidad ante perturbaciones o banderas de cumplimiento de reglas).
Configuración Experimental:
- Entorno Estático: Clasificación binaria de ofertas de trabajo (IT vs. no IT) utilizando modelos TF-IDF + Regresión Logística y Text CNN. Se evalúa la estabilidad de SHAP y LIME.
- Entorno Agéntico: Se utilizan dos benchmarks de agentes de herramientas: TAU-bench Airline (tareas de servicio al cliente con APIs) y AssistantBench (tareas de asistencia web). Se emplean agentes basados en LLM (GPT-4.1, o4-mini).
- Análisis de Trazas: Se utiliza el framework Docent con un juez LLM (GPT-5) para etiquetar automáticamente las trazas de ejecución con una rúbrica de comportamiento (alineación de intención, adherencia al plan, corrección de herramientas, consistencia del estado, recuperación de errores).

3. Contribuciones Clave

Distinción Formal: Establecen una diferencia teórica clara entre la explicabilidad para predictores estáticos y para sistemas agénticos.
Taxonomía Cruzada: Proponen una taxonomía de objetivos y artefactos de explicación, desde atribuciones a nivel de características hasta cuentas a nivel de trayectoria.
Evaluación Empírica: Comparan métodos de atribución (SHAP/LIME) con diagnósticos basados en trazas (rúbricas) en ambos entornos, demostrando que los métodos tradicionales fallan al localizar fallos específicos en trayectorias complejas.
Marco MEP: Introducen el MEP como una unidad estandarizada para empaquetar explicaciones con evidencia y verificación, esencial para la auditoría de agentes.

4. Resultados Principales

En el Entorno Estático:
- Los métodos de atribución (SHAP, LIME) muestran una alta estabilidad y rankings de características consistentes (correlación de Spearman $\rho = 0.86$ ).
- Son efectivos para identificar qué características de entrada impulsan una predicción, pero no capturan la dinámica de decisión temporal.
En el Entorno Agéntico:
- Fallo de los métodos de atribución: Aunque los métodos de atribución pueden identificar correlaciones globales (ej. qué dimensiones de comportamiento se correlacionan con el éxito), no pueden localizar de manera fiable qué restricción específica se violó en una ejecución fallida concreta.
- Éxito de las Rúbricas Basadas en Trazas: La evaluación de rúbricas anclada en las trazas de ejecución logra localizar consistentemente los puntos de ruptura.
  - Hallazgo Crítico: La inconsistencia en el seguimiento del estado (State Tracking Inconsistency) es 2.7 veces más prevalente en ejecuciones fallidas en TAU-bench Airline y reduce la probabilidad de éxito en un 49%.
  - Patrones de Fallo:
    - TAU-bench Airline: Los fallos suelen ser "lentos" y acumulativos, causados por la deriva del estado (state drift) que complica la recuperación.
    - AssistantBench: Los fallos son "rápidos" y decisivos, a menudo causados por una elección incorrecta de herramienta o una desviación del plan en un paso crítico.
Experimento de Puente:
- Al proyectar las trayectorias en vectores de características binarias (basados en las rúbricas) y aplicar SHAP, se obtienen rankings de importancia globales útiles. Sin embargo, esto sigue siendo correlacional y no proporciona diagnósticos causales sobre dónde o cómo falló una ejecución específica.

5. Significado e Impacto

Cambio de Paradigma: El trabajo argumenta que la explicabilidad en IA debe evolucionar de ser un artefacto estático (explicar una predicción) a ser una cuenta estructurada del comportamiento (explicar una trayectoria).
Implicaciones Prácticas: Para despliegues en sectores críticos (salud, finanzas, automatización empresarial), es insuficiente saber qué decidió el agente; es crucial entender por qué falló en un paso específico de la secuencia para poder depurar y auditar el sistema.
Nuevos Requisitos: Se requiere un enfoque de explicabilidad a nivel de trayectoria que incluya:
- Localización de fallos por ejecución.
- Verificación de la fidelidad de la explicación respecto a la ejecución real.
- Integración de logs de herramientas y actualizaciones de estado.
Limitaciones: El estudio se basa en trazas post-hoc y rúbricas definidas previamente, lo que puede ocultar dinámicas de decisión finas y ofrecer conclusiones principalmente correlacionales en lugar de causales.

Conclusión:
El artículo demuestra que las técnicas tradicionales de XAI son inadecuadas para sistemas agénticos autónomos. Para evaluar y diagnosticar el comportamiento de la IA autónoma, es necesario un cambio hacia la explicabilidad a nivel de trayectoria, utilizando artefactos como el MEP que vinculan las explicaciones con la evidencia de ejecución y señales de verificación robustas.

From Features to Actions: Explainability in Traditional and Agentic AI Systems

1. El Problema: La vieja lupa no sirve para el laberinto

2. La Solución: El "Cinta de Video" (Trace-Based)

3. El Hallazgo Sorprendente: La "Inconsistencia de Estado"

4. La Nueva Herramienta: El "Paquete Mínimo de Explicación" (MEP)

Conclusión: ¿Por qué importa esto?

Resumen Técnico: De las Características a las Acciones: Explicabilidad en Sistemas de IA Tradicionales y Agénticos

1. Planteamiento del Problema

2. Metodología y Marco Teórico

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Impacto

Más como este

ReaMIL: Reasoning- and Evidence-Aware Multiple Instance Learning for Whole-Slide Histopathology

Pramana: Fine-Tuning Large Language Models for Epistemic Reasoning through Navya-Nyaya

Operational Noncommutativity in Sequential Metacognitive Judgments

Proximity Measure of Information Object Features for Solving the Problem of Their Identification in Information Systems

ReVEL: Multi-Turn Reflective LLM-Guided Heuristic Evolution via Structured Performance Feedback