Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un asistente financiero súper inteligente (un agente de IA) que trabaja en un banco. Su trabajo es tomar decisiones importantes: ¿Debo bloquear esta transacción sospechosa? ¿Es seguro invertir en esta acción? ¿Cómo arreglo este error en los datos?

Ahora, imagina que un inspector del gobierno (un auditor) llega y dice: "Oye, ayer bloqueaste una transferencia de 10.000 dólares. Si le das al botón 'reproducir' con los mismos datos de ayer, ¿volverás a bloquearla exactamente igual?"

Aquí es donde entra el problema que resuelve este paper. La mayoría de estos asistentes inteligentes, aunque sean muy listos, son como artistas abstractos: si les pides que pinten el mismo paisaje dos veces, lo harán de manera diferente cada vez. A veces bloquean la transacción, a veces no, o a veces usan un camino diferente para llegar a la misma conclusión. Para un banco regulado, esto es un desastre: necesitan que la máquina sea una fotocopiadora perfecta, no un pintor creativo.

El autor, Raffi Khatchadourian, presenta una herramienta llamada DFAH (un "arnés de garantía"). Es como un laboratorio de pruebas de choque para estos asistentes.

Los Dos Problemas Principales

El paper descubre dos cosas fascinantes (y un poco preocupantes) sobre cómo funcionan estos robots:

La "Repetibilidad" (Determinismo): ¿Puede el robot hacer exactamente lo mismo dos veces seguidas?
La "Veracidad" (Precisión): ¿Tiene el robot la razón?

La gran revelación del paper:
El autor descubrió que ser repetible y ser preciso no van de la mano. De hecho, a veces son enemigos.

Piensa en un robot pequeño y rígido (como un robot de juguete). Si le pides que camine, siempre camina exactamente igual (100% repetible). Pero si el camino tiene un obstáculo, el robot sigue caminando hacia la pared porque no sabe pensar. Es muy repetible, pero muy tonto (baja precisión).
Por otro lado, tienes un robot humanoide avanzado (un modelo "de vanguardia"). Puede saltar obstáculos, buscar caminos alternativos y tomar decisiones muy inteligentes (alta precisión). Pero, si le pides que repita la misma tarea dos veces, podría saltar por la izquierda la primera vez y por la derecha la segunda. Es inteligente, pero impredecible.

La conclusión clave: No puedes confiar en uno solo. Necesitas medir ambas cosas por separado. Un robot que siempre hace lo mismo pero se equivoca siempre es peligroso. Un robot que acierta a veces pero cambia de opinión cada vez es imposible de auditar.

Las Pruebas (Los "Exámenes")

El autor puso a 7 robots diferentes a trabajar en 3 tareas financieras reales:

Triaje de Cumplimiento: Decidir si una transacción es sospechosa (¿Investigarla o ignorarla?).
Restricciones de Cartera: Decidir si una inversión rompe las reglas del banco.
Errores de Datos: Arreglar datos corruptos en sistemas financieros.

Los robots tuvieron que hacer estas tareas miles de veces. Y aquí está lo que pasó:

Los "Pequeños" (Modelos de 7 a 20 billones de parámetros): Eran como máquinas de escribir. Hacían lo mismo una y otra vez (98-100% repetibles). Pero, a menudo, tomaban la decisión "por defecto" (ej: "investigar todo") sin pensar bien, cometiendo muchos errores.
Los "Gigantes" (Modelos de vanguardia como Claude u Gemini): Eran como detectives creativos. A veces acertaban mucho más, pero su proceso era caótico. A veces usaban 5 herramientas para resolver un problema, y otras veces usaban 3. A veces llegaban a la misma conclusión, pero por caminos totalmente distintos. Esto es malo para un auditor que necesita ver el "video" exacto de lo que pasó.

La Analogía del Chef

Imagina que un banco es un restaurante de lujo y el auditor es el inspector de sanidad.

El Chef Pequeño (Modelo Tier 1): Siempre hace el mismo plato, exactamente igual, con los mismos ingredientes, en el mismo orden. El inspector puede probarlo 10 veces y sabe exactamente qué va a comer. Pero el plato sabe un poco a cartón (baja precisión).
El Chef Estrella (Modelo Frontier): Hace un plato delicioso y complejo. Pero, si le pides que lo haga dos veces, la primera vez pone sal antes que el aceite, y la segunda vez al revés. A veces usa un cuchillo francés, a veces uno italiano. El inspector no puede confiar en que el plato de mañana sea el mismo que el de hoy.

¿Qué hace el paper?
Propone que, para los bancos, la consistencia es más importante que la genialidad cuando se trata de auditorías. Si un sistema no puede repetir su decisión exacta, no debería usarse para tomar decisiones automáticas, sin importar cuán inteligente parezca.

La Solución: "DFAH"

El paper ofrece una caja de herramientas (DFAH) para que los bancos puedan:

Probar si su robot es un "robot de juguete" (repetible) o un "detective creativo" (impredecible).
Medir si el robot está inventando cosas o si realmente está usando los documentos reales para decidir.
Elegir el robot correcto para el trabajo:
- Para tareas de seguridad y auditoría (donde la repetición es ley): Usa los robots pequeños y rígidos (Tier 1). Son aburridos, pero seguros.
- Para tareas de investigación o asesoramiento (donde la creatividad ayuda): Usa los robots grandes, pero con un humano revisando todo antes de actuar.

En Resumen

Este paper nos dice: "No te enamores de la inteligencia de la IA si no puedes confiar en su memoria."

En el mundo financiero, donde un error puede costar millones o llevar a la cárcel, ser predecible es tan importante como ser correcto. El paper nos da el mapa para saber qué tipo de "asistente" contratar para cada trabajo, asegurando que cuando el inspector llegue, el robot pueda decir: "Sí, señor inspector, si me das los mismos datos, haré exactamente lo mismo que hice ayer". Y eso es lo que realmente importa.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Agentes Financieros Reproducibles y el Marco DFAH

1. El Problema: La Brecha de Auditoría en Agentes LLM

En el sector financiero, los agentes de Inteligencia Artificial (IA) basados en Grandes Modelos de Lenguaje (LLM) se están adoptando rápidamente para tareas críticas como el triaje de cumplimiento, el reequilibrio de carteras y la reportabilidad regulatoria. Sin embargo, existe un desafío fundamental para su despliegue en entornos regulados: la falta de reproducibilidad (determinismo).

Cuando un regulador solicita auditar una decisión específica (ej. "¿Por qué se marcó esta transacción?"), el sistema debe ser capaz de reproducir exactamente la misma decisión con las mismas entradas. El artículo identifica dos fallos críticos en los despliegues actuales:

Falta de Determinismo: La mayoría de las implementaciones no devuelven resultados consistentes al repetir la misma consulta, incluso con temperatura cero ( $T=0.0$ ).
Falta de Fidelidad (Faithfulness): Las decisiones a menudo se basan en razonamientos fabricados (alucinaciones) en lugar de en la evidencia recuperada.

La literatura previa sugiere que la precisión y la consistencia podrían estar correlacionadas, pero este estudio demuestra que no lo están, lo que invalida los enfoques de evaluación de una sola métrica.

2. Metodología: El Marco DFAH

Los autores introducen el Determinism-Faithfulness Assurance Harness (DFAH), un marco de evaluación diseñado específicamente para agentes que utilizan herramientas en servicios financieros.

Definiciones Clave

El marco formaliza tres métricas principales:

Determinismo de Decisión: La fracción de ejecuciones que producen la misma decisión final (ej. "investigar", "desestimar").
Determinismo de Traectoria (Firma): La fracción de ejecuciones que siguen la misma secuencia exacta de llamadas a herramientas y argumentos.
Fidelidad Condicionada a la Evidencia: Mide si las decisiones se basan en la evidencia recuperada (artefactos reales) y no en razonamientos generados. Se utiliza una heurística de alineación léxica/semántica para evitar la no-determinismo recursivo de usar otro LLM para juzgar.

Diseño Experimental

Escala: Más de 4,700 ejecuciones de agentes a través de 7 modelos (de 4 proveedores distintos: Anthropic, Google, OpenAI, y modelos locales).
Benchmarks: Se utilizaron 3 conjuntos de datos financieros con etiquetas de verdad fundamental (Ground Truth):
1. Triaje de Cumplimiento: Clasificación de alertas de transacciones (50 casos).
2. Restricciones de Cartera: Validación de operaciones de inversión contra límites regulatorios (50 casos).
3. Excepciones de DataOps: Resolución de errores en pipelines de datos financieros (50 casos).
Condiciones: Todas las pruebas se realizaron con temperatura $T=0.0$ para aislar la variabilidad inherente del modelo.
Escenarios de Estrés: Se evaluaron perturbaciones como reinicios de contenedores, inyección de fallos de calidad de datos y choques de mercado.

3. Contribuciones Principales

Marco DFAH: Definiciones formales y una implementación de código abierto para medir el determinismo de trayectorias y la fidelidad en agentes.
Hallazgo Empírico Crítico: Demostración de que no existe correlación detectable entre el determinismo y la precisión de la tarea ( $r = -0.11$ , $p = 0.63$ ). Un modelo puede ser perfectamente determinista pero inexacto, o preciso pero no determinista.
Evaluación a Gran Escala: Resultados comparativos entre modelos pequeños (7-20B), modelos de nivel medio (Tier 2) y modelos de vanguardia (Frontier).
Caracterización del Compromiso (Trade-off): Identificación de perfiles operativos distintos:
- Modelos pequeños: Alta determinismo, baja precisión (por emparejamiento de patrones rígido).
- Modelos de vanguardia: Precisión variable, determinismo moderado (exploran múltiples rutas de herramientas).
Guía Práctica: Recomendaciones de niveles de modelos y factores de escalado de validación para despliegues críticos de cumplimiento.

4. Resultados Clave

La Correlación Nula

El hallazgo más significativo es que la precisión no predice el determinismo.

Modelos Pequeños (Tier 1, 7-20B): Logran un determinismo casi perfecto (94-100%) en la decisión final, pero con una precisión baja (20-42%). Esto se debe a que tienden a "atraparse" en patrones rígidos (ej. siempre elegir "investigar" en el 76% de los casos de cumplimiento), lo que garantiza la reproducibilidad pero no la corrección.
Modelos de Vanguardia (Frontier, ej. Claude Opus, Gemini): Muestran una precisión más alta y variable, pero un determinismo moderado (50-96%). Exploran rutas de herramientas diversas para llegar a decisiones, lo que introduce variabilidad en la "trayectoria" aunque a veces converjan en la misma decisión final.
Conclusión: Ningún modelo ocupa el cuadrante de "Alta Determinismo + Alta Precisión". Por lo tanto, ambos deben medirse independientemente.

Determinismo vs. Precisión por Tarea

Triaje de Cumplimiento: Los modelos pequeños alcanzaron el 100% de determinismo de decisión, mientras que los modelos Frontier oscilaron entre 68% y 82%.
Restricciones de Cartera: Se observó la mayor divergencia. Un modelo pequeño (Qwen 2.5 7B) tuvo 100% de determinismo pero solo 20% de precisión (decidía "modificar" el 82% de las veces).
Fenómeno "Misma Conclusión, Diferente Razonamiento": Los modelos Frontier a menudo llegaban a la misma decisión final en ejecuciones repetidas, pero a través de secuencias de llamadas a herramientas completamente diferentes. Esto es crítico para la auditoría: la decisión es reproducible, pero la evidencia del proceso (trayectoria) no lo es.

Impacto de la Arquitectura

Los modelos que utilizan una arquitectura "Schema-First" (salidas estructuradas con JSON) mostraron una mejora significativa en el determinismo en comparación con los agentes de razonamiento libre (ReAct), sin sacrificar drásticamente el rendimiento en tareas estructuradas.

5. Significado e Implicaciones para la Industria

Cambio de Paradigma en la Evaluación

El estudio desafía la noción de que un modelo "mejor" (más preciso) es automáticamente más apto para el despliegue. En entornos regulados, la reproducibilidad es un requisito previo para la validación de la precisión. Un modelo con 80% de precisión pero 50% de determinismo es inauditable, ya que su comportamiento no es consistente bajo revisión.

Recomendaciones de Despliegue

Tier 1 (7-20B) + Arquitectura Schema-First: Recomendados para tareas críticas de cumplimiento (AML, reportes regulatorios) donde la auditoría de replay es obligatoria. Se acepta una precisión menor a cambio de la certeza de que el sistema se comportará igual en cada ejecución.
Modelos Frontier: Recomendados solo para flujos de trabajo de asesoramiento con supervisión humana (Human-in-the-Loop), donde la precisión superior justifica el riesgo de variabilidad, y un humano actúa como garante de consistencia.

Alineación Regulatoria

El marco DFAH se alinea con las directrices de la UE (AI Act), la NIST y la supervisión bancaria de EE. UU., que priorizan la consistencia y la auditabilidad sobre las ganancias marginales de precisión que no pueden explicarse o reproducirse.

Conclusión Final

El artículo concluye que para los agentes financieros, la determinismo es una propiedad de "gating" (filtro). Sin un alto nivel de determinismo, las métricas de precisión carecen de validez para la auditoría regulatoria. El marco DFAH proporciona la infraestructura necesaria para medir estas dimensiones por separado, permitiendo a las instituciones tomar decisiones informadas sobre qué modelos y arquitecturas son seguros para su despliegue en producción.

Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents