An LLM Agentic Approach for Legal-Critical Software: A Case Study for Tax Prep Software

Este trabajo presenta un enfoque basado en agentes de IA que utiliza relaciones metamórficas de alto orden para generar pruebas automatizadas y sintetizar código ejecutable a partir de leyes fiscales, demostrando que modelos más pequeños pueden superar a los modelos de vanguardia en la creación de software legalmente crítico y fiable.

Sina Gogani-Khiabani, Ashutosh Trivedi, Diptikalyan Saha, Saeid Tizpaz-Niari

Publicado 2026-03-05
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

Imagina que el código de impuestos de Estados Unidos es un libro de reglas de un juego extremadamente complejo, escrito en un lenguaje tan técnico y lleno de matices que incluso los abogados más expertos a veces se confunden. Ahora, imagina que quieres crear un "videojuego" (un software) que pueda calcular automáticamente cuánto debe pagar cada jugador (cada contribuyente) basándose en esas reglas.

El problema es que si el juego tiene un error, la gente podría perder dinero o el gobierno podría cobrar de más. Tradicionalmente, los programadores humanos intentan traducir esas reglas del "idioma legal" al "idioma de las computadoras", pero es un trabajo propenso a errores, como intentar traducir un poema sin perder su significado.

Aquí es donde entra este paper, que presenta una solución llamada Synedrion.

¿Qué es Synedrion? (El Equipo de Expertos)

En lugar de confiar en un solo "genio" de la Inteligencia Artificial (un modelo de lenguaje grande como GPT-4) para hacer todo el trabajo, los autores crearon un equipo de agentes de IA que trabajan juntos, como si fueran un equipo de desarrollo de software en una oficina real.

Piensa en Synedrion como un taller de reparación de coches de lujo, pero en lugar de mecánicos, tienen expertos de IA con roles muy específicos:

  1. El Traductor Legal (TaxExpertAgent): Este agente es como un abogado senior. Su trabajo es leer el código de impuestos (el libro de reglas) y traducirlo a un lenguaje estructurado y claro (JSON) que la computadora pueda entender perfectamente. No escribe código todavía; solo asegura que las reglas estén claras.
  2. Los Programadores (Coder Agents): Son los mecánicos del taller. Toman las reglas claras del abogado y escriben el código real del software. Hay dos de ellos que se revisan el trabajo mutuamente para asegurarse de que no haya errores tontos.
  3. El Jefe de Calidad (SeniorCoderAgent): Es el supervisor que revisa el trabajo de los mecánicos. Si algo no parece correcto, lo devuelve para que lo corrijan.
  4. El Detective de Errores (MetamorphicAgent): ¡Este es el héroe de la historia! Imagina que tienes un coche nuevo. ¿Cómo sabes si funciona bien si no tienes un manual de respuestas correctas? (En impuestos, a veces es difícil saber exactamente cuánto debe pagar alguien sin hacer el cálculo completo).
    • Este detective no busca la respuesta "correcta" absoluta. En su lugar, busca inconsistencias lógicas.
    • La Analogía de la "Regla de la Justicia": Si dos personas son idénticas, pero una es ciega y la otra no, la ley dice que la persona ciega debe pagar menos impuestos. Si el software hace pagar lo mismo a ambas, el detective grita: "¡Alto! ¡Hay un error!".
    • Pero este detective es aún más inteligente. No solo compara dos personas, sino que compara grupos de personas para ver si las reglas de "cambio" son correctas. Por ejemplo: "Si aumento mis ingresos un poco, mis impuestos suben un poco. Si aumento mis ingresos mucho, mis impuestos deberían subir más (porque hay tramos progresivos)". Si el software hace que los impuestos suban igual sin importar cuánto ganes, el detective lo atrapa.

La Gran Sorpresa: El Pequeño es más fuerte que el Gigante

Lo más fascinante del estudio es lo que descubrieron sobre el tamaño de la Inteligencia Artificial.

  • El Gigante (Modelos grandes como GPT-4 o Claude): Son como estudiantes universitarios brillantes. Cuando les das un problema simple, lo resuelven perfecto. Pero cuando el problema se vuelve muy complejo (como el cálculo de jubilaciones o deducciones raras), se abrumaban, se confundían y cometían errores graves.
  • El Pequeño (Modelos más pequeños como GPT-4o-mini): Son como aprendices de mecánico muy enfocados. Por sí solos, fallaban mucho.
  • La Magia del Equipo: Cuando pusieron al "aprendiz pequeño" dentro del equipo Synedrion (con el abogado, el supervisor y el detective), ¡el pequeño empezó a funcionar mejor que el estudiante universitario trabajando solo!

¿Por qué? Porque el equipo divide el trabajo. El abogado pequeño entiende las reglas, el detective pequeño encuentra los errores lógicos, y el supervisor corrige el camino. El equipo compensa las debilidades individuales.

El Problema del "Oráculo" (¿Cómo sabemos si es correcto?)

En el mundo de los impuestos, a veces no hay una "respuesta correcta" obvia para probar si el software funciona (esto se llama el "problema del oráculo"). Es como intentar adivinar si un coche de carreras es rápido sin tener un cronómetro.

El paper propone usar Pruebas Metamórficas.

  • Analogía: Imagina que no sabes cuánto debe costar un pastel. Pero sabes que si pones más huevos, el pastel debe ser más grande. Si pones más huevos y el pastel se hace más pequeño, sabes que algo está mal, aunque no sepas el precio exacto.
  • El sistema de Synedrion genera miles de estos "escenarios de huevos" (comparaciones entre contribuyentes similares) para asegurar que el software se comporte de manera lógica y justa, incluso sin conocer la respuesta final exacta.

Conclusión: ¿Por qué importa esto?

Este trabajo nos enseña que para crear software crítico (donde un error puede costar dinero o libertad), no necesitamos necesariamente la IA más grande y cara del mundo. Necesitamos un buen equipo.

Al combinar la capacidad de entender el lenguaje legal, la habilidad de programar y la disciplina de buscar errores lógicos (como un detective), podemos crear software de impuestos (y de leyes en general) que sea más seguro, más barato y más confiable.

Es como decir: "No necesitas un solo genio que lo sepa todo; necesitas un equipo bien organizado donde cada uno hace su parte y se vigila mutuamente". Y lo mejor de todo, ese equipo puede estar formado por "aprendices" (modelos pequeños) que, trabajando juntos, superan a los "genios" solitarios.