FinRule-Bench: A Benchmark for Joint Reasoning over Financial Tables and Principles

El artículo presenta FinRule-Bench, un nuevo benchmark diseñado para evaluar la capacidad de los modelos de lenguaje grandes para auditar estados financieros reales y diagnosticar violaciones de principios contables mediante tareas de verificación, identificación y diagnóstico conjunto de reglas.

Arun Vignesh Malarkkan, Manan Roy Choudhury, Guangwei Zhang, Vivek Gupta, Qingyun Wang, Yanjie Fu, Denghui Zhang

Publicado Fri, 13 Ma
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que las empresas son como cocinas gigantes y sus estados financieros (como el Balance General o el Estado de Resultados) son los menús que le muestran a los clientes (inversores y reguladores) qué ingredientes tienen y cómo los mezclaron.

Para que un menú sea válido, debe seguir reglas estrictas: "Si pones 2 huevos y 1 taza de harina, el pastel debe pesar exactamente X gramos". Si el menú dice que pesa Y, hay un error.

Hasta ahora, las Inteligencias Artificiales (IA) eran excelentes para leer esos menús y responder preguntas como "¿Cuánto cuesta el pastel?". Pero nadie había probado si podían auditar el menú: es decir, si podían revisar si las reglas de cocina se estaban cumpliendo y, si había un error, decir exactamente dónde estaba y qué regla se rompió.

Aquí es donde entra FinRule-Bench, el nuevo "examen de cocina" creado por los autores de este artículo.

¿Qué es FinRule-Bench?

Es un banco de pruebas (un examen) diseñado para ver si las IAs modernas pueden actuar como auditores financieros expertos. No se trata de que la IA invente respuestas, sino de que verifique si la información es legal y correcta según las reglas contables.

El examen tiene tres niveles de dificultad, como un videojuego:

  1. Nivel 1: El Inspector de una sola regla (Verificación).

    • La analogía: Le das a la IA una regla simple: "El total de activos debe ser igual a la suma de deudas más patrimonio". Le muestras un menú y le preguntas: "¿Cumple esta regla?".
    • Resultado: Las IAs son muy buenas aquí. Casi siempre dicen "Sí" o "No" correctamente.
  2. Nivel 2: El Detective de reglas (Identificación).

    • La analogía: Ahora le das una lista de 10 reglas posibles. Le muestras un menú que tiene un error, pero no le dices cuál. La IA debe decir: "¡Eh! El error está en la regla número 4, no en la 7".
    • Resultado: Aquí las IAs empiezan a confundirse. A veces adivinan la regla correcta, pero a veces se equivocan entre varias opciones similares.
  3. Nivel 3: El Cirujano de errores (Diagnóstico Conjunto).

    • La analogía: Este es el nivel más difícil. Le das un menú que tiene varios errores a la vez en diferentes páginas. La IA debe encontrar todos los errores, decir exactamente en qué línea están y qué regla se rompió en cada caso.
    • Resultado: ¡Aquí es donde las IAs tropiezan! Aunque detectan que "algo está mal", a menudo no logran encontrar todos los errores o los ponen en el lugar equivocado. Es como si un médico dijera: "Tienes fiebre", pero no supiera si es por una infección en el pulmón o en el estómago.

El Truco: La "Máquina del Tiempo" (Razonamiento Causal)

Los autores probaron una técnica especial llamada razonamiento contrafactual. Imagina que le preguntas a la IA:

  • "¿Por qué este menú es incorrecto?"
  • "¿Qué pasaría si cambiáramos este número por otro? ¿El menú sería correcto?"

Es como darle a la IA una máquina del tiempo para probar escenarios hipotéticos ("¿Qué pasa si el pastel pesara 1 gramo más?").

  • Hallazgo interesante: Esta técnica ayudó mucho a las IAs más pequeñas y rápidas a mejorar. Pero a las IAs más "inteligentes" y complejas, a veces les confundió, como si les dieras demasiadas instrucciones extra cuando ya sabían lo que hacían.

¿Por qué es importante esto?

Imagina que un banco usa una IA para aprobar préstamos. Si la IA solo sabe leer números pero no sabe verificar si las reglas contables se cumplen, podría aprobar un préstamo basado en un menú falso.

Este estudio nos dice que:

  1. Las IAs son buenas calculadoras, pero malas auditoras.
  2. Pueden detectar un error obvio, pero fallan cuando tienen que revisar todo el documento buscando múltiples errores ocultos.
  3. Necesitamos entrenarlas mejor para que no solo "adivinen" la respuesta, sino que entiendan la lógica detrás de las reglas financieras.

En resumen

FinRule-Bench es como un gimnasio de entrenamiento para IAs donde se les enseña a no solo leer los libros de contabilidad, sino a revisarlos con lupa. El mensaje principal es: "Las IAs son geniales, pero aún no son auditores de confianza. Necesitan más práctica para encontrar todos los errores en un documento complejo sin equivocarse".

Los autores han liberado este examen y las herramientas para que otros científicos puedan seguir entrenando a las IAs hasta que sean verdaderos expertos en auditoría financiera.