AILS-NTUA at SemEval-2026 Task 12: Graph-Based Retrieval and Reflective Prompting for Abductive Event Reasoning

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que este artículo es la historia de un equipo de detectives (llamados AILS-NTUA) que ganó un gran concurso de inteligencia artificial. El reto era muy difícil: tenían que adivinar por qué ocurrió un evento específico (como "¿Por qué se despidió el presidente?") basándose en un montón de noticias y documentos, y elegir la mejor explicación entre varias opciones.

Aquí te explico cómo lo hicieron, usando analogías sencillas:

1. El Problema: El "Dedo en la Herida" vs. La "Causa Real"

Imagina que ves un vaso roto en el suelo.

Opción A: "El gato pasó por aquí".
Opción B: "Ayer llovió".
Opción C: "Alguien empujó la mesa".

Una inteligencia artificial (IA) normal a veces se confunde. Puede pensar que "Ayer llovió" es la causa porque es un hecho reciente, aunque no tenga nada que ver con el vaso. O puede elegir solo una causa cuando en realidad fueron dos cosas juntas (el gato y la mesa). El reto era que la IA pensara como un detective humano: encontrar la causa más lógica y directa, incluso si la información está incompleta.

2. La Solución: El Sistema de 3 Pasos

El equipo de AILS-NTUA no usó una sola IA "mágica". Crearon un sistema de tres etapas, como una línea de montaje de detectives:

Paso 1: El Filtro de "Basura" (Búsqueda en Red)

Antes de que la IA lea nada, el sistema tiene que buscar en un océano de documentos.

La analogía: Imagina que tienes que encontrar una aguja en un pajar, pero el pajar está lleno de paja que parece aguja.
Lo que hicieron: En lugar de leer todo el pajar, construyeron un mapa de conexiones (un gráfico). Conectaron los documentos que se parecían entre sí. Si un documento es muy importante, sus "vecinos" también se leen.
El truco: Si un documento está aislado (no tiene vecinos), probablemente sea "ruido" o una distracción. El sistema lo tira a la basura. Así, la IA solo lee lo que realmente importa, ahorrando tiempo y evitando confusiones.

Paso 2: El Detective que "Piensa en Voz Alta" (Razonamiento)

Una vez que tienen los documentos correctos, se los pasan a una IA muy potente (como un modelo de lenguaje avanzado).

La analogía: En lugar de pedirle a la IA que solo diga "La respuesta es A", le obligaron a escribir un cuaderno de notas primero.
Lo que hicieron: Usaron un truco llamado "Prompting Reflexivo". Le dijeron a la IA: "Antes de dar la respuesta, escribe por qué cada opción es buena o mala".
El resultado: Esto obliga a la IA a no saltar a conclusiones. Tiene que justificar su elección, como un estudiante que debe mostrar sus cálculos en un examen. Además, usaron un sistema que genera varias respuestas y elige la que la mayoría de las "versiones" de la IA coincide (votación mayoritaria).

Paso 3: El Inspector de Calidad (Corrección Final)

A veces, incluso los mejores detectives cometen errores tontos, como elegir dos opciones que se contradicen.

La analogía: Imagina que un detective dice: "El asesino es Juan" y al mismo tiempo "El asesino es nadie". ¡Eso es imposible!
Lo que hicieron: Al final del proceso, un pequeño programa automático revisó las respuestas con reglas de lógica estricta.
- Si la IA dijo "Ninguna es correcta" y también eligió una opción, el programa corrigió el error.
- Si dos opciones decían exactamente lo mismo, el programa las trató como una sola.
El efecto: Esta etapa fue la que más puntos les dio. Fue como tener un supervisor que limpia los errores de última hora antes de entregar el trabajo.

3. ¿Qué aprendieron de los errores? (El "Radar de Sesgos")

El equipo analizó por qué otras IAs fallaron y descubrió tres "vicios" o sesgos comunes, como si fueran malos hábitos de pensamiento:

El vicio de la "Cadena Rota": Las IAs a veces ven solo un eslabón de una cadena de eventos.
- Ejemplo: Si la causa real es "Llovió -> El suelo se mojó -> Se resbaló", la IA solo dice "Se resbaló" y olvida la lluvia.
El vicio de lo "Cercano": Prefieren la causa que ocurrió justo antes, aunque no sea la verdadera razón.
- Ejemplo: Si un presidente se va porque hubo una guerra hace 5 años, la IA elige "Hoy hubo una noticia fea" porque es lo más reciente.
El vicio de lo "Dramático": Se fijan en lo que parece más importante o sensacional en las noticias, ignorando causas aburridas pero reales.

4. El Resultado

Gracias a este sistema de filtro inteligente + pensamiento profundo + corrección final, su equipo quedó primero en el concurso con una puntuación de 0.95 sobre 1.00.

En resumen: No usaron una IA más "inteligente" que las demás, sino que construyeron un equipo de trabajo donde una parte filtra el ruido, otra piensa con calma y una tercera revisa la lógica. ¡Es como tener un detective, un psicólogo y un inspector de calidad trabajando juntos!

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: AILS-NTUA en SemEval-2026 Task 12

1. El Problema: Razonamiento Abductivo de Eventos

El trabajo aborda la Tarea 12 de SemEval-2026, centrada en el Razonamiento Abductivo de Eventos. El objetivo es que un Modelo de Lenguaje Grande (LLM) identifique la causa más directa y plausible de un evento del mundo real, basándose en un conjunto de documentos de contexto y una lista de opciones candidatas.

Desafío Principal: A diferencia de la inferencia deductiva, la abducción requiere inferir la mejor explicación a partir de información incompleta e incierta. Los modelos deben discriminar entre relaciones causales verdaderas y meras correlaciones o distracciones.
Configuración: Se presenta un evento, un contexto (documentos) y cuatro opciones de explicación (A, B, C, D). Puede haber múltiples respuestas correctas, o ninguna ("Ninguna de las anteriores").
Limitaciones de los LLMs: Los modelos actuales sufren de sesgos inductivos sistemáticos, como la preferencia por causas inmediatas, la incompletitud de cadenas causales y la selección conservadora de causas (tendencia a elegir una sola causa en lugar de múltiples).

2. Metodología: Un Pipeline de Tres Etapas

El sistema propuesto por AILS-NTUA es un pipeline de tres etapas diseñado para maximizar la precisión y la consistencia lógica:

Etapa 1: Recuperación Basada en Grafos (Filtrado de Distractores)

Construcción del Grafo: Para cada tema, se construye un grafo de similitud de documentos $G = (V, E)$ $G = (V, E)$ . Los nodos son documentos y las aristas representan una similitud híbrida que combina:
- Densidad (Embeddings): Similitud semántica usando Cohere Embed v4.
- Esparsidad (Lexical): Similitud léxica mejorada con BM25+ y un impulso de 3x para entidades nombradas.
- Peso Híbrido: $\alpha = 0.7$ (densa) + $0.3$ (esparza).
Recuperación: En lugar de recuperar documentos aislados, el sistema identifica puntos de entrada (top 3 densos + top 2 esparsos) y realiza una Búsqueda en Anchura (BFS) a través de todo el componente conexo. Esto prioriza la recall (recuperación) para asegurar que no se pierdan eslabones críticos en cadenas causales multihop.
Agregación por Tema: Dado que preguntas del mismo tema comparten contexto, se crea un contexto único a nivel de tema, logrando una tasa de aciertos en caché del 91% y reduciendo costos de inferencia en un 87%.

Etapa 2: Razonador LLM con Prompting Reflexivo

Diseño de Prompt: Se utiliza un formato estructurado en XML que obliga al modelo a realizar un análisis antes de la respuesta (analysis-before-answer). El modelo debe justificar cada opción en un bloque <analysis> antes de seleccionar la respuesta final en <answer>.
Optimización con GEPA: Se emplea el algoritmo GEPA (Reflective Prompt Evolution) a través de DSPy para explorar el espacio de diseño de prompts. En lugar de usar los prompts optimizados directamente (para evitar contaminación de datos), se extraen heurísticas estructurales (ej. priorizar lenguaje causal explícito, manejo de opciones duplicadas) para refinar el prompt manual final.
Auto-consistencia: Se muestrean $k=3$ respuestas con temperatura $\tau=1.0$ y se agregan mediante votación mayoritaria por opción.

Etapa 3: Aplicación de Heurísticas de Consistencia Post-Hoc
Esta es la etapa más crítica para el rendimiento final. Se aplican 8 heurísticas deterministas para corregir violaciones lógicas que el LLM podría cometer:

Exclusividad Mutua de "Ninguna": Si se selecciona "Ninguna de las anteriores", no se pueden seleccionar otras opciones.
Consistencia de Duplicados: Si dos opciones tienen el mismo texto, deben tener la misma verdad (ambas seleccionadas o ambas descartadas).
Propagación Cruzada: Se verifica la consistencia entre preguntas "hermanas" (mismo evento objetivo) para propagar decisiones lógicas.
Cierre de Única Opción: Si tras las correcciones solo queda una opción válida, se fuerza su selección.
Estas heurísticas se aplican iterativamente hasta la convergencia (típicamente 2 iteraciones).

3. Contribuciones Clave

Sistema Ganador: Lograron el primer lugar en el tablero de clasificación de la fase de evaluación con una puntuación de 0.95/1.00.
Análisis de Errores Transversal: Se evaluaron 18 configuraciones de modelos (7 familias) y se identificaron tres sesgos inductivos compartidos que afectan a todos los modelos:
- Incompletitud de la cadena causal: Los modelos eligen un eslabón de una cadena causal y omiten el resto.
- Preferencia por la causa próxima: Seleccionan el antecedente más reciente en lugar de las condiciones habilitantes.
- Sesgo de saliencia: Prefieren causas dramáticas o noticiosas sobre factores contribuyentes sutiles.
Estrategia de Recuperación Híbrida: Demostraron que la recuperación basada en grafos es crucial para filtrar distractores y mantener la coherencia de la narrativa causal, especialmente beneficiosa para modelos más pequeños.
Validación de Heurísticas Deterministas: Probaron que la aplicación de reglas lógicas post-hoc (sin re-entrenamiento) puede corregir errores sistemáticos de los LLMs de manera más efectiva que el ajuste de prompts por sí solo.

4. Resultados

Rendimiento en Prueba (Test Set):
- El mejor modelo individual (Claude Sonnet 4.5 Thinking) alcanzó 0.904 sin heurísticas.
- Tras aplicar las heurísticas de consistencia post-hoc, la puntuación subió a 0.952.
- El ensemble de múltiples modelos (Claude + GPT + Gemini) alcanzó 0.926, pero fue superado por el modelo individual optimizado con heurísticas.
Impacto de las Etapas:
- La recuperación basada en grafos mejoró marginalmente a los modelos fronterizos pero dio un +9 puntos porcentuales a modelos más pequeños (Haiku 3.5).
- La auto-consistencia (votación mayoritaria) aportó mejoras modestas (+1.6 pp).
- Las heurísticas post-hoc aportaron la mayor ganancia individual: +5.6 puntos porcentuales en el conjunto de desarrollo y +4.8 pp en el conjunto de prueba.
Análisis de Sesgos:
- Se observó que los modelos tienden a la sub-selección (elegir menos causas de las correctas) en un 51% de los casos de error, reduciendo la cantidad de causas seleccionadas.
- El acuerdo inter-annotador (Fleiss' $\kappa$ ) entre 14 modelos fue de 0.690, indicando que incluso los modelos más avanzados comparten patrones de fallo similares.

5. Significado e Implicaciones

Este trabajo demuestra que el razonamiento causal abductivo en LLMs no se resuelve únicamente aumentando la capacidad del modelo o el contexto, sino mediante una arquitectura híbrida que combina:

Recuperación estructurada para garantizar la integridad de la evidencia causal.
Prompting reflexivo para guiar el proceso de pensamiento.
Verificación lógica determinista para corregir los sesgos inherentes de los modelos generativos.

El hallazgo más significativo es que los fallos en el razonamiento causal no son aleatorios ni específicos de un modelo, sino sistémicos y compartidos entre diferentes familias de arquitecturas. Esto sugiere que las soluciones futuras para el razonamiento causal deben enfocarse en mecanismos de corrección externa y heurísticas de consistencia, en lugar de depender exclusivamente de la capacidad de inferencia interna de los LLMs. El código del sistema está disponible públicamente en GitHub.