AILS-NTUA at SemEval-2026 Task 12: Graph-Based Retrieval and Reflective Prompting for Abductive Event Reasoning

El sistema AILS-NTUA, ganador de la SemEval-2026 Tarea 12 con una precisión del 95 %, combina recuperación basada en grafos, razonamiento abductivo con LLM optimizado mediante evolución de prompts reflexivos y verificación de consistencia, revelando además sesgos inductivos compartidos en el razonamiento causal multietiqueta.

Nikolas Karafyllis, Maria Lymperaiou, Giorgos Filandrianos, Athanasios Voulodimos, Giorgos Stamou

Publicado 2026-03-05
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que este artículo es la historia de un equipo de detectives (llamados AILS-NTUA) que ganó un gran concurso de inteligencia artificial. El reto era muy difícil: tenían que adivinar por qué ocurrió un evento específico (como "¿Por qué se despidió el presidente?") basándose en un montón de noticias y documentos, y elegir la mejor explicación entre varias opciones.

Aquí te explico cómo lo hicieron, usando analogías sencillas:

1. El Problema: El "Dedo en la Herida" vs. La "Causa Real"

Imagina que ves un vaso roto en el suelo.

  • Opción A: "El gato pasó por aquí".
  • Opción B: "Ayer llovió".
  • Opción C: "Alguien empujó la mesa".

Una inteligencia artificial (IA) normal a veces se confunde. Puede pensar que "Ayer llovió" es la causa porque es un hecho reciente, aunque no tenga nada que ver con el vaso. O puede elegir solo una causa cuando en realidad fueron dos cosas juntas (el gato y la mesa). El reto era que la IA pensara como un detective humano: encontrar la causa más lógica y directa, incluso si la información está incompleta.

2. La Solución: El Sistema de 3 Pasos

El equipo de AILS-NTUA no usó una sola IA "mágica". Crearon un sistema de tres etapas, como una línea de montaje de detectives:

Paso 1: El Filtro de "Basura" (Búsqueda en Red)

Antes de que la IA lea nada, el sistema tiene que buscar en un océano de documentos.

  • La analogía: Imagina que tienes que encontrar una aguja en un pajar, pero el pajar está lleno de paja que parece aguja.
  • Lo que hicieron: En lugar de leer todo el pajar, construyeron un mapa de conexiones (un gráfico). Conectaron los documentos que se parecían entre sí. Si un documento es muy importante, sus "vecinos" también se leen.
  • El truco: Si un documento está aislado (no tiene vecinos), probablemente sea "ruido" o una distracción. El sistema lo tira a la basura. Así, la IA solo lee lo que realmente importa, ahorrando tiempo y evitando confusiones.

Paso 2: El Detective que "Piensa en Voz Alta" (Razonamiento)

Una vez que tienen los documentos correctos, se los pasan a una IA muy potente (como un modelo de lenguaje avanzado).

  • La analogía: En lugar de pedirle a la IA que solo diga "La respuesta es A", le obligaron a escribir un cuaderno de notas primero.
  • Lo que hicieron: Usaron un truco llamado "Prompting Reflexivo". Le dijeron a la IA: "Antes de dar la respuesta, escribe por qué cada opción es buena o mala".
  • El resultado: Esto obliga a la IA a no saltar a conclusiones. Tiene que justificar su elección, como un estudiante que debe mostrar sus cálculos en un examen. Además, usaron un sistema que genera varias respuestas y elige la que la mayoría de las "versiones" de la IA coincide (votación mayoritaria).

Paso 3: El Inspector de Calidad (Corrección Final)

A veces, incluso los mejores detectives cometen errores tontos, como elegir dos opciones que se contradicen.

  • La analogía: Imagina que un detective dice: "El asesino es Juan" y al mismo tiempo "El asesino es nadie". ¡Eso es imposible!
  • Lo que hicieron: Al final del proceso, un pequeño programa automático revisó las respuestas con reglas de lógica estricta.
    • Si la IA dijo "Ninguna es correcta" y también eligió una opción, el programa corrigió el error.
    • Si dos opciones decían exactamente lo mismo, el programa las trató como una sola.
  • El efecto: Esta etapa fue la que más puntos les dio. Fue como tener un supervisor que limpia los errores de última hora antes de entregar el trabajo.

3. ¿Qué aprendieron de los errores? (El "Radar de Sesgos")

El equipo analizó por qué otras IAs fallaron y descubrió tres "vicios" o sesgos comunes, como si fueran malos hábitos de pensamiento:

  1. El vicio de la "Cadena Rota": Las IAs a veces ven solo un eslabón de una cadena de eventos.
    • Ejemplo: Si la causa real es "Llovió -> El suelo se mojó -> Se resbaló", la IA solo dice "Se resbaló" y olvida la lluvia.
  2. El vicio de lo "Cercano": Prefieren la causa que ocurrió justo antes, aunque no sea la verdadera razón.
    • Ejemplo: Si un presidente se va porque hubo una guerra hace 5 años, la IA elige "Hoy hubo una noticia fea" porque es lo más reciente.
  3. El vicio de lo "Dramático": Se fijan en lo que parece más importante o sensacional en las noticias, ignorando causas aburridas pero reales.

4. El Resultado

Gracias a este sistema de filtro inteligente + pensamiento profundo + corrección final, su equipo quedó primero en el concurso con una puntuación de 0.95 sobre 1.00.

En resumen: No usaron una IA más "inteligente" que las demás, sino que construyeron un equipo de trabajo donde una parte filtra el ruido, otra piensa con calma y una tercera revisa la lógica. ¡Es como tener un detective, un psicólogo y un inspector de calidad trabajando juntos!