AILS-NTUA at SemEval-2026 Task 12: Graph-Based Retrieval and Reflective Prompting for Abductive Event Reasoning

O sistema AILS-NTUA, vencedor da tarefa 12 de SemEval-2026, alcançou a primeira posição com 95% de precisão ao combinar recuperação baseada em grafos, raciocínio abduzido por LLMs com prompts evolutivos reflexivos e verificação de consistência, revelando também viéses indutivos comuns em modelos de raciocínio causal.

Nikolas Karafyllis, Maria Lymperaiou, Giorgos Filandrianos, Athanasios Voulodimos, Giorgos Stamou

Publicado 2026-03-05
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um detetive tentando resolver um mistério complexo. Alguém lhe diz: "O evento X aconteceu". Sua tarefa não é apenas adivinhar o que veio antes, mas encontrar a causa mais provável e direta que levou a esse evento, usando apenas as pistas (documentos) que você tem na mão.

É exatamente isso que a equipe AILS-NTUA fez no desafio "SemEval-2026 Task 12". Eles criaram um sistema inteligente que ficou em primeiro lugar, acertando 95% das questões.

Aqui está como eles fizeram isso, explicado de forma simples:

1. O Problema: O "Detetive" Confuso

Os modelos de Inteligência Artificial (LLMs) são ótimos em escrever textos, mas quando precisam raciocinar sobre causa e efeito em situações do mundo real, eles tendem a cometer erros.

  • O Erro Comum: Eles muitas vezes escolhem a causa que parece mais "chamativa" ou que aconteceu logo antes, ignorando a causa real que estava escondida no meio de um longo processo. É como culpar o último gole de água que fez o copo transbordar, ignorando que a torneira estava aberta há horas.

2. A Solução: O Sistema de 3 Etapas

A equipe criou um "super-detetive" que funciona em três etapas, como uma linha de montagem de precisão:

Etapa 1: O Filtro de Redes (Retrieval)

Imagine que você tem uma biblioteca gigante cheia de livros, mas apenas alguns contêm a resposta. A maioria são distrações.

  • O que o sistema faz: Em vez de ler tudo aleatoriamente, ele cria um mapa de conexões (um grafo). Ele liga os documentos que falam sobre o mesmo assunto.
  • A Analogia: É como usar um GPS. Se você está procurando uma rua específica, o GPS não te leva para o outro lado da cidade só porque o nome da rua é parecido. Ele ignora os "ruídos" (documentos irrelevantes) e foca apenas no caminho conectado que leva à resposta. Isso economiza tempo e evita que o detetive se perca em informações falsas.

Etapa 2: O Raciocínio Reflexivo (LLM + Prompt)

Agora que o sistema tem os documentos certos, ele precisa pensar.

  • O que o sistema faz: Eles não apenas pedem a resposta. Eles ensinaram a IA a falar em voz alta o seu pensamento antes de dar a resposta final. É como pedir para um aluno escrever o "rascunho" da prova antes de marcar o X na resposta.
  • A Analogia: Imagine um advogado preparando um caso. Ele não vai direto ao juiz gritar "Culpado!". Ele primeiro analisa cada peça de evidência, diz: "Isso faz sentido? Isso prova a culpa?". Só depois de analisar tudo, ele entrega o veredito. O sistema usa uma técnica chamada "Prompting Reflexivo", onde a IA evolui suas próprias perguntas para se tornar mais inteligente.

Etapa 3: O Chefe de Controle de Qualidade (Consistência)

Às vezes, mesmo os melhores detetives cometem erros bobos, como dizer que "A causa X" e "A causa Y" são verdadeiras, quando na verdade elas se anulam (como dizer que "está chovendo" e "o céu está limpo" ao mesmo tempo).

  • O que o sistema faz: Após a IA dar a resposta, um conjunto de regras automáticas (heurísticas) verifica a lógica.
  • A Analogia: É como um revisor de texto que lê a resposta final e diz: "Ei, você marcou duas opções que são iguais, marque as duas! Ou, você marcou 'Nenhuma das anteriores' junto com 'A', o que é impossível. Corrija isso!". Isso garante que a resposta faça sentido lógico, não apenas que pareça bonita.

3. O Que Eles Descobriram (Os Vícios da IA)

Ao analisar 14 modelos diferentes, a equipe descobriu que todas as IAs compartilham os mesmos "vícios" de pensamento:

  1. Cadeia Incompleta: Elas veem um elo da corrente e acham que é a causa inteira, ignorando o resto.
  2. Preferência pelo Próximo: Elas acham que o evento que aconteceu imediatamente antes é a causa, ignorando causas mais profundas e antigas.
  3. Viés de Destaque: Elas escolhem a causa mais dramática (ex: uma explosão) em vez da causa real e sutil (ex: um vazamento de gás que ninguém viu).

4. O Resultado Final

A combinação dessas três etapas (Filtro de Mapa + Pensamento em Voz Alta + Revisão Lógica) fez o sistema deles acertar 95% das questões.

Resumo da Ópera:
Eles não inventaram uma nova IA mágica do zero. Em vez disso, eles criaram um processo de trabalho inteligente. Eles ensinaram a IA a:

  1. Ignorar o lixo (filtrar documentos).
  2. Pensar antes de falar (raciocínio estruturado).
  3. Checar se a resposta faz sentido (revisão lógica).

É como transformar um gênio que é desorganizado e impulsivo em um detetive de elite, metódico e infalível, apenas mudando a maneira como ele trabalha.