AILS-NTUA at SemEval-2026 Task 12: Graph-Based Retrieval and Reflective Prompting for Abductive Event Reasoning

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um detetive tentando resolver um mistério complexo. Alguém lhe diz: "O evento X aconteceu". Sua tarefa não é apenas adivinhar o que veio antes, mas encontrar a causa mais provável e direta que levou a esse evento, usando apenas as pistas (documentos) que você tem na mão.

É exatamente isso que a equipe AILS-NTUA fez no desafio "SemEval-2026 Task 12". Eles criaram um sistema inteligente que ficou em primeiro lugar, acertando 95% das questões.

Aqui está como eles fizeram isso, explicado de forma simples:

1. O Problema: O "Detetive" Confuso

Os modelos de Inteligência Artificial (LLMs) são ótimos em escrever textos, mas quando precisam raciocinar sobre causa e efeito em situações do mundo real, eles tendem a cometer erros.

O Erro Comum: Eles muitas vezes escolhem a causa que parece mais "chamativa" ou que aconteceu logo antes, ignorando a causa real que estava escondida no meio de um longo processo. É como culpar o último gole de água que fez o copo transbordar, ignorando que a torneira estava aberta há horas.

2. A Solução: O Sistema de 3 Etapas

A equipe criou um "super-detetive" que funciona em três etapas, como uma linha de montagem de precisão:

Etapa 1: O Filtro de Redes (Retrieval)

Imagine que você tem uma biblioteca gigante cheia de livros, mas apenas alguns contêm a resposta. A maioria são distrações.

O que o sistema faz: Em vez de ler tudo aleatoriamente, ele cria um mapa de conexões (um grafo). Ele liga os documentos que falam sobre o mesmo assunto.
A Analogia: É como usar um GPS. Se você está procurando uma rua específica, o GPS não te leva para o outro lado da cidade só porque o nome da rua é parecido. Ele ignora os "ruídos" (documentos irrelevantes) e foca apenas no caminho conectado que leva à resposta. Isso economiza tempo e evita que o detetive se perca em informações falsas.

Etapa 2: O Raciocínio Reflexivo (LLM + Prompt)

Agora que o sistema tem os documentos certos, ele precisa pensar.

O que o sistema faz: Eles não apenas pedem a resposta. Eles ensinaram a IA a falar em voz alta o seu pensamento antes de dar a resposta final. É como pedir para um aluno escrever o "rascunho" da prova antes de marcar o X na resposta.
A Analogia: Imagine um advogado preparando um caso. Ele não vai direto ao juiz gritar "Culpado!". Ele primeiro analisa cada peça de evidência, diz: "Isso faz sentido? Isso prova a culpa?". Só depois de analisar tudo, ele entrega o veredito. O sistema usa uma técnica chamada "Prompting Reflexivo", onde a IA evolui suas próprias perguntas para se tornar mais inteligente.

Etapa 3: O Chefe de Controle de Qualidade (Consistência)

Às vezes, mesmo os melhores detetives cometem erros bobos, como dizer que "A causa X" e "A causa Y" são verdadeiras, quando na verdade elas se anulam (como dizer que "está chovendo" e "o céu está limpo" ao mesmo tempo).

O que o sistema faz: Após a IA dar a resposta, um conjunto de regras automáticas (heurísticas) verifica a lógica.
A Analogia: É como um revisor de texto que lê a resposta final e diz: "Ei, você marcou duas opções que são iguais, marque as duas! Ou, você marcou 'Nenhuma das anteriores' junto com 'A', o que é impossível. Corrija isso!". Isso garante que a resposta faça sentido lógico, não apenas que pareça bonita.

3. O Que Eles Descobriram (Os Vícios da IA)

Ao analisar 14 modelos diferentes, a equipe descobriu que todas as IAs compartilham os mesmos "vícios" de pensamento:

Cadeia Incompleta: Elas veem um elo da corrente e acham que é a causa inteira, ignorando o resto.
Preferência pelo Próximo: Elas acham que o evento que aconteceu imediatamente antes é a causa, ignorando causas mais profundas e antigas.
Viés de Destaque: Elas escolhem a causa mais dramática (ex: uma explosão) em vez da causa real e sutil (ex: um vazamento de gás que ninguém viu).

4. O Resultado Final

A combinação dessas três etapas (Filtro de Mapa + Pensamento em Voz Alta + Revisão Lógica) fez o sistema deles acertar 95% das questões.

Resumo da Ópera:
Eles não inventaram uma nova IA mágica do zero. Em vez disso, eles criaram um processo de trabalho inteligente. Eles ensinaram a IA a:

Ignorar o lixo (filtrar documentos).
Pensar antes de falar (raciocínio estruturado).
Checar se a resposta faz sentido (revisão lógica).

É como transformar um gênio que é desorganizado e impulsivo em um detetive de elite, metódico e infalível, apenas mudando a maneira como ele trabalha.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Sistema AILS-NTUA para o SemEval-2026 Task 12

1. Problema e Contexto

O artigo aborda o Task 12 do SemEval-2026, focado em Raciocínio Abducativo de Eventos. O objetivo é que os Grandes Modelos de Linguagem (LLMs) identifiquem a causa mais direta e plausível de um evento do mundo real, com base em um conjunto de documentos de contexto e evidências textuais.

Desafio Principal: O raciocínio abducativo difere da dedução ou indução; exige inferir a melhor explicação a partir de informações incompletas.
Complexidade: O conjunto de dados é multilabel (uma pergunta pode ter múltiplas causas corretas), contém distratores (documentos irrelevantes) e exige discriminar entre correlações e relações causais verdadeiras.
Limitações Atuais: LLMs tendem a falhar em cadeias causais complexas, preferindo causas próximas no tempo (viés de proximidade) ou eventos mais salientes, e frequentemente falham em identificar múltiplas causas simultâneas.

2. Metodologia: Pipeline de Três Estágios

A equipe AILS-NTUA propôs um sistema vencedor que combina recuperação de informações, otimização de prompts e verificação de consistência lógica. O pipeline é composto por três etapas principais:

Estágio 1: Recuperação Baseada em Grafos (Filtragem de Distratores)

Construção do Grafo Híbrido: Para cada tópico, constrói-se um grafo de similaridade de documentos onde os nós são documentos e as arestas representam uma similaridade híbrida (combinação de embeddings densos e similaridade lexical BM25+ com boosting de entidades).
Recuperação: O sistema identifica pontos de entrada (top-k documentos por sinal denso e esparso) e realiza uma travessia por Breadth-First Search (BFS) sobre o componente conectado.
Estratégia: Prioriza-se a recall (recuperação) sobre a precisão para evitar quebrar cadeias causais de múltiplos saltos. Documentos desconectados são filtrados como distratores prováveis.
Otimização de Custo: Agregação de contexto em nível de tópico, reutilizando documentos recuperados para perguntas relacionadas, resultando em uma taxa de acerto de cache de 91% e redução de custos de 87%.

Estágio 2: Raciocinador LLM com Prompting Reflexivo

Prompting Estruturado: Utiliza-se um formato XML com "análise antes da resposta" (analysis-before-answer), forçando o modelo a verbalizar o raciocínio para cada opção antes de decidir.
Otimização via GEPA: Emprega-se o framework GEPA (via DSPy) para evolução reflexiva de prompts. Em vez de usar o prompt otimizado diretamente (evitando overfitting), as heurísticas descobertas pelo GEPA (como priorização de linguagem causal explícita e tratamento de opções duplicadas) informam o design final do prompt.
Autoconsistência: Gera-se $k=3$ respostas com temperatura $\tau=1.0$ e aplica-se votação majoritária por opção para agregar as previsões.

Estágio 3: Aplicação de Heurísticas de Consistência Post-Hoc

Correção Determinística: Aplica-se um conjunto de 8 heurísticas para corrigir violações lógicas que o LLM pode cometer, iterativamente até a convergência (geralmente 2 iterações).
Regras Chave:
- Exclusividade Mútua: Se a opção "Nenhuma das outras" for selecionada, nenhuma outra opção pode ser escolhida.
- Consistência de Duplicatas: Opções de texto idêntico devem receber o mesmo valor de verdade.
- Propagação Cruzada: Verificação de consistência entre perguntas "irmãs" (mesmo evento/alvo) para garantir coerência lógica.

3. Contribuições Principais

Sistema de Estado da Arte: O sistema alcançou a 1ª colocação no leaderboard de avaliação com uma pontuação de 0,95 (escala de 0 a 1).
Análise de Erros Sistemática: Realizou-se uma análise de erro cruzada em 14 modelos (7 famílias), identificando três viéses indutivos compartilhados que levam à seleção conservadora de causas:
- Incompletude da Cadeia Causal: O modelo seleciona apenas um elo de uma cadeia causal de múltiplos passos.
- Preferência por Causa Próxima: Favorece o antecedente mais recente em detrimento de condições habilitadoras mais distais.
- Viés de Saliência: Seleciona causas dramáticas ou noticiosas em vez de fatores contributivos mais sutis.
Validação de Arquitetura Híbrida: Demonstrou que a combinação de recuperação baseada em grafos (especialmente para modelos menores) e heurísticas de consistência lógica post-hoc supera a simples escalada de tamanho do modelo.

4. Resultados e Desempenho

Acurácia Geral: O modelo Claude Sonnet 4.5 Thinking com o pipeline completo atingiu 0,952 no conjunto de teste.
Impacto dos Componentes:
- A recuperação baseada em grafos trouxe ganhos marginais para modelos de ponta, mas um ganho significativo (+9 pontos percentuais) para modelos menores (Haiku 3.5).
- A autoconsistência (votação majoritária) trouxe melhorias modestas (+1,6 pp).
- As heurísticas post-hoc foram o maior fator de melhoria, elevando a pontuação do Claude Sonnet 4.5 Thinking de 0,828 para 0,884 no conjunto de desenvolvimento (+5,6 pp).
Desempenho em Questões Multi-rótulo: Todos os modelos apresentaram desempenho significativamente pior em questões com múltiplas respostas corretas (lacuna de 25-56 pontos percentuais), confirmando que a subseleção (escolher apenas uma causa quando há várias) é o modo de falha dominante.
Limite Superior (Oracle): Um oráculo que seleciona o melhor modelo para cada pergunta atingiu 0,895, sugerindo que há espaço para ganhos através de arquiteturas de ensemble ou multi-agente.

5. Significado e Conclusão

O trabalho demonstra que o raciocínio abducativo robusto em LLMs não depende apenas de aumentar o tamanho do modelo, mas sim de:

Recuperação de Contexto Inteligente: Usar grafos para manter a integridade de cadeias causais e filtrar ruído.
Verificação Lógica Externa: Aplicar regras de consistência determinísticas (post-hoc) para corrigir falhas lógicas inerentes aos modelos probabilísticos.
Análise de Viés: A identificação de que falhas como "incompletude de cadeia causal" e "viés de saliência" são sistêmicas e compartilhadas entre diferentes famílias de modelos indica que o problema é fundamental na arquitetura atual de LLMs, exigindo soluções além do prompting simples.

O código do sistema está disponível publicamente no GitHub, permitindo a reprodutibilidade e o avanço futuro na área de inferência causal em eventos do mundo real.