COGNAC at SemEval-2026 Task 5: LLM Ensembles for Human-Level Word Sense Plausibility Rating in Challenging Narratives

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está lendo um conto de fadas curto. De repente, aparece uma palavra que pode significar duas coisas diferentes, dependendo de como você olha. Por exemplo, a palavra "banco". Pode ser um lugar para sentar no parque ou uma instituição onde você guarda dinheiro.

O desafio do SemEval-2026 (uma espécie de "Olimpíada de Inteligência Artificial") foi perguntar às máquinas: "Dada essa história, qual é a chance de que a palavra 'banco' signifique 'sentar' e qual a chance de significar 'dinheiro'?"

Aqui está a explicação do trabalho da equipe COGNAC, traduzida para uma linguagem simples, usando analogias do dia a dia:

1. O Problema: A Opinião Humana é Bagunçada

Na vida real, quando perguntamos a 5 pessoas diferentes se uma história faz sentido com a palavra "banco" (sentar) ou "banco" (dinheiro), elas não concordam 100%.

Uma pessoa pode achar que é óbvio que é "sentar".
Outra pode achar que é "dinheiro".
Uma terceira pode ficar no meio-termo.

O "ouro" (a resposta correta) não é uma única resposta, mas sim a média dessas opiniões humanas. O objetivo da IA não era adivinhar a "verdade absoluta", mas sim tentar imitar a opinião média do grupo.

2. A Solução: Três Maneiras de Pedir Ajuda à IA

Os pesquisadores usaram vários "cérebros" de Inteligência Artificial (modelos como GPT e Gemini) e testaram três formas de fazer a pergunta:

A Abordagem "Zero-Shot" (O Pedido Direto):
É como perguntar a um amigo: "Olha essa história, o que você acha que essa palavra significa?" e esperar uma resposta rápida. É o método básico, sem muita explicação.
A Abordagem "Cadeia de Pensamento" (O Detetive):
Aqui, a IA é forçada a agir como um detetive. Antes de dar a nota, ela precisa escrever um passo a passo: "Primeiro, analiso o contexto... depois, vejo a gramática... depois, comparo com outras opções...".
- O Resultado Surpreendente: Isso funcionou mal! Pense nisso como tentar convencer alguém de uma opinião subjetiva (como "qual é o melhor sabor de sorvete?") usando lógica fria e passo a passo. Às vezes, a lógica excessiva faz a IA perder a intuição humana.
A Abordagem "Comparativa" (O Jogo de Escolha):
Em vez de perguntar sobre uma opção de cada vez, a IA recebe as duas opções juntas: "Olhe para a história. Entre 'sentar' e 'dinheiro', qual é mais provável? Dê uma nota para os dois".
- O Resultado: Foi a melhor estratégia! É como pedir para um juiz comparar dois candidatos lado a lado em vez de julgar um de cada vez. A IA entende melhor o contexto quando vê as opções competindo.

3. O Truque de Mestre: O "Comitê de Sabedoria" (Ensemble)

A maior descoberta do papel foi perceber que nenhum modelo sozinho era perfeito para capturar a bagunça das opiniões humanas.

Então, eles criaram um Comitê.
Imagine que você tem 10 amigos diferentes. Cada um tem uma opinião ligeiramente diferente sobre a história.

Se você perguntar a apenas um, ele pode errar.
Mas, se você pegar a opinião de todos os 10, calcular a média e usar esse resultado, você chega muito perto do que a "multidão" pensou.

Isso é o que chamam de Ensemble (conjunto). Eles pegaram as previsões de vários modelos de IA, misturaram tudo e tiraram a média.

A Analogia: É como tentar adivinhar o peso de um porco em uma feira. Um especialista pode errar. Mas se você pegar a média de 100 pessoas diferentes, o resultado será incrivelmente preciso.

4. Os Resultados

Na Competição: O sistema deles ficou em 4º lugar no ranking mundial.
Depois da Competição: Eles adicionaram mais "amigos" (modelos de IA) ao comitê e melhoraram ainda mais. O resultado final foi tão bom que ficou empate técnico com o primeiro lugar.

Resumo em uma Frase

A equipe descobriu que, para tarefas onde a resposta depende da opinião humana (e não de fatos matemáticos), o melhor não é ter um único "gênio" da IA, mas sim um grupo de IAs trabalhando juntas, especialmente quando elas são forçadas a comparar as opções lado a lado.

A lição principal: Às vezes, a sabedoria da multidão (mesmo que seja uma multidão de robôs) é melhor do que a lógica de um único especialista.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

O artigo aborda a SemEval-2026 Task 5, uma tarefa baseada no conjunto de dados AmbiStory. O objetivo é avaliar a plausibilidade de diferentes sentidos de palavras homônimas (palavras com a mesma grafia, mas significados diferentes) dentro de contextos narrativos curtos e desafiadores.

Desafio Principal: Diferente da Desambiguação de Sentido de Palavras (WSD) tradicional, que busca uma única resposta "correta", este cenário reconhece que múltiplos sentidos podem ser plausíveis simultaneamente. A ambiguidade e a discordância entre humanos são tratadas como sinais informativos, não como ruído.
Tarefa: Dado um contexto de história e um sentido candidato, o sistema deve atribuir uma nota de plausibilidade em uma escala de Likert de 5 pontos (de 1 = implausível a 5 = único sentido plausível).
Métrica de Avaliação: O desempenho é medido pela média não ponderada de duas métricas:
1. Precisão: Proporção de previsões que estão dentro de um desvio padrão da média das avaliações humanas.
2. Correlação de Spearman: Correlação de posto entre as previsões do modelo e a média das avaliações humanas.
Dificuldade: O conjunto de dados apresenta alta variabilidade entre anotadores (acordo inter-anotador $\alpha = 0.506$ e desvio padrão médio $\sigma = 0.946$ ), o que torna difícil para um único modelo replicar o julgamento médio humano.

2. Metodologia

Os autores propuseram uma abordagem baseada em Grandes Modelos de Linguagem (LLMs) fechados (comerciais), explorando três estratégias de prompting e uma técnica de ensemble (agregação).

A. Estratégias de Prompting

Foram testadas três abordagens utilizando múltiplos modelos (GPT e Gemini):

Zero-shot (Linha de Base): O modelo recebe a tarefa diretamente, sem exemplos de few-shot, seguindo o formato original da tarefa. O modelo deve justificar sua decisão em JSON.
Chain-of-Thought (CoT): Uma estratégia estruturada que força o modelo a decompor o julgamento em cinco etapas explícitas: caracterizar o contexto, analisar a função gramatical, avaliar o ajuste semântico, enumerar alternativas e, finalmente, atribuir a nota.
Prompting Comparativo: Considerando que a tarefa é inerentemente comparativa (um sentido é mais plausível que o outro dependendo do final da história), esta estratégia apresenta ambos os sentidos candidatos simultaneamente ao modelo em um único prompt. O modelo deve atribuir notas e justificativas para ambos, permitindo uma comparação direta.

B. Ensemble de LLMs

Devido à alta variância nas anotações humanas, os autores argumentam que um único modelo pode não capturar a distribuição de opiniões humanas.

Método: Agregação de previsões de múltiplos modelos e múltiplas estratégias de prompting através de uma média não ponderada.
Configurações: Foram criados ensembles específicos para cada estratégia ( $E_{zeroshot}$ , $E_{CoT}$ , $E_{comp}$ ) e um ensemble global ( $E_{all}$ ) que combina todas as previsões.

3. Contribuições Principais

Avaliação de Estratégias de Prompting: A análise sistemática de três estratégias em dez modelos diferentes, demonstrando que o prompting comparativo é superior para tarefas de julgamento subjetivo em narrativas.
Eficácia do Ensemble em Tarefas Subjetivas: Demonstração de que a agregação de previsões de vários modelos (mesmo modelos menores) alinha-se significativamente melhor com o julgamento médio humano do que qualquer modelo individual, especialmente em cenários com alta discordância de anotação.
Desempenho de Estado da Arte: O sistema alcançou o 4º lugar na competição e, com expansões pós-competição, igualou-se ao desempenho do primeiro colocado.

4. Resultados

Os experimentos foram realizados no conjunto de desenvolvimento e testados no conjunto de teste (com resultados pós-competição).

Desempenho Individual:
- O Prompting Comparativo superou consistentemente as estratégias Zero-shot e CoT na maioria dos modelos.
- O modelo individual de melhor desempenho foi o gpt-5-mini com prompt Zero-shot (Acurácia: 0.83, $\rho$ : 0.80, Média: 0.81).
- O CoT não superou a linha de base na maioria dos modelos, sugerindo que o raciocínio passo a passo pode levar a interpretações excessivamente analíticas que divergem da intuição humana em tarefas subjetivas.
Desempenho do Ensemble (Resultados Oficiais):
- O ensemble $E_{all}$ (com 6 modelos iniciais) alcançou uma pontuação média de 0.86 (Acurácia: 0.88, $\rho$ : 0.83), ficando em 4º lugar.
- Pós-Competição: Ao adicionar quatro modelos adicionais ao ensemble, a performance subiu para uma média de 0.89 (Acurácia: 0.92, $\rho$ : 0.85), igualando o desempenho do 1º lugar (SRCB).
Observações Chave:
- Ensembles compostos por modelos menores (ex: gemini-2.0-flash, gpt-4o-mini) conseguiram rivalizar com o desempenho de modelos individuais maiores quando agregados.
- O ensemble $E_{all}$ seguiu a distribuição de julgamento humano (dentro de 1 desvio padrão) muito melhor do que o melhor modelo individual.

5. Significado e Conclusão

O trabalho destaca que, para tarefas de avaliação semântica subjetiva onde há inerente discordância humana (como a plausibilidade de sentidos em narrativas ambíguas), nenhum modelo único é suficiente.

Conclusão Principal: A combinação de múltiplos modelos (Ensemble) e a adoção de estratégias de prompting que refletem a natureza comparativa da tarefa (avaliar sentidos em pares) são fundamentais para atingir o nível de julgamento humano.
Implicações: O estudo sugere que, em vez de buscar apenas modelos maiores ou mais complexos, a agregação de previsões de modelos diversos é uma estratégia mais eficaz e robusta para lidar com a variabilidade de anotação em tarefas de PLN.
Limitações: O sistema depende de LLMs comerciais fechados (custo de API, falta de reprodutibilidade total) e não utilizou fine-tuning devido a restrições de custo e tempo. Além disso, o custo computacional e a latência aumentam significativamente com o uso de ensembles.

Em suma, o sistema COGNAC demonstra que a inteligência coletiva de múltiplos LLMs, guiada por prompts comparativos, é a chave para resolver desafios de desambiguação de sentido em contextos narrativos ambíguos.

COGNAC at SemEval-2026 Task 5: LLM Ensembles for Human-Level Word Sense Plausibility Rating in Challenging Narratives

1. O Problema: A Opinião Humana é Bagunçada

2. A Solução: Três Maneiras de Pedir Ajuda à IA

3. O Truque de Mestre: O "Comitê de Sabedoria" (Ensemble)

4. Os Resultados

Resumo em uma Frase

1. O Problema

2. Metodologia

A. Estratégias de Prompting

B. Ensemble de LLMs

3. Contribuições Principais

4. Resultados

5. Significado e Conclusão

Mais como este

Recursive Language Models Meet Uncertainty: The Surprising Effectiveness of Self-Reflective Program Search for Long Context

MedArena: Comparing LLMs for Medicine-in-the-Wild Clinician Preferences

MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification

Morphemes Without Borders: Evaluating Root-Pattern Morphology in Arabic Tokenizers and LLMs

Agent-based imitation dynamics can yield efficiently compressed population-level vocabularies