COGNAC at SemEval-2026 Task 5: LLM Ensembles for Human-Level Word Sense Plausibility Rating in Challenging Narratives

O sistema COGNAC, apresentado no SemEval-2026 Task 5, alcançou desempenho próximo ao humano na avaliação da plausibilidade de sentidos de palavras em narrativas desafiadoras ao combinar estratégias de *prompting* comparativo e ensembles de Grandes Modelos de Linguagem (LLMs) para mitigar a variabilidade entre anotadores.

Azwad Anjum Islam, Tisa Islam Erana

Publicado Wed, 18 Ma
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está lendo um conto de fadas curto. De repente, aparece uma palavra que pode significar duas coisas diferentes, dependendo de como você olha. Por exemplo, a palavra "banco". Pode ser um lugar para sentar no parque ou uma instituição onde você guarda dinheiro.

O desafio do SemEval-2026 (uma espécie de "Olimpíada de Inteligência Artificial") foi perguntar às máquinas: "Dada essa história, qual é a chance de que a palavra 'banco' signifique 'sentar' e qual a chance de significar 'dinheiro'?"

Aqui está a explicação do trabalho da equipe COGNAC, traduzida para uma linguagem simples, usando analogias do dia a dia:

1. O Problema: A Opinião Humana é Bagunçada

Na vida real, quando perguntamos a 5 pessoas diferentes se uma história faz sentido com a palavra "banco" (sentar) ou "banco" (dinheiro), elas não concordam 100%.

  • Uma pessoa pode achar que é óbvio que é "sentar".
  • Outra pode achar que é "dinheiro".
  • Uma terceira pode ficar no meio-termo.

O "ouro" (a resposta correta) não é uma única resposta, mas sim a média dessas opiniões humanas. O objetivo da IA não era adivinhar a "verdade absoluta", mas sim tentar imitar a opinião média do grupo.

2. A Solução: Três Maneiras de Pedir Ajuda à IA

Os pesquisadores usaram vários "cérebros" de Inteligência Artificial (modelos como GPT e Gemini) e testaram três formas de fazer a pergunta:

  • A Abordagem "Zero-Shot" (O Pedido Direto):
    É como perguntar a um amigo: "Olha essa história, o que você acha que essa palavra significa?" e esperar uma resposta rápida. É o método básico, sem muita explicação.
  • A Abordagem "Cadeia de Pensamento" (O Detetive):
    Aqui, a IA é forçada a agir como um detetive. Antes de dar a nota, ela precisa escrever um passo a passo: "Primeiro, analiso o contexto... depois, vejo a gramática... depois, comparo com outras opções...".
    • O Resultado Surpreendente: Isso funcionou mal! Pense nisso como tentar convencer alguém de uma opinião subjetiva (como "qual é o melhor sabor de sorvete?") usando lógica fria e passo a passo. Às vezes, a lógica excessiva faz a IA perder a intuição humana.
  • A Abordagem "Comparativa" (O Jogo de Escolha):
    Em vez de perguntar sobre uma opção de cada vez, a IA recebe as duas opções juntas: "Olhe para a história. Entre 'sentar' e 'dinheiro', qual é mais provável? Dê uma nota para os dois".
    • O Resultado: Foi a melhor estratégia! É como pedir para um juiz comparar dois candidatos lado a lado em vez de julgar um de cada vez. A IA entende melhor o contexto quando vê as opções competindo.

3. O Truque de Mestre: O "Comitê de Sabedoria" (Ensemble)

A maior descoberta do papel foi perceber que nenhum modelo sozinho era perfeito para capturar a bagunça das opiniões humanas.

Então, eles criaram um Comitê.
Imagine que você tem 10 amigos diferentes. Cada um tem uma opinião ligeiramente diferente sobre a história.

  • Se você perguntar a apenas um, ele pode errar.
  • Mas, se você pegar a opinião de todos os 10, calcular a média e usar esse resultado, você chega muito perto do que a "multidão" pensou.

Isso é o que chamam de Ensemble (conjunto). Eles pegaram as previsões de vários modelos de IA, misturaram tudo e tiraram a média.

  • A Analogia: É como tentar adivinhar o peso de um porco em uma feira. Um especialista pode errar. Mas se você pegar a média de 100 pessoas diferentes, o resultado será incrivelmente preciso.

4. Os Resultados

  • Na Competição: O sistema deles ficou em 4º lugar no ranking mundial.
  • Depois da Competição: Eles adicionaram mais "amigos" (modelos de IA) ao comitê e melhoraram ainda mais. O resultado final foi tão bom que ficou empate técnico com o primeiro lugar.

Resumo em uma Frase

A equipe descobriu que, para tarefas onde a resposta depende da opinião humana (e não de fatos matemáticos), o melhor não é ter um único "gênio" da IA, mas sim um grupo de IAs trabalhando juntas, especialmente quando elas são forçadas a comparar as opções lado a lado.

A lição principal: Às vezes, a sabedoria da multidão (mesmo que seja uma multidão de robôs) é melhor do que a lógica de um único especialista.