NCL-UoR at SemEval-2026 Task 5: Embedding-Based Methods, Fine-Tuning, and LLMs for Word Sense Plausibility Rating

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está lendo uma história curta e, de repente, aparece uma palavra que pode significar duas coisas diferentes. Por exemplo, a palavra "banco". Ela pode ser onde você senta no parque ou a instituição onde você guarda dinheiro.

O desafio do SemEval-2026 (Tarefa 5) era: dada uma história com essa palavra ambígua, os computadores deveriam dizer o quanto faz sentido usar um dos significados, numa escala de 1 a 5 (onde 1 é "absurdo" e 5 é "perfeito").

A equipe NCL-UoR (com pesquisadores independentes e de duas universidades britânicas) decidiu testar três "estilos de pensamento" diferentes para resolver esse quebra-cabeça. Vamos entender como cada um funcionou usando analogias do dia a dia:

1. O "Detetive de Similaridade" (Métodos Baseados em Embeddings)

A Analogia: Imagine tentar adivinhar se uma palavra faz sentido apenas comparando o "cheiro" das frases. Você pega a história e o significado da palavra, transforma ambos em um "número mágico" (um vetor) e vê o quão parecidos eles são.
O Resultado: Foi como tentar adivinhar o final de um filme apenas olhando para a capa do DVD. Os computadores tentaram medir a distância entre a história e o significado, mas falharam miseravelmente. Eles não conseguiam entender a lógica da narrativa, apenas a semelhança superficial. Foi o pior método.

2. O "Estudante que Decora" (Ajuste Fino / Fine-Tuning)

A Analogia: Aqui, pegamos um cérebro de computador já inteligente (um modelo de linguagem pré-treinado) e o mandamos para a escola. Eles leram milhares de exemplos de histórias e significados, ajustando seus "neurônios" (parâmetros) para aprender a dar a nota certa.
O Resultado: Foi melhor! O computador aprendeu a entender o contexto. Mas, assim como um aluno que decora as respostas de um livro de exercícios, ele teve dificuldade quando encontrou histórias novas e diferentes no teste final. Ele ficou um pouco confuso com as nuances.

3. O "Juiz com Regras Claras" (LLMs com Prompting Estruturado)

A Analogia: Em vez de fazer o computador "estudar" e decorar, os pesquisadores deram a ele um manual de instruções muito detalhado (um "prompt").
- Eles disseram: "Não tente adivinhar tudo de uma vez. Primeiro, olhe o começo da história. Depois, olhe a frase da palavra. Por fim, olhe o final. Se o final contradiz o significado, a nota deve ser baixa. Se o final confirma, a nota deve ser alta."
- Eles criaram regras de decisão, como um juiz seguindo um código penal, em vez de deixar o computador apenas "sentir" a resposta.
O Resultado: Foi o vencedor absoluto! O modelo GPT-4o, seguindo essas regras passo a passo, foi o melhor de todos.

O Grande Segredo Descoberto

A descoberta mais interessante do artigo é que o design das instruções importa mais do que o tamanho do cérebro.

Um modelo menor, mas com instruções muito claras e regras lógicas (o "Juiz"), venceu um modelo gigante que apenas tentou adivinhar.
A chave foi desmontar o problema: em vez de pedir "qual a nota?", eles pediram "analise o início, analise o meio, analise o fim e depois some tudo". Isso ajudou o computador a não se perder.

Onde eles erraram?

Mesmo o vencedor teve problemas quando:

As pessoas não concordavam: Se os humanos que criaram a história não sabiam se a palavra fazia sentido ou não (opiniões divididas), o computador também ficou confuso.
O final era enganoso: Às vezes, o começo da história levava o computador a pensar em um significado, mas o final mudava tudo. O computador às vezes ficava "viciado" no começo e ignorava o final.

Conclusão Simples

Para ensinar um computador a entender o sentido das palavras em histórias, não adianta apenas jogar mais dados na máquina ou fazê-la decorar exemplos. O segredo é ensinar a ela a pensar de forma estruturada, dividindo a história em partes e dando regras claras de como julgar cada parte. É como ensinar alguém a cozinhar: não basta dar os ingredientes; é preciso dar a receita passo a passo!

Each language version is independently generated for its own context, not a direct translation.

Aqui está um resumo técnico detalhado do artigo "NCL-UoR at SemEval-2026 Task 5: Embedding-Based Methods, Fine-Tuning, and LLMs for Word Sense Plausibility Rating", apresentado em português:

1. Problema e Contexto

O artigo aborda a Tarefa 5 da SemEval-2026, que desafia os sistemas a realizar uma avaliação de plausibilidade de sentido de palavra (Word Sense Plausibility Rating). Diferente da Desambiguação de Sentido de Palavra (WSD) tradicional, que busca selecionar um único sentido correto, esta tarefa exige prever o grau de plausibilidade percebido por humanos de um sentido específico de um homônimo dentro de um contexto narrativo curto.

Entrada: Uma história de cinco frases em inglês contendo um homônimo ambíguo, dividida em: pré-contexto (3 frases), frase alvo (contendo o homônimo) e final (que pode desambiguar o sentido).
Saída: Uma pontuação de plausibilidade em uma escala de 1 a 5.
Dataset: AmbiStory, contendo histórias curtas projetadas para testar ambiguidade lexical. As "gold labels" (rótulos de referência) são médias de avaliações de pelo menos cinco anotadores humanos.

2. Metodologia

Os autores investigaram e compararam sistematicamente três abordagens distintas para resolver o problema:

A. Métodos Baseados em Embeddings

Esta abordagem extrai características de similaridade a partir de embeddings de frases e as utiliza em regressores clássicos.

Modelos: Utilizaram Sentence-BERT (MPNet e RoBERTa) para gerar embeddings.
Recursos: Extraíram 8 a 23 recursos, incluindo similaridade de cosseno, distância euclidiana, produto escalar, sobreposição lexical, contagem de frases e indicadores binários.
Algoritmos: Regressão Ridge (com MPNet) e XGBoost (com RoBERTa).
Objetivo: Verificar se métricas de similaridade estáticas conseguem capturar o raciocínio narrativo necessário.

B. Ajuste Fino (Fine-Tuning) de Transformers

Adaptação de modelos de linguagem pré-treinados para a tarefa de regressão, utilizando técnicas eficientes de parâmetros.

Modelos: Variáveis de ELECTRA (base e large) e DeBERTa-large.
Técnica: Uso de LoRA (Low-Rank Adaptation) para ajuste fino eficiente.
Estratégias de Perda (Loss):
- Loss padrão (MSE ou Huber).
- Loss de Ranking Pares (RankNet): Para otimizar diretamente a correlação de Spearman.
- Loss Consciente de Incerteza: Penaliza erros apenas quando excedem o desvio padrão dos anotadores humanos, tratando a discordância humana como uma margem de tolerância.
Entrada: Concatenação do sentido da palavra e da história, com pooling (média ou [CLS]) para gerar a previsão.

C. Prompting com Grandes Modelos de Linguagem (LLMs)

Uso de modelos generativos (GPT-4o, GPT-5, Llama, Ministral) sem ajuste fino, focando na engenharia de prompts.

Estratégia P1 (Few-Shot): Uso de exemplos de treinamento (um por nível de pontuação) no prompt.
Estratégia P2 (Prompting Estruturado com Regras de Decisão): A abordagem vencedora. Substitui exemplos por critérios estruturados:
1. Avaliação Componente a Componente: O modelo avalia separadamente o pré-contexto, a frase alvo e o final.
2. Regras de Decisão Explícitas: Instruções rígidas para calibração (ex: "se o final contradiz o sentido, a nota deve ser 1 ou 2"; "nota 5 exige confirmação explícita no final").
3. Enquadramento Imparcial: O modelo atua como um avaliador neutro baseado apenas no texto fornecido.

3. Resultados Principais

Os resultados foram avaliados usando Correlação de Spearman ( $\rho$ ) e Acurácia (porcentagem de previsões dentro de um desvio padrão da média humana).

Desempenho dos Embeddings: Foi o pior método. Mesmo com recursos ricos, a correlação foi muito baixa ( $\rho < 0.18$ no conjunto de desenvolvimento), indicando que similaridade estática não consegue capturar o raciocínio composicional de narrativas.
Desempenho do Fine-Tuning: Superou os embeddings, mas teve limitações de generalização. O DeBERTa-large + LoRA com loss de incerteza alcançou $\rho = 0.606$ no desenvolvimento, mas degradou no teste ( $\rho = 0.435$ ), sugerindo dificuldade em lidar com homônimos não vistos.
Desempenho do LLM Prompting: Foi o método superior.
- O GPT-4o com a estratégia P2 (Prompting Estruturado) alcançou os melhores resultados no conjunto de teste: $\rho = 0.731$ e Acurácia = 0.794.
- A transição de Few-Shot (P1) para Prompting Estruturado (P2) gerou uma melhoria significativa de +0.082 na correlação de Spearman para o GPT-5.2.
- Descoberta Chave: O design do prompt foi mais importante que a escala do modelo. O GPT-4o (modelo menor que o GPT-5.2) superou o GPT-5.2 quando ambos usaram o mesmo prompt estruturado.

4. Análise de Erros

Discordância Humana: Amostras com alta discordância entre anotadores ( $\sigma \ge 1.0$ ) foram as mais difíceis de prever (MAE = 0.962).
Avaliações de Meio: As pontuações intermediárias (entre 3.5 e 4.5) foram as mais difíceis, enquanto extremos (1 ou 5) foram mais fáceis devido à clareza do final da história.
Viés de Discretização: Os modelos tendem a agrupar previsões em inteiros (1-5), enquanto as notas reais são contínuas.
Erros Catastróficos: Ocorreram quando o pré-contexto primava fortemente um sentido, mas o final confirmava outro (ex: "shelved" em contexto de biblioteca vs. "guardar para depois"). O modelo tendia a ancorar-se excessivamente em um único componente da narrativa.

5. Contribuições e Significância

Estratégia de Prompting Estruturado: A principal contribuição é a demonstração de que decompor a avaliação em componentes narrativos e aplicar regras de decisão explícitas supera tanto o ajuste fino quanto o few-shot prompting tradicional.
Superação da Similaridade Estática: O trabalho prova que métricas de similaridade de embeddings não são suficientes para tarefas que exigem raciocínio narrativo complexo e desambiguação contextual profunda.
Importância da Engenharia de Prompt: Para tarefas de avaliação de plausibilidade, a qualidade da estrutura do prompt e das regras de calibração é mais crítica do que o tamanho do modelo (scale).
Reprodutibilidade: O código e as implementações foram disponibilizados publicamente, facilitando pesquisas futuras em WSD e raciocínio narrativo.

Em suma, o artigo estabelece que, para a tarefa de avaliação de plausibilidade de sentido de palavra em narrativas, o raciocínio estruturado guiado por regras (via LLMs) é superior à aprendizagem estatística pura (fine-tuning) ou à extração de características de similaridade.