NCL-UoR at SemEval-2026 Task 5: Embedding-Based Methods, Fine-Tuning, and LLMs for Word Sense Plausibility Rating

Este artigo apresenta a abordagem da NCL-UoR para a tarefa de avaliação de plausibilidade de sentido de palavras no SemEval-2026, demonstrando que uma estratégia de *prompting* estruturado com regras de decisão explícitas supera tanto métodos baseados em *embeddings* quanto modelos *transformers* ajustados, evidenciando que o design do *prompt* é mais crucial que a escala do modelo para essa tarefa.

Tong Wu, Thanet Markchom, Huizhi Liang

Publicado 2026-03-10
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está lendo uma história curta e, de repente, aparece uma palavra que pode significar duas coisas diferentes. Por exemplo, a palavra "banco". Ela pode ser onde você senta no parque ou a instituição onde você guarda dinheiro.

O desafio do SemEval-2026 (Tarefa 5) era: dada uma história com essa palavra ambígua, os computadores deveriam dizer o quanto faz sentido usar um dos significados, numa escala de 1 a 5 (onde 1 é "absurdo" e 5 é "perfeito").

A equipe NCL-UoR (com pesquisadores independentes e de duas universidades britânicas) decidiu testar três "estilos de pensamento" diferentes para resolver esse quebra-cabeça. Vamos entender como cada um funcionou usando analogias do dia a dia:

1. O "Detetive de Similaridade" (Métodos Baseados em Embeddings)

  • A Analogia: Imagine tentar adivinhar se uma palavra faz sentido apenas comparando o "cheiro" das frases. Você pega a história e o significado da palavra, transforma ambos em um "número mágico" (um vetor) e vê o quão parecidos eles são.
  • O Resultado: Foi como tentar adivinhar o final de um filme apenas olhando para a capa do DVD. Os computadores tentaram medir a distância entre a história e o significado, mas falharam miseravelmente. Eles não conseguiam entender a lógica da narrativa, apenas a semelhança superficial. Foi o pior método.

2. O "Estudante que Decora" (Ajuste Fino / Fine-Tuning)

  • A Analogia: Aqui, pegamos um cérebro de computador já inteligente (um modelo de linguagem pré-treinado) e o mandamos para a escola. Eles leram milhares de exemplos de histórias e significados, ajustando seus "neurônios" (parâmetros) para aprender a dar a nota certa.
  • O Resultado: Foi melhor! O computador aprendeu a entender o contexto. Mas, assim como um aluno que decora as respostas de um livro de exercícios, ele teve dificuldade quando encontrou histórias novas e diferentes no teste final. Ele ficou um pouco confuso com as nuances.

3. O "Juiz com Regras Claras" (LLMs com Prompting Estruturado)

  • A Analogia: Em vez de fazer o computador "estudar" e decorar, os pesquisadores deram a ele um manual de instruções muito detalhado (um "prompt").
    • Eles disseram: "Não tente adivinhar tudo de uma vez. Primeiro, olhe o começo da história. Depois, olhe a frase da palavra. Por fim, olhe o final. Se o final contradiz o significado, a nota deve ser baixa. Se o final confirma, a nota deve ser alta."
    • Eles criaram regras de decisão, como um juiz seguindo um código penal, em vez de deixar o computador apenas "sentir" a resposta.
  • O Resultado: Foi o vencedor absoluto! O modelo GPT-4o, seguindo essas regras passo a passo, foi o melhor de todos.

O Grande Segredo Descoberto

A descoberta mais interessante do artigo é que o design das instruções importa mais do que o tamanho do cérebro.

  • Um modelo menor, mas com instruções muito claras e regras lógicas (o "Juiz"), venceu um modelo gigante que apenas tentou adivinhar.
  • A chave foi desmontar o problema: em vez de pedir "qual a nota?", eles pediram "analise o início, analise o meio, analise o fim e depois some tudo". Isso ajudou o computador a não se perder.

Onde eles erraram?

Mesmo o vencedor teve problemas quando:

  1. As pessoas não concordavam: Se os humanos que criaram a história não sabiam se a palavra fazia sentido ou não (opiniões divididas), o computador também ficou confuso.
  2. O final era enganoso: Às vezes, o começo da história levava o computador a pensar em um significado, mas o final mudava tudo. O computador às vezes ficava "viciado" no começo e ignorava o final.

Conclusão Simples

Para ensinar um computador a entender o sentido das palavras em histórias, não adianta apenas jogar mais dados na máquina ou fazê-la decorar exemplos. O segredo é ensinar a ela a pensar de forma estruturada, dividindo a história em partes e dando regras claras de como julgar cada parte. É como ensinar alguém a cozinhar: não basta dar os ingredientes; é preciso dar a receita passo a passo!