NCL-UoR at SemEval-2026 Task 5: Embedding-Based Methods, Fine-Tuning, and LLMs for Word Sense Plausibility Rating

El sistema NCL-UoR para SemEval-2026 Task 5 demuestra que una estrategia de prompting estructurada con reglas de decisión explícitas supera a los métodos basados en incrustaciones y al ajuste fino de modelos para la tarea de calificación de la plausibilidad del sentido de las palabras.

Tong Wu, Thanet Markchom, Huizhi Liang

Publicado 2026-03-10
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que este artículo es como un informe de una carrera de coches, pero en lugar de vehículos, los competidores son inteligencias artificiales tratando de resolver un acertijo lingüístico muy divertido.

Aquí tienes la explicación de lo que hicieron, cómo lo hicieron y quién ganó, todo contado de forma sencilla:

🎯 El Reto: ¿Qué significa esta palabra?

Imagina que lees una historia corta de 5 frases. En medio de la historia aparece una palabra que tiene dos significados posibles (como la palabra "banco", que puede ser un lugar para sentarse o un lugar donde guardas dinero).

La tarea del concurso (SemEval-2026) no era solo adivinar cuál era la correcta, sino calificar del 1 al 5 qué tan "creíble" o "plausible" era un significado específico dentro de esa historia.

  • 1: Totalmente absurdo (como decir que un "banco" es un lugar para sentarse en una historia sobre un ladrón que roba dinero).
  • 5: Totalmente obvio y perfecto.

El equipo de investigación (NCL-UoR) probó tres estrategias diferentes para ver quién podía leer entre líneas mejor.


🏎️ Los Tres Competidores

1. El "Calculador de Similitud" (Métodos basados en embeddings)

Imagina a este competidor como un bibliotecario muy rápido pero un poco torpe.

  • Cómo funciona: Toma la historia y el significado de la palabra, los convierte en números (como códigos de barras) y mide qué tan "parecidos" son. Si los números se parecen mucho, dice "¡Es un 5!".
  • El problema: Es como intentar adivinar el final de una película solo comparando los colores de los carteles. Le falta entender la historia completa. No entiende que el contexto cambia el significado.
  • Resultado: Fue el peor. Se quedó muy atrás porque las palabras no son solo números; son ideas que cambian según la historia.

2. El "Estudiante que Memoriza" (Ajuste fino o Fine-Tuning)

Este es como un estudiante universitario brillante que ha leído miles de libros y ha estudiado mucho para el examen.

  • Cómo funciona: Le dieron una inteligencia artificial (un modelo de lenguaje) y la entrenaron específicamente con miles de ejemplos de estas historias. Aprendió a ajustar sus "gafas" para ver los matices. Además, le enseñaron a no fiarse ciegamente si los humanos no estaban de acuerdo (incertidumbre).
  • El problema: Aunque es muy inteligente, a veces se confunde con historias nuevas que no ha visto antes. Se vuelve un poco rígido.
  • Resultado: Fue decente, mucho mejor que el bibliotecario, pero no logró ser el campeón.

3. El "Detective con Reglas Claras" (LLM con Prompting Estructurado)

Este es el campeón. Imagina a un detective muy experimentado que, en lugar de adivinar, sigue un manual de instrucciones paso a paso.

  • Cómo funciona: En lugar de darle solo la historia y decir "adivina", le dieron al modelo (una IA muy potente como GPT-4o) un plan de investigación:
    1. Analiza el inicio: ¿Qué nos dice el principio de la historia?
    2. Analiza la frase clave: ¿Cómo se usa la palabra ahí?
    3. Analiza el final: ¡Este es el más importante! ¿El final confirma o descarta el significado?
    4. Aplica las reglas: "Si el final contradice la idea, ponle un 1 o 2. Si hay dudas, sé conservador".
  • La magia: No le pidieron que memorizara ejemplos, sino que razonara siguiendo reglas lógicas claras.
  • Resultado: ¡Ganó por goleada! Entendió que el final de la historia es la clave para desambiguar la palabra.

🏆 Las Conclusiones Principales

  1. La intuición no basta: Simplemente medir qué tan parecidas son las palabras (como hizo el bibliotecario) no sirve para entender historias complejas.
  2. Más grande no siempre es mejor: Lo más importante no fue usar la IA más grande y potente del mundo, sino cómo se le pidió que trabajara. El detective con reglas (Prompting Estructurado) ganó al gigante sin reglas.
  3. El final lo es todo: En estas historias, la última frase suele ser la que aclara todo el misterio. El sistema ganador prestó mucha atención a esa parte final.
  4. El punto medio es difícil: A la IA le costó mucho calificar las historias "de la nada" (ni totalmente absurdas ni totalmente obvias). Es como cuando un juez de cocina tiene que decidir si un plato es "bueno" o "muy bueno"; es difícil ser preciso en el medio.

💡 En resumen

El equipo descubrió que para que una Inteligencia Artificial entienda el sentido de una palabra en una historia, no basta con darle mucha información o hacerla estudiar mucho. Lo que realmente funciona es darle un mapa claro (reglas de decisión) que le diga cómo analizar la historia paso a paso, especialmente mirando hacia el final para resolver el misterio.

¡Y así, con un buen "plan de juego", ganaron la carrera! 🏁