NCL-UoR at SemEval-2026 Task 5: Embedding-Based Methods, Fine-Tuning, and LLMs for Word Sense Plausibility Rating

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que este artículo es como un informe de una carrera de coches, pero en lugar de vehículos, los competidores son inteligencias artificiales tratando de resolver un acertijo lingüístico muy divertido.

Aquí tienes la explicación de lo que hicieron, cómo lo hicieron y quién ganó, todo contado de forma sencilla:

🎯 El Reto: ¿Qué significa esta palabra?

Imagina que lees una historia corta de 5 frases. En medio de la historia aparece una palabra que tiene dos significados posibles (como la palabra "banco", que puede ser un lugar para sentarse o un lugar donde guardas dinero).

La tarea del concurso (SemEval-2026) no era solo adivinar cuál era la correcta, sino calificar del 1 al 5 qué tan "creíble" o "plausible" era un significado específico dentro de esa historia.

1: Totalmente absurdo (como decir que un "banco" es un lugar para sentarse en una historia sobre un ladrón que roba dinero).
5: Totalmente obvio y perfecto.

El equipo de investigación (NCL-UoR) probó tres estrategias diferentes para ver quién podía leer entre líneas mejor.

🏎️ Los Tres Competidores

1. El "Calculador de Similitud" (Métodos basados en embeddings)

Imagina a este competidor como un bibliotecario muy rápido pero un poco torpe.

Cómo funciona: Toma la historia y el significado de la palabra, los convierte en números (como códigos de barras) y mide qué tan "parecidos" son. Si los números se parecen mucho, dice "¡Es un 5!".
El problema: Es como intentar adivinar el final de una película solo comparando los colores de los carteles. Le falta entender la historia completa. No entiende que el contexto cambia el significado.
Resultado: Fue el peor. Se quedó muy atrás porque las palabras no son solo números; son ideas que cambian según la historia.

2. El "Estudiante que Memoriza" (Ajuste fino o Fine-Tuning)

Este es como un estudiante universitario brillante que ha leído miles de libros y ha estudiado mucho para el examen.

Cómo funciona: Le dieron una inteligencia artificial (un modelo de lenguaje) y la entrenaron específicamente con miles de ejemplos de estas historias. Aprendió a ajustar sus "gafas" para ver los matices. Además, le enseñaron a no fiarse ciegamente si los humanos no estaban de acuerdo (incertidumbre).
El problema: Aunque es muy inteligente, a veces se confunde con historias nuevas que no ha visto antes. Se vuelve un poco rígido.
Resultado: Fue decente, mucho mejor que el bibliotecario, pero no logró ser el campeón.

3. El "Detective con Reglas Claras" (LLM con Prompting Estructurado)

Este es el campeón. Imagina a un detective muy experimentado que, en lugar de adivinar, sigue un manual de instrucciones paso a paso.

Cómo funciona: En lugar de darle solo la historia y decir "adivina", le dieron al modelo (una IA muy potente como GPT-4o) un plan de investigación:
1. Analiza el inicio: ¿Qué nos dice el principio de la historia?
2. Analiza la frase clave: ¿Cómo se usa la palabra ahí?
3. Analiza el final: ¡Este es el más importante! ¿El final confirma o descarta el significado?
4. Aplica las reglas: "Si el final contradice la idea, ponle un 1 o 2. Si hay dudas, sé conservador".
La magia: No le pidieron que memorizara ejemplos, sino que razonara siguiendo reglas lógicas claras.
Resultado: ¡Ganó por goleada! Entendió que el final de la historia es la clave para desambiguar la palabra.

🏆 Las Conclusiones Principales

La intuición no basta: Simplemente medir qué tan parecidas son las palabras (como hizo el bibliotecario) no sirve para entender historias complejas.
Más grande no siempre es mejor: Lo más importante no fue usar la IA más grande y potente del mundo, sino cómo se le pidió que trabajara. El detective con reglas (Prompting Estructurado) ganó al gigante sin reglas.
El final lo es todo: En estas historias, la última frase suele ser la que aclara todo el misterio. El sistema ganador prestó mucha atención a esa parte final.
El punto medio es difícil: A la IA le costó mucho calificar las historias "de la nada" (ni totalmente absurdas ni totalmente obvias). Es como cuando un juez de cocina tiene que decidir si un plato es "bueno" o "muy bueno"; es difícil ser preciso en el medio.

💡 En resumen

El equipo descubrió que para que una Inteligencia Artificial entienda el sentido de una palabra en una historia, no basta con darle mucha información o hacerla estudiar mucho. Lo que realmente funciona es darle un mapa claro (reglas de decisión) que le diga cómo analizar la historia paso a paso, especialmente mirando hacia el final para resolver el misterio.

¡Y así, con un buen "plan de juego", ganaron la carrera! 🏁

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo en español, estructurado según los puntos solicitados:

Resumen Técnico: NCL-UoR en SemEval-2026 Task 5

Título: Métodos basados en embeddings, ajuste fino (fine-tuning) y LLMs para la calificación de plausibilidad de sentidos de palabras.

1. El Problema

El artículo aborda la SemEval-2026 Task 5, que reformula la Desambiguación de Sentidos de Palabras (WSD) tradicional. En lugar de seleccionar un único sentido "correcto", la tarea requiere predecir la plausibilidad percibida por humanos de un sentido específico de una palabra homónima dentro de un contexto narrativo.

Entrada: Una historia corta de cinco oraciones en inglés que contiene un homónimo ambiguo, dividida en precontexto (3 oraciones), oración objetivo (con el homónimo) y final.
Salida: Una calificación de plausibilidad en una escala de 1 a 5.
Desafío: El sistema debe evaluar cómo el contexto narrativo (especialmente el final) apoya o contradice un sentido candidato, reconociendo que múltiples sentidos pueden tener distintos grados de plausibilidad.

2. Metodología

Los autores compararon sistemáticamente tres enfoques distintos para resolver la tarea:

A. Métodos Basados en Embeddings:
- Se codifican la historia y el significado candidato utilizando modelos como MPNet y RoBERTa para obtener embeddings de oraciones.
- Se extraen características manuales (similitud coseno, distancia euclidiana, producto punto, superposición léxica, longitud del texto, indicador binario del final).
- Estas características se alimentan a regresores clásicos (Ridge Regression y XGBoost).
- Resultado: Este enfoque mostró un rendimiento muy bajo, indicando que la similitud estática no captura el razonamiento narrativo complejo.
B. Ajuste Fino de Transformadores (Fine-Tuning):
- Se utilizaron modelos preentrenados (ELECTRA y DeBERTa) adaptados con LoRA (Low-Rank Adaptation) para eficiencia de parámetros.
- Estrategias de Entrenamiento:
  - Normalización de etiquetas (1-5 a 0-1).
  - Uso de Pérdida de Huber para robustez ante desacuerdos entre anotadores.
  - Pérdida de Ranking (RankNet): Para optimizar directamente la correlación de Spearman.
  - Pérdida con Conciencia de Incertidumbre: Penaliza los errores solo si exceden la desviación estándar de los anotadores humanos, ignorando errores dentro del margen de desacuerdo humano.
- Resultado: Superó a los métodos basados en embeddings, pero mostró dificultades de generalización en el conjunto de prueba.
C. Prompting con Grandes Modelos de Lenguaje (LLMs):
- Se probaron modelos como GPT-4o, GPT-5.2, GPT-5 mini, Llama 3 y Ministral.
- Estrategia P1 (Few-Shot): Uso de ejemplos de entrenamiento en el prompt.
- Estrategia P2 (Prompting Estructurado con Reglas de Decisión): Esta fue la estrategia ganadora. En lugar de ejemplos, el prompt instruye al modelo para:
  1. Evaluar componentes por separado: Precontexto, oración objetivo y final.
  2. Aplicar reglas de calibración explícitas: Ej. "Si el final contradice claramente el significado, la calificación debe ser 1 o 2"; "Si la evidencia es mixta, elegir la calificación más baja plausible".
  3. Enmarcamiento imparcial: Basar el juicio solo en el texto proporcionado.

3. Contribuciones Clave

Estrategia de Prompting Estructurado: Demostraron que un diseño de prompt que descompone la evaluación en componentes narrativos y aplica reglas de decisión lógicas supera significativamente al uso de ejemplos (few-shot) y al ajuste fino.
Análisis de la Importancia del Diseño vs. Escala: Se descubrió que el diseño del prompt es más crítico que el tamaño del modelo. Por ejemplo, GPT-4o con prompting estructurado superó a GPT-5.2 con el mismo prompt, sugiriendo que las capacidades de razonamiento de GPT-4o se alinean mejor con el marco de evaluación estructurado.
Evaluación de Pérdidas Auxiliares: En el ajuste fino, la combinación de pérdida de ranking y pérdida de incertidumbre mejoró el rendimiento, validando la importancia de modelar el desacuerdo humano.

4. Resultados

Los resultados en el conjunto de prueba (Test Set) mostraron una clara jerarquía:

Métodos Basados en Embeddings: Rendimiento muy pobre ( $\rho \approx 0.11 - 0.13$ ).
Ajuste Fino (Fine-Tuning): Rendimiento moderado. El mejor modelo ajustado (DeBERTa-large + LoRA) alcanzó un $\rho = 0.435$ y una precisión (Acc.) de $0.659$.
LLMs con Prompting:
- Few-Shot (P1): $\rho = 0.635$ .
- Estructurado (P2): El sistema GPT-4o con Prompting Estructurado logró el mejor rendimiento global:
  - Correlación de Spearman ( $\rho$ ): 0.731
  - Precisión (Acc.): 0.794

El análisis de errores reveló que las calificaciones extremas (1 o 5) son más fáciles de predecir, mientras que las calificaciones medias (3.5 - 4.5) son las más difíciles debido a la necesidad de un juicio matizado sobre evidencia parcial. Además, los modelos tienden a cometer errores catastróficos cuando el precontexto sugiere fuertemente un sentido, pero el final confirma otro, lo que indica una tendencia a "anclarse" en un solo componente narrativo.

5. Significado e Implicaciones

El razonamiento narrativo es clave: La tarea de plausibilidad de sentidos no puede resolverse solo con similitud semántica estática; requiere un razonamiento composicional sobre la estructura de la historia.
El diseño del prompt es fundamental: Para tareas de razonamiento complejo y calibración de escalas, la ingeniería de prompts con reglas explícitas puede ser más efectiva que simplemente escalar el tamaño del modelo o ajustar finamente modelos más pequeños.
Generalización: Aunque el enfoque estructurado funciona bien, el artículo señala limitaciones en la generalización a otros dominios o idiomas y sugiere que el futuro trabajo debería explorar métodos de ensemble que combinen modelos ajustados finamente con predictores LLM.

En conclusión, el sistema NCL-UoR estableció un nuevo estado del arte en SemEval-2026 Task 5 al demostrar que la descomposición estructurada de la tarea y la aplicación de reglas de decisión explícitas son la vía más efectiva para modelar la plausibilidad de sentidos de palabras en narrativas.