Extending Minimal Pairs with Ordinal Surprisal Curves and Entropy Across Applied Domains

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un amigo muy inteligente, pero un poco tímido, que es un Modelo de Lenguaje (como un chatbot avanzado). Normalmente, para saber si tu amigo sabe algo, le haces una pregunta y esperas a que te escriba una respuesta larga. Pero hay un problema: a veces, tu amigo escribe cosas que suenan muy convincentes pero que en realidad no sabe por qué las dijo (es como si inventara una excusa después de cometer un error). Además, escribir esas respuestas largas lleva mucho tiempo y esfuerzo.

Este paper propone una forma mucho más rápida y honesta de saber qué piensa tu amigo, sin obligarlo a escribir una novela.

La Idea Principal: La "Sorpresa" del Modelo

En lugar de preguntar: "¿Cuál es la respuesta correcta?", el paper sugiere preguntar: "¿Qué tan sorprendido te sentirías si la respuesta fuera X?".

Piensa en esto como una prueba de instinto:

Si le dices a tu amigo: "La capital de Francia es..." y él piensa en "París", no se sorprende nada. Es algo que ya sabía. Su "nivel de sorpresa" es bajo.
Si le dices lo mismo y le sugieres que la respuesta es "Tokio", se sorprende muchísimo. Su "nivel de sorpresa" es alto.

Los autores llaman a esto "Surprisal" (Sorpresa). En lugar de medir cuánto tarda en escribir, miden cuánta "sorpresa" siente el modelo al ver una palabra específica.

El Nuevo Truco: De "Sí/No" a "Una Escala de Emociones"

Antes, los científicos solo usaban esta técnica para cosas de "Sí o No" (¿Esta frase es gramaticalmente correcta? Sí/No). Pero este paper es genial porque lo expande a escalas, como las que usamos en las encuestas.

Imagina que en lugar de preguntar "¿Te gusta esta película?", le preguntas al modelo que califique la película del 1 al 5.

En lugar de obligarlo a escribir "Me gusta mucho", el paper mide la sorpresa del modelo al ver el número "5", luego al ver el "4", luego el "3", etc.

Al hacer esto, obtienes una curva de sorpresa (un gráfico):

La Puntada (El Mínimo): El punto donde la sorpresa es más baja es la respuesta que el modelo prefiere naturalmente.
La Forma de la Montaña (La Entropía): Aquí está la magia.
- Si la curva es una punta aguda (como una aguja), significa que el modelo está 100% seguro. "¡Es un 5! ¡No hay duda!".
- Si la curva es plana (como una colina suave), significa que el modelo está confundido. "Bueno, podría ser un 3, o un 4... no estoy seguro".

Esto es como si tu amigo no solo te diera su opinión, sino que también te dijera: "Estoy muy seguro de mi respuesta" o "Uy, esto es un poco confuso".

¿Dónde lo probaron? (Los 4 Juegos)

Los autores probaron esta técnica en cuatro áreas muy diferentes para ver si funcionaba en la vida real:

Clasificación de Cosas (SETS): Imagina que tienes una palabra como "resorte" (spring). Puede ser un resorte de metal (tecnológico) o la primavera (ecológico). El modelo tiene que decidir en qué categoría cae. La técnica funcionó genial: si le daban contexto, el modelo sabía exactamente a qué se referías.
Causa y Efecto: ¿Es "Llover causa inundaciones" una relación causal? Sí. ¿Es "Los estudiantes que estudian más tienen mejores notas" una causa directa? Quizás, pero es más ambiguo. La técnica detectó que el modelo estaba muy seguro en el primer caso (curva aguda) y muy confundido en el segundo (curva plana), lo cual es perfecto porque refleja la realidad.
Lenguaje Figurado: ¿Es "El tiempo vuela" una frase literal o metafórica? El modelo detectó la diferencia midiendo la sorpresa, incluso cuando las palabras eran similares.
Código de Encuestas: Imagina que lees respuestas de personas sobre el trabajo y tienes que ponerles etiquetas (ej. "Problemas de equilibrio vida-trabajo"). La técnica ayudó a ver qué tan seguro estaba el modelo al poner esa etiqueta.

¿Por qué es esto importante?

Es más rápido: No tienes que esperar a que el modelo escriba una respuesta larga. Solo miras sus "instintos" (sus probabilidades).
Es más honesto: Evita que el modelo invente excusas (racionalizaciones) para justificar un error. Mide lo que realmente piensa en su interior.
Detecta la duda: A diferencia de otros métodos que solo te dicen "Sí" o "No", este método te dice: "Oye, estoy bastante seguro de que es un 4, pero podría ser un 3". Eso es oro para aplicaciones importantes (como medicina o leyes), donde saber cuándo el modelo no está seguro es vital.

En Resumen

Este paper nos dice que para entender a la Inteligencia Artificial, no siempre necesitamos escuchar lo que dice. A veces, es mejor observar qué tan sorprendido se pone cuando le presentamos diferentes opciones. Es como escuchar el latido del corazón del modelo en lugar de escuchar lo que dice que siente.

Es una herramienta más rápida, más barata y que nos da una visión más clara de la "confianza" real de la máquina, ayudándonos a saber cuándo podemos confiar en ella y cuándo necesitamos revisar sus respuestas con cuidado.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Extensión de Pares Mínimos con Curvas de Sorpresa Ordinal y Entropía

1. Planteamiento del Problema

El paradigma de pares mínimos (comparar las probabilidades de modelos de lenguaje para completaciones contrastantes) ha sido útil para evaluar el conocimiento lingüístico, pero su aplicación se ha limitado principalmente a:

Juicios binarios: Enfocados en la gramaticalidad (correcto/incorrecto) en fenómenos sintácticos.
Limitaciones de la evaluación basada en prompts:
- Requiere generación de texto costosa computacionalmente.
- Puede elicitar racionalizaciones post-hoc en lugar de reflejar los juicios reales del modelo (el modelo genera una explicación plausible que no coincide con su proceso de decisión interno).
- Descarta información crucial sobre la incertidumbre del modelo.
- Los modelos suelen mostrar una confianza verbalizada mal calibrada.

El objetivo del trabajo es superar estas limitaciones mediante una evaluación que acceda directamente a las representaciones internas del modelo y su distribución de probabilidad, sin depender exclusivamente de la generación de texto.

2. Metodología: Marco de Evaluación Basado en Sorpresa

El núcleo de la propuesta es medir la sorpresa (surprisal) de un modelo ante diferentes tokens de completación en lugar de pedirle que genere una respuesta.

Concepto de Sorpresa (Surprisal): Definido teóricamente como el logaritmo negativo de la probabilidad ( $S(x) = -\log P(x)$ ). Una baja sorpresa indica alta probabilidad (lo "esperado" o "natural" para el modelo), mientras que una alta sorpresa indica baja probabilidad.
Extensión a Escalas Ordinales: A diferencia de los pares mínimos tradicionales (dos opciones), este marco construye curvas de sorpresa completas sobre una escala ordinal (ej. 1-5 o 1-9).
- Se mide la sorpresa para cada posición de la escala (ej. "1", "2", "3"... "9").
- La posición con la mínima sorpresa representa la respuesta preferida o "natural" del modelo.
- La forma de la curva revela la confianza: curvas empinadas indican alta certeza; curvas planas indican incertidumbre.
Cuantificación de la Incertidumbre (Entropía):
- Se calcula la entropía ( $H$ ) sobre el conjunto de completaciones restringidas (las opciones de la escala).
- Entropía alta: Indica que el modelo está indeciso entre varias opciones (ambigüedad genuina).
- Entropía baja: Indica una preferencia fuerte (alta confianza), aunque no garantiza que la respuesta sea correcta.
Diseño Experimental:
- Se utilizan logits (probabilidades no normalizadas) de los tokens objetivo.
- Se realiza una renormalización sobre el conjunto de alternativas predefinidas para obtener una distribución de probabilidad válida.
- Se prueban diferentes niveles de contexto (sin contexto, definición mínima, contexto completo) y formatos de prompt para estudiar la sensibilidad del modelo.

3. Contribuciones Clave

Generalización del Paradigma: Extiende los pares mínimos desde juicios binarios de gramaticalidad hacia tareas de clasificación y puntuación en escalas ordinales (1-5, 1-9).
Aplicación Multidominio: Demuestra la viabilidad del enfoque en cuatro dominios aplicados diversos:
- Clasificación de sistemas socio-ecológicos-tecnológicos (SETS).
- Identificación de relaciones causales (binaria y escalada).
- Detección de lenguaje figurativo (metáforas vs. literal).
- Codificación deductiva de respuestas de encuestas cualitativas.
Métrica de Incertidumbre Intrínseca: Propone el uso de la entropía sobre la distribución de sorpresa como una medida de confianza principista, que no requiere que el modelo verbalice su certeza ni calibración externa.
Eficiencia Computacional: La evaluación basada en sorpresa requiere un solo pase hacia adelante (forward pass) para leer los logits de unos pocos tokens, siendo significativamente más rápida que la generación de texto con chain-of-thought.

4. Resultados Experimentales

Los experimentos se realizaron utilizando la familia de modelos Qwen2.5 (variantes de 3B, 7B y 14B).

SETS (Sistemas Socio-Ecológicos-Tecnológicos):
- Las curvas de sorpresa mostraron mínimos claros en las puntuaciones esperadas, permitiendo a los modelos distinguir entre homónimos (ej. "bug" como insecto vs. error de software) basándose en el contexto.
- Los modelos más grandes (14B) lograron la menor tasa de error (MAE) y una mejor desambiguación contextual que los modelos pequeños (3B), que a menudo fallaron en distinguir significados.
Identificación Causal:
- En tareas binarias, los modelos mostraron menor sorpresa para la opción correcta ("Verdadero" o "Falso").
- En tareas escaladas, las curvas de sorpresa revelaron ambigüedad genuina: para afirmaciones correlacionales (ej. "los estudiantes que estudian más tienden a tener mejores notas"), las curvas fueron más planas con mínimos en el centro de la escala, reflejando la incertidumbre del modelo sobre si es causal o no.
- La precisión aumentó con el tamaño del modelo, aunque el contexto tuvo efectos variables (a veces ayudaba a modelos pequeños, pero a veces reducía la discriminabilidad en modelos grandes).
Detección de Lenguaje Figurativo:
- El enfoque logró distinguir eficazmente entre afirmaciones metafóricas y literales que compartían el mismo vocabulario superficial.
- Las curvas para afirmaciones figurativas mostraron una disminución de la sorpresa hacia el extremo "altamente metafórico", mientras que las literales mostraban mínimos en el extremo "literal".
- Se observó que el ajuste por instrucciones (instruction tuning) a veces introdujo sesgos que distorsionaban la distribución de sorpresa cruda, haciendo que el modelo base (14B base) a veces superara a su versión ajustada en esta tarea específica.
Codificación Deductiva:
- El método permitió asignar puntuaciones de aplicabilidad a códigos cualitativos.
- La entropía sirvió como señal para identificar casos donde la evidencia textual era parcial o ambigua, sugiriendo que estos casos requerirían revisión humana.

5. Significado y Conclusiones

Acceso a Representaciones Implícitas: La evaluación basada en sorpresa ofrece una ventana a las representaciones aprendidas del modelo que pueden diferir de sus respuestas generadas explícitamente. Sugiere una analogía con el Sistema 1 de la cognición (procesamiento automático e intuitivo) frente al Sistema 2 (razonamiento deliberado mediante prompts).
Distinción entre Ambigüedad y Error: La entropía calculada sobre las curvas de sorpresa parece ser capaz de distinguir entre items genuinamente ambiguos (alta entropía) y errores confiantes (baja entropía pero incorrectos), una distinción difícil de lograr con métodos tradicionales.
Limitaciones:
- La sensibilidad a la tokenización (ej. espacios iniciales, mayúsculas) afecta los resultados.
- La confianza (baja entropía) no garantiza la precisión.
- Requiere acceso a los logits del modelo, lo cual es limitado en APIs comerciales cerradas.
- Falta una comparación directa y sistemática con métodos basados en prompts en los mismos datos.

En conclusión, el artículo propone un marco robusto y eficiente para evaluar modelos de lenguaje en tareas aplicadas, moviéndose más allá de la simple generación de texto hacia el análisis de las distribuciones de probabilidad subyacentes para obtener señales de clasificación interpretables y cuantificación de incertidumbre.

Extending Minimal Pairs with Ordinal Surprisal Curves and Entropy Across Applied Domains

La Idea Principal: La "Sorpresa" del Modelo

El Nuevo Truco: De "Sí/No" a "Una Escala de Emociones"

¿Dónde lo probaron? (Los 4 Juegos)

¿Por qué es esto importante?

En Resumen

Resumen Técnico: Extensión de Pares Mínimos con Curvas de Sorpresa Ordinal y Entropía

1. Planteamiento del Problema

2. Metodología: Marco de Evaluación Basado en Sorpresa

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado y Conclusiones

Más como este

Filtered Reasoning Score: Evaluating Reasoning Quality on a Model's Most-Confident Traces

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

LLMs Struggle with Abstract Meaning Comprehension More Than Expected

Benchmarking Deflection and Hallucination in Large Vision-Language Models

Think Through Uncertainty: Improving Long-Form Generation Factuality via Reasoning Calibration