Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que has contratado a un equipo de jueces de cocina muy famosos (los Modelos de Lenguaje o LLMs) para que prueben tus platos y les pongan una nota del 0 al 10. Tu objetivo es que la cocina sea eficiente, así que quieres que estos jueces sean rápidos y justos.

Pero, ¿qué pasa si le das el mismo plato al mismo juez diez veces seguidas y, en lugar de darle siempre un 8, a veces le pone un 9, luego un 6, y luego un 10? ¡Eso sería un caos en tu restaurante!

Aquí te explico lo que descubrió Fiona Lau en su estudio, usando esta analogía:

1. El Problema: Los Jueces "Inestables"

El estudio se centró en ver qué tan consistentes son estos "jueces de IA" (como GPT-4, Gemini o Claude) cuando tienen que dar una nota numérica a una respuesta.

La expectativa: Pensábamos que si le pedíamos al mismo juez que evaluara el mismo plato con las mismas reglas, siempre daría la misma nota.
La realidad: ¡No es así! Incluso cuando les pedimos que sean "deterministas" (que actúen como robots sin improvisar), a veces cambian de opinión.
La analogía: Es como si un juez de gimnasia, al ver a una atleta hacer el mismo salto perfecto, le diera un 9.5 la primera vez, un 7.2 la segunda y un 8.8 la tercera, sin que la atleta haya cambiado nada.

2. Los Tres Grandes Descubrimientos

A. El mismo juez, diferentes notas (Inconsistencia interna)

Si le preguntas al mismo modelo de IA la misma pregunta diez veces, a veces cambia su nota.

El culpable: La "temperatura". Imagina que la temperatura es como el nerviosismo del juez.
- Temperatura baja (0): El juez está muy calmado y serio.
- Temperatura alta (1): El juez está un poco "borracho" de creatividad y cambia de opinión.
El hallazgo: Incluso cuando el juez está "calmado" (temperatura 0), ¡sigue siendo un poco impredecible! Especialmente cuando tienen que juzgar si una respuesta es completa (¿dijo todo lo necesario?). Es como si el juez tuviera un día bueno y un día malo, aunque no se haya movido de la silla.

B. Jueces diferentes, criterios diferentes (Inconsistencia entre modelos)

Aquí es donde se pone interesante. Si le das el mismo plato a un juez de la familia GPT, otro de Gemini y otro de Claude, te darán notas muy distintas.

La analogía: Imagina que le pides a tres críticos de comida diferentes que juzguen una pizza.
- El crítico de Gemini es muy generoso: "¡Qué pizza tan completa! Le doy un 10".
- El crítico de Claude es muy estricto: "Falta un ingrediente, es un 2".
- El crítico de GPT se queda en medio: "Es un 6".
El problema: En una empresa, si usas a un juez generoso para aprobar pedidos y a uno estricto para rechazarlos, ¡tendrás clientes muy confundidos! Un mismo mensaje podría ser "aprobado" por un modelo y "rechazado" por otro.

3. ¿Funciona ponerlos en "Modo Estricto"? (Temperatura)

Los investigadores probaron bajar la "temperatura" (el nivel de aleatoriedad) para ver si los jueces se volvían más estables.

Resultado mixto: Funcionó bien para algunos (como GPT y Gemini), que se volvieron más consistentes. Pero para otros (como los modelos de Claude), no hizo mucha diferencia; seguían siendo inestables incluso cuando se les pidió que fueran robots.
La lección: No puedes confiar en que "bajar la temperatura" arregle todos los problemas. Cada modelo tiene su propia personalidad y sus propios defectos.

4. ¿Por qué nos importa esto? (El impacto en el mundo real)

Imagina que tu empresa usa a estos jueces para tomar decisiones importantes:

Enrutamiento: Si la nota es alta, el cliente habla con un humano experto. Si es baja, se le da una respuesta automática.
El riesgo: Si el mismo cliente llama dos veces y el juez cambia su nota de "alta" a "baja" por pura casualidad, el cliente podría recibir un trato diferente sin razón. Eso es injusto y peligroso.

Conclusión: ¿Qué debemos hacer?

El estudio nos dice que no podemos confiar ciegamente en estos jueces automáticos para decisiones críticas.

No son perfectos: Incluso los mejores modelos son como humanos: tienen días buenos y días malos, y a veces cambian de opinión sin razón.
La solución: Las empresas no deberían usar solo a un juez. Deberían:
1. Monitorear: Vigilar si las notas cambian mucho.
2. Mezclar: Usar varios modelos juntos o tener un humano revisando las decisiones dudosas (un "juez de apelación").
3. Entender sus defectos: Saber que algunos modelos son más estrictos que otros y ajustar las reglas en consecuencia.

En resumen: La IA es una herramienta increíble, pero todavía no es un juez infalible. Si la usas para tomar decisiones importantes, asegúrate de tener un "segundo par de ojos" humano o un sistema de seguridad, porque a veces, la misma pregunta puede recibir dos respuestas totalmente diferentes.

Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

1. El Problema: Los Jueces "Inestables"

2. Los Tres Grandes Descubrimientos

A. El mismo juez, diferentes notas (Inconsistencia interna)

B. Jueces diferentes, criterios diferentes (Inconsistencia entre modelos)

3. ¿Funciona ponerlos en "Modo Estricto"? (Temperatura)

4. ¿Por qué nos importa esto? (El impacto en el mundo real)

Conclusión: ¿Qué debemos hacer?

1. Planteamiento del Problema

2. Metodología

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Implicaciones

Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

1. El Problema: Los Jueces "Inestables"

2. Los Tres Grandes Descubrimientos

A. El mismo juez, diferentes notas (Inconsistencia interna)

B. Jueces diferentes, criterios diferentes (Inconsistencia entre modelos)

3. ¿Funciona ponerlos en "Modo Estricto"? (Temperatura)

4. ¿Por qué nos importa esto? (El impacto en el mundo real)

Conclusión: ¿Qué debemos hacer?

1. Planteamiento del Problema

2. Metodología

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Implicaciones

Más como este

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers