Rigidity in LLM Bandits with Implications for Human-AI Dyads

Each language version is independently generated for its own context, not a direct translation.

🤖 ¿Son los IAs "Tercos"? Lo que aprendimos de un juego de apuestas

Imagina que tienes un robot muy inteligente (una Inteligencia Artificial o IA) y le pides que juegue a un juego muy simple: elegir entre dos máquinas tragaperras (llamadas "brazos" en el mundo de la ciencia).

La regla del juego: Una máquina paga más que la otra, pero al principio no sabes cuál es. Tienes que probar ambas para aprender, pero también quieres ganar dinero.
El objetivo: Encontrar la mejor máquina y quedarte con ella, pero sin dejar de probar la otra por si acaso las cosas cambian.

Los investigadores de este estudio le dieron este juego a tres IAs famosas (DeepSeek, GPT-4.1 y Gemini) y observaron algo sorprendente: los robots no juegan como humanos, ni como jugadores expertos. Son extremadamente "tercos" y rígidos.

Aquí te explico los hallazgos principales con analogías de la vida real:

1. El Efecto "Primero es el Primero" (Sesgo de Posición)

Imagina que entras a una tienda y hay dos estantes de galletas: el de la izquierda (X) y el de la derecha (Y).

Lo que hace un humano: Prueba una de la izquierda, luego una de la derecha, y decide cuál le gusta más.
Lo que hace la IA: Si la primera galleta que prueba es de la izquierda, se obsesiona con la izquierda. Aunque la derecha sea igual de buena (o incluso mejor), la IA se queda pegada a la izquierda como si fuera un imán.

La analogía: Es como si el robot dijera: "Probé la puerta A y funcionó una vez. ¡Esa es mi puerta! ¡No voy a tocar la B nunca más!", incluso si la puerta B lleva a un tesoro. Los investigadores descubrieron que las IAs toman una pequeña señal al azar (como empezar por la izquierda) y la convierten en una política de vida entera.

2. El Problema de la "Exploración" (¿Cuándo cambiar?)

En el juego, hay dos situaciones:

Situación A (Ambigüedad): Ambas máquinas pagan igual. Aquí, lo ideal es probar ambas al 50%.
Situación B (Claridad): Una máquina paga mucho más. Aquí, lo ideal es usar esa casi siempre, pero de vez en cuando probar la otra para asegurarse de que no ha cambiado.

El fallo de la IA:

En la Situación A, las IAs se vuelven tercas. Eligen una y no la sueltan, perdiendo oportunidades de aprender.
En la Situación B, se vuelven rígidas. Eligen la buena, pero nunca prueban la mala. Si la mala se vuelve buena de repente, la IA no se da cuenta porque nunca la revisa.

La analogía: Es como un conductor que, una vez que encuentra un atajo, decide nunca volver a mirar el mapa. Si el atajo se bloquea por obras, el conductor sigue conduciendo contra un muro, ignorando que hay otra ruta libre.

3. ¿Cambiar la "temperatura" ayuda? (El botón de locura)

Los científicos probaron cambiar los "ajustes" de la IA (llamados temperatura y top-p).

Temperatura baja: La IA es muy lógica y predecible.
Temperatura alta: La IA es más "creativa" y caótica.

El resultado: Aunque subieron la temperatura para que la IA fuera más "locuaz" y cambiara de opinión, la terquedad de fondo no desapareció.

Analogía: Imagina que tienes un perro terco. Si le gritas más fuerte (temperatura alta), el perro puede ladrar más fuerte o hacer cosas raras, pero sigue queriendo ir a la misma dirección. Cambiar los ajustes técnicos no arregla el problema de fondo: la IA no sabe cuándo es el momento de explorar.

4. ¿Qué significa esto para nuestra relación con la IA?

Este es el punto más importante. Hoy en día, usamos IAs como asesores (para escribir correos, tomar decisiones de inversión, diagnosticar enfermedades).

El riesgo: Si la IA es terca y confía ciegamente en su primera impresión, puede darte un consejo que parece muy seguro pero que está equivocado.
El peligro para ti: Como humanos, tendemos a confiar en la IA. Si la IA te dice: "Elige la opción X, es la mejor", y tú lo haces sin dudar, podrías estar cometiendo un error grave porque la IA no revisó sus propias dudas.

La metáfora final:
Imagina que la IA es un copiloto en un avión. Si el copiloto es un robot que, una vez que decide volar hacia el norte, bloquea el timón y se niega a mirar el radar por si hay una tormenta, el avión podría chocar. La IA no es "mala", es simplemente demasiado segura de sí misma y no sabe cuándo debe tener dudas.

En resumen

Este estudio nos dice que las Inteligencias Artificiales actuales tienen un "defecto de fábrica": son demasiado rápidas para decidir y demasiado lentas para cambiar de opinión. No son como humanos que aprenden y se adaptan; son como un perro que, una vez que huele algo, se queda olfateando ese punto hasta el infinito, ignorando todo lo demás.

Esto nos advierte que, cuando usemos IAs para tomar decisiones importantes, no debemos confiar ciegamente en su primera respuesta. Debemos recordar que, aunque parezcan inteligentes, a veces son tercos como un niño pequeño que no quiere soltar su juguete favorito.

Each language version is independently generated for its own context, not a direct translation.

A continuación presento un resumen técnico detallado del artículo "Rigidity in LLM Bandits with Implications for Human-AI Dyads" (Rigidez en los Bandidos de LLM con Implicaciones para los Díadas Humano-IA), estructurado según los puntos solicitados.

1. El Problema

El artículo aborda una brecha crítica en la evaluación de los Grandes Modelos de Lenguaje (LLM): mientras que las pruebas estándar miden la precisión, raramente revelan las tendencias de decisión que estos modelos traen a contextos interactivos.

La Hipótesis: Los LLMs pueden exhibir sesgos de decisión robustos que, al interactuar con humanos, podrían amplificar los juicios sesgados de estos últimos sin que el usuario sea consciente.
El Vacío: No se sabe si los LLMs poseen mecanismos de exploración-explotación flexibles o si, por el contrario, muestran rigidez, persistencia en opciones subóptimas y una incapacidad para reevaluar decisiones ante nueva evidencia.

2. Metodología

Los autores trataron a los LLMs como "participantes" en un paradigma de bandidos de dos brazos (two-arm bandits), una tarea mínima y interpretable de la psicología cognitiva diseñada para medir el sesgo, el aprendizaje y la flexibilidad.

Modelos Evaluados: DeepSeek, GPT-4.1 y Gemini-2.5 (versiones de API).
Diseño Experimental:
- Se ejecutaron 200 simulaciones independientes por condición, con 100 ensayos (trials) cada una.
- Condiciones de Recompensa:
  1. Simétrica: Ambas opciones tienen igual probabilidad de recompensa ( $p=0.25$ ). Un agente imparcial debería dividir las elecciones 50/50.
  2. Asimétrica: Una opción es superior ( $p=0.75$ ) y la otra inferior ( $p=0.25$ ). Un agente óptimo debe explotar la mejor opción pero verificar ocasionalmente la inferior.
- Configuraciones de Decodificación: Se manipuló la temperatura y el top-p (mientras se mantenía top-k fijo en el valor por defecto del proveedor), creando cuatro estrategias: Estricta, Moderada, Similar a la Predeterminada y Exploratoria.
Modelado Computacional:
- Se ajustó un modelo jerárquico de Rescorla-Wagner con una política softmax utilizando el lenguaje probabilístico Stan.
- Parámetros inferidos:
  - $\alpha$ (Tasa de aprendizaje): Controla cuánto actualiza el valor de una opción tras un error de predicción.
  - $\tau$ (Temperatura inversa): Controla la determinismo de la elección (mayor $\tau$ = elección más determinista/greedy).

3. Contribuciones Clave

Validación de la Rigidez: Demostración empírica de que los LLMs no actúan como agentes de aprendizaje adaptativos flexibles, sino que exhiben una rigidez extrema y una amplificación de sesgos posicionales.
Modelado Mecanístico: Uso de modelos computacionales cognitivos (Rescorla-Wagner) para explicar el comportamiento de los LLMs, identificando que su comportamiento no es aleatorio, sino el resultado de una baja tasa de aprendizaje combinada con una alta determinismo.
Resistencia a Parámetros de Decodificación: Se demuestra que ajustar la temperatura o el top-p (los "knobs" habituales para los practicantes) no corrige la rigidez subyacente; solo altera la apariencia superficial del comportamiento o aumenta la tasa de errores de formato.
Marco para Díadas Humano-IA: Propone que estos sesgos internos de los LLMs representan un riesgo directo para la interacción humano-IA, donde la confianza determinista del modelo puede llevar a los humanos a cometer errores de confirmación o a ignorar alternativas válidas.

4. Resultados Principales

En Condiciones Simétricas (Ambigüedad)

Amplificación de Sesgo Posicional: Aunque las recompensas eran iguales, los modelos amplificaron la primera opción elegida (generalmente la "X" debido al orden en el prompt) en una política de "un solo brazo" obstinada.
Rigidez: La tasa de cambio tras una pérdida (Loss-Shift) fue cercana a cero en estrategias estrictas. Los modelos se "atascaron" en una opción incluso cuando no había ventaja estadística.
Ineficiencia: La recompensa total fue cercana al azar, pero la distribución de elecciones fue altamente sesgada (ej. 60/40 o más extremo), indicando que el modelo no explora, sino que se aferra a una preferencia inicial.

En Condiciones Asimétricas (Claridad)

Explotación Rígida: Los modelos convergieron rápidamente a la opción superior, pero lo hicieron con una rigidez excesiva. Raramente volvieron a verificar la opción inferior.
Desempeño Subóptimo: Aunque obtuvieron buenas recompensas, no alcanzaron el rendimiento de un oráculo perfecto debido a la falta de verificación periódica (revisión de la opción inferior).
Efecto de la Exploración Forzada: Aumentar la temperatura (estrategia exploratoria) no mejoró la eficiencia inteligente; en su lugar, aumentó la tasa de errores de formato (salidas inválidas) y la inestabilidad, sin generar una exploración epistémica genuina.

Resultados del Modelado Computacional

El ajuste del modelo reveló los parámetros subyacentes:

Baja Tasa de Aprendizaje ( $\mu_A$ ): Los modelos actualizan muy lentamente sus creencias basadas en nueva evidencia (valores entre 0.09 y 0.33).
Alta Temperatura Inversa ( $\mu_\tau$ ): Los modelos operan en un régimen casi determinista (valores cercanos al techo de 5.0).
Conclusión del Modelo: La combinación de aprendizaje lento y elección determinista explica por qué las fluctuaciones iniciales se entranan (se vuelven permanentes) y por qué los modelos no reevalúan opciones incluso cuando la evidencia sugiere hacerlo.

5. Significado e Implicaciones

El estudio tiene implicaciones profundas tanto teóricas como prácticas:

Inercia Epistémica: Los LLMs tratan la incertidumbre como "ruido" a eliminar en lugar de información a recolectar. Esto genera una inercia donde las preferencias tempranas persisten independientemente de la evidencia posterior.
Riesgo en Díadas Humano-IA:
- Falsos Positivos: En situaciones ambiguas, la confianza determinista del LLM puede llevar a los usuarios a aceptar opciones incorrectas como certezas.
- Falsos Negativos: En situaciones claras, la falta de reevaluación puede hacer que se ignoren alternativas raras pero críticas.
- Arquitectura de Elección: El orden de los elementos en el prompt actúa como una arquitectura de elección que sesga el output del modelo, y por ende, el razonamiento del usuario.
Limitación de los Parámetros Actuales: Ajustar la temperatura o el top-p no es una solución viable para mitigar estos sesgos cognitivos, ya que no alteran la estrategia subyacente de baja tasa de aprendizaje/alta determinismo.

En resumen, el papel advierte que los LLMs actuales no son agentes de toma de decisiones adaptativos y flexibles, sino sistemas con sesgos de rigidez que pueden degradar la calidad de la toma de decisiones conjunta en sistemas humano-IA, requiriendo nuevas estrategias de mitigación más allá de la simple ajuste de parámetros de decodificación.