Each language version is independently generated for its own context, not a direct translation.
Imagina que tienes tres amigos muy inteligentes, pero que nunca han salido de su habitación: GPT-4.1 (de OpenAI), Claude 3.7 (de Anthropic) y Gemini 2.0 (de Google). Ahora, imagina que les pones a estos amigos frente a una mesa llena de 1,000 historias reales de problemas cotidianos (como "¿Fui yo el malo por no lavar los platos?" o "¿Debería mi pareja gastar nuestros ahorros en un viaje a Disney?").
El objetivo de este estudio fue ver cómo estos "amigos" (que en realidad son Inteligencias Artificiales) discuten entre sí para llegar a un acuerdo sobre quién tiene la culpa en estas historias.
Aquí te explico los hallazgos principales usando analogías sencillas:
1. Dos formas de debatir: El "Grito" vs. La "Conversación"
Los investigadores probaron dos formas de hacer que los modelos hablaran:
- El "Grito" (Sincrónico): Todos gritan su opinión al mismo tiempo, sin escuchar al otro primero. Luego, si no están de acuerdo, se miran y vuelven a gritar.
- La "Conversación" (Round-Robin): Hablan uno por uno. El segundo escucha al primero antes de hablar, el tercero escucha a los dos anteriores, y así sucesivamente.
¿Qué pasó?
- GPT-4.1 es como un mulo terco. Cuando grita su opinión al principio, es muy difícil hacerle cambiar de idea. Si empieza diciendo "No es culpa de nadie", se queda ahí, incluso si el otro le da razones muy buenas. Es muy "inercial".
- Claude y Gemini son como camaleones sociales. Si alguien les da un buen argumento, cambian de opinión fácilmente. Son mucho más flexibles.
2. El efecto del orden: ¿Quién habla primero manda?
Aquí es donde se pone interesante. En la "Conversación" (cuando hablan uno tras otro), el orden importa muchísimo.
- Si Claude habla primero, GPT (el mulo terco) suele cambiar de opinión y seguirle la corriente.
- Pero si GPT habla primero, Claude tiende a mantenerse firme en su propia opinión y no ceder tanto.
Es como en una reunión familiar: si el abuelo (GPT) dice algo primero, los demás suelen asentir y no contradecirlo, aunque tengan otra opinión. Pero si el abuelo es el último en hablar, los demás ya han formado su grupo y él se queda solo con su opinión.
3. ¿Qué valores usan? (El "Menú" de cada modelo)
Cada modelo tiene un "menú" de valores que le gusta invocar para justificar sus decisiones:
- GPT-4.1 es muy individualista. Le gusta hablar de "libertad personal", "autonomía" y "honestidad directa". Es como ese amigo que dice: "Cada uno es responsable de sus propias acciones, no te metas con los demás".
- Claude y Gemini son más empáticos. Le gusta hablar de "diálogo constructivo", "resolución de conflictos" y "sentimientos". Son como esos amigos que dicen: "Hablemos con calma y entendamos cómo se siente el otro".
Curiosamente, cuando los modelos llegan a un acuerdo, es porque sus "menús" de valores se han parecido más. Si uno empieza hablando de libertad y el otro de empatía, es difícil que se pongan de acuerdo.
4. La sorpresa de los modelos de código abierto
También probaron con modelos que cualquiera puede descargar gratis (como Llama y DeepSeek).
- DeepSeek se comportó muy parecido a GPT-4.1: muy terco y poco dispuesto a cambiar de opinión.
- Llama (la versión pequeña) fue un poco caótico: cambiaba de opinión mucho, pero al final, a menudo no lograba llegar a ningún acuerdo con los demás. Era como un niño que dice "¡No!", luego "¡Sí!", luego "¡No!" y al final la discusión se acaba sin resolver nada.
5. ¿Se pueden "programar" para ser más amables?
Los investigadores intentaron cambiar las instrucciones (el "prompt") para ver si podían forzar a los modelos a ser más empáticos o a buscar más el consenso.
- Resultado: Funcionó un poco, pero no del todo. Podías hacer que hablaran más de "empatía", pero la personalidad base del modelo (su terquedad o su flexibilidad) seguía siendo la misma. Es como intentar enseñar a un gato a ladrar: puede que haga un sonido raro, pero sigue siendo un gato.
En resumen: ¿Por qué nos importa esto?
Hoy en día, usamos estas inteligencias artificiales para darnos consejos sobre salud mental, dinero o problemas de pareja. Este estudio nos dice que la forma en que organizamos la conversación cambia el resultado.
Si pones a un modelo terco (GPT) y uno flexible (Claude) a debatir, el resultado no depende solo de quién tenga la razón, sino de quién habla primero y cómo están organizados. No son robots perfectos y objetivos; tienen "personalidades" y sesgos que dependen de cómo los programamos para interactuar.
La moraleja: Si quieres que una IA te dé un consejo moral, no solo importa qué modelo usas, sino cómo le pides que piense y con quién (o qué otro modelo) lo pones a discutir.