Each language version is independently generated for its own context, not a direct translation.
Imagina que los robots y las aplicaciones inteligentes son como nuevos estudiantes que acaban de llegar a un colegio muy grande llamado "Sociedad Humana". Para que estos estudiantes puedan jugar, trabajar y vivir con nosotros sin causar caos, necesitan aprender las reglas no escritas del patio: no empujar, hacer fila, saludar al entrar y ayudar a los mayores. A estas reglas las llamamos "normas sociales".
Este artículo es como un examen de ingreso para ver qué tan bien cinco de los estudiantes más inteligentes (llamados Modelos de Lenguaje Multimodales o MLLM) han aprendido estas reglas.
Aquí tienes la explicación de la investigación, contada como una historia:
1. El Problema: ¿Cómo enseñamos las reglas?
Antiguamente, los ingenieros intentaban enseñar a los robots las reglas sociales escribiendo un manual de instrucciones gigante y aburrido (como una lista de lógica matemática). Era como intentar enseñar a alguien a nadar leyendo un libro de física del agua: funciona en teoría, pero en la vida real, cuando el agua se mueve y hay olas, el robot se ahoga.
Ahora, tenemos una nueva herramienta: Modelos de Inteligencia Artificial que son como superlectores y superobservadores. Pueden leer historias y ver imágenes, y se supone que pueden "entender" el contexto social sin necesidad de que les escribamos cada regla manualmente.
2. El Experimento: La Prueba de Fuego
Los investigadores (del Universidad de Otago, en Nueva Zelanda) decidieron poner a prueba a cinco de estos "superestudiantes" de IA:
- GPT-4o (El estudiante más avanzado).
- Gemini 2.0 Flash.
- Qwen-2.5VL (Un estudiante gratuito y muy capaz).
- Intern-VL3.
- Meta LLaMa-4 Maverick.
Les dieron un examen con 60 situaciones diferentes:
- 30 situaciones escritas (como cuentos cortos).
- 30 situaciones visuales (como tiras cómicas de 4 viñetas).
Las situaciones cubrían 5 reglas básicas:
- Llamar a la puerta antes de entrar.
- No tirar basura en el parque.
- Hacer fila ordenada.
- Ser puntual.
- Ceder el asiento a los mayores.
Además, variaron la historia: ¿El personaje cumplió la regla? ¿Lo felicitaron? ¿Lo regañaron? ¿Ocastigaron a quien no lo hizo? (Esto último es una regla sobre las reglas, llamada "metanorma", que es como un nivel de dificultad "jefe final").
3. Los Resultados: ¿Quién aprobó?
📚 En el examen de texto (Leer cuentos)
¡Fue un éxito rotundo! Los modelos entendieron las historias escritas casi perfectamente.
- GPT-4o fue el mejor, con una puntuación de casi 99%. Fue como un estudiante que leyó el libro y entendió cada matiz.
- Qwen-2.5VL (el modelo gratuito) también lo hizo increíblemente bien (97.5%), demostrando que no hace falta pagar una fortuna para tener un buen "profesor" de normas.
- La moraleja: Cuando la IA solo tiene que leer, es muy buena entendiendo la intención humana.
🎨 En el examen de imágenes (Ver cómics)
Aquí fue donde las cosas se pusieron difíciles. La puntuación bajó un poco (promedio del 83%), pero GPT-4o seguía liderando (92.5%).
- El problema: A veces, la IA veía una imagen y no entendía la secuencia de eventos (como si mirara un cómic y no supiera qué viñeta va primero).
- La confusión: En situaciones donde alguien recibía un "elogio" (como un aplauso o una sonrisa), a veces la IA no lo detectaba en la imagen. Es como si vieras a alguien sonriendo y no supieras si es porque le dieron un premio o porque le picó la nariz.
- El nivel "Jefe Final" (Metanormas): La parte más difícil fue cuando tenían que juzgar a alguien que no castigó a un malhechor. Aquí, casi todos los modelos fallaron. Es como si vieras a un niño empujar a otro, y luego vieras a un adulto que no hace nada; la IA tuvo problemas para entender que ese adulto también estaba "rompiendo una regla" por no actuar.
4. La Gran Conclusión (En palabras sencillas)
- Los ojos vs. La mente: Actualmente, estas inteligencias artificiales tienen una mente excelente para leer (texto), pero sus ojos para entender escenas sociales complejas (imágenes) aún necesitan practicar un poco más.
- El ganador: GPT-4o es el mejor estudiante de la clase, capaz de entender tanto lo que se lee como lo que se ve.
- La opción económica: Si no tienes presupuesto, Qwen-2.5VL es una alternativa fantástica y gratuita que funciona casi tan bien como el más caro.
- El futuro: Aunque aún no son perfectos (especialmente en imágenes complejas y reglas muy indirectas), estos modelos son el motor que permitirá que, en el futuro, los robots de servicio, las asistentes virtuales o los coches autónomos puedan comportarse de manera natural, respetuosa y segura en nuestra sociedad, sin necesidad de que un humano les escriba un manual de 1000 páginas para cada situación posible.
En resumen: La tecnología está aprendiendo a "leer" el comportamiento humano. Hoy en día, si le das un cuento, lo entiende a la perfección. Si le das una foto, lo entiende bastante bien, pero a veces necesita que le expliques el contexto. ¡Y eso es un gran paso para que los robots sean buenos vecinos!