Social Norm Reasoning in Multimodal Language Models: An Evaluation

Each language version is independently generated for its own context, not a direct translation.

Imagina que los robots y las aplicaciones inteligentes son como nuevos estudiantes que acaban de llegar a un colegio muy grande llamado "Sociedad Humana". Para que estos estudiantes puedan jugar, trabajar y vivir con nosotros sin causar caos, necesitan aprender las reglas no escritas del patio: no empujar, hacer fila, saludar al entrar y ayudar a los mayores. A estas reglas las llamamos "normas sociales".

Este artículo es como un examen de ingreso para ver qué tan bien cinco de los estudiantes más inteligentes (llamados Modelos de Lenguaje Multimodales o MLLM) han aprendido estas reglas.

Aquí tienes la explicación de la investigación, contada como una historia:

1. El Problema: ¿Cómo enseñamos las reglas?

Antiguamente, los ingenieros intentaban enseñar a los robots las reglas sociales escribiendo un manual de instrucciones gigante y aburrido (como una lista de lógica matemática). Era como intentar enseñar a alguien a nadar leyendo un libro de física del agua: funciona en teoría, pero en la vida real, cuando el agua se mueve y hay olas, el robot se ahoga.

Ahora, tenemos una nueva herramienta: Modelos de Inteligencia Artificial que son como superlectores y superobservadores. Pueden leer historias y ver imágenes, y se supone que pueden "entender" el contexto social sin necesidad de que les escribamos cada regla manualmente.

2. El Experimento: La Prueba de Fuego

Los investigadores (del Universidad de Otago, en Nueva Zelanda) decidieron poner a prueba a cinco de estos "superestudiantes" de IA:

GPT-4o (El estudiante más avanzado).
Gemini 2.0 Flash.
Qwen-2.5VL (Un estudiante gratuito y muy capaz).
Intern-VL3.
Meta LLaMa-4 Maverick.

Les dieron un examen con 60 situaciones diferentes:

30 situaciones escritas (como cuentos cortos).
30 situaciones visuales (como tiras cómicas de 4 viñetas).

Las situaciones cubrían 5 reglas básicas:

Llamar a la puerta antes de entrar.
No tirar basura en el parque.
Hacer fila ordenada.
Ser puntual.
Ceder el asiento a los mayores.

Además, variaron la historia: ¿El personaje cumplió la regla? ¿Lo felicitaron? ¿Lo regañaron? ¿Ocastigaron a quien no lo hizo? (Esto último es una regla sobre las reglas, llamada "metanorma", que es como un nivel de dificultad "jefe final").

3. Los Resultados: ¿Quién aprobó?

📚 En el examen de texto (Leer cuentos)

¡Fue un éxito rotundo! Los modelos entendieron las historias escritas casi perfectamente.

GPT-4o fue el mejor, con una puntuación de casi 99%. Fue como un estudiante que leyó el libro y entendió cada matiz.
Qwen-2.5VL (el modelo gratuito) también lo hizo increíblemente bien (97.5%), demostrando que no hace falta pagar una fortuna para tener un buen "profesor" de normas.
La moraleja: Cuando la IA solo tiene que leer, es muy buena entendiendo la intención humana.

🎨 En el examen de imágenes (Ver cómics)

Aquí fue donde las cosas se pusieron difíciles. La puntuación bajó un poco (promedio del 83%), pero GPT-4o seguía liderando (92.5%).

El problema: A veces, la IA veía una imagen y no entendía la secuencia de eventos (como si mirara un cómic y no supiera qué viñeta va primero).
La confusión: En situaciones donde alguien recibía un "elogio" (como un aplauso o una sonrisa), a veces la IA no lo detectaba en la imagen. Es como si vieras a alguien sonriendo y no supieras si es porque le dieron un premio o porque le picó la nariz.
El nivel "Jefe Final" (Metanormas): La parte más difícil fue cuando tenían que juzgar a alguien que no castigó a un malhechor. Aquí, casi todos los modelos fallaron. Es como si vieras a un niño empujar a otro, y luego vieras a un adulto que no hace nada; la IA tuvo problemas para entender que ese adulto también estaba "rompiendo una regla" por no actuar.

4. La Gran Conclusión (En palabras sencillas)

Los ojos vs. La mente: Actualmente, estas inteligencias artificiales tienen una mente excelente para leer (texto), pero sus ojos para entender escenas sociales complejas (imágenes) aún necesitan practicar un poco más.
El ganador: GPT-4o es el mejor estudiante de la clase, capaz de entender tanto lo que se lee como lo que se ve.
La opción económica: Si no tienes presupuesto, Qwen-2.5VL es una alternativa fantástica y gratuita que funciona casi tan bien como el más caro.
El futuro: Aunque aún no son perfectos (especialmente en imágenes complejas y reglas muy indirectas), estos modelos son el motor que permitirá que, en el futuro, los robots de servicio, las asistentes virtuales o los coches autónomos puedan comportarse de manera natural, respetuosa y segura en nuestra sociedad, sin necesidad de que un humano les escriba un manual de 1000 páginas para cada situación posible.

En resumen: La tecnología está aprendiendo a "leer" el comportamiento humano. Hoy en día, si le das un cuento, lo entiende a la perfección. Si le das una foto, lo entiende bastante bien, pero a veces necesita que le expliques el contexto. ¡Y eso es un gran paso para que los robots sean buenos vecinos!

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo en español, estructurado según los puntos solicitados:

Título: Razonamiento de Normas Sociales en Modelos de Lenguaje Multimodales: Una Evaluación

1. Planteamiento del Problema

En los Sistemas Multiagente (MAS), los agentes requieren capacidades sociales para comprender y razonar sobre normas que mantienen el orden y la cooperación. Tradicionalmente, el campo de los MAS Normativos (NorMAS) ha utilizado enfoques simbólicos (como la lógica deóntica) para representar y razonar sobre normas. Sin embargo, estos métodos presentan limitaciones significativas:

Escalabilidad y Adaptabilidad: Tienen dificultades para operar en entornos dinámicos y del mundo real.
Codificación Manual: Las normas deben ser codificadas manualmente en lógica formal, lo cual es rígido y costoso.
Brecha Multimodal: La investigación previa sobre el razonamiento de normas se ha limitado casi exclusivamente a escenarios basados en texto. No existe una evaluación sistemática sobre la capacidad de los Modelos de Lenguaje Multimodales (MLLMs) para inferir normas sociales a partir de inputs visuales (imágenes), lo cual es crucial para agentes físicos como robots sociales que interactúan en entornos situados.

2. Metodología

Los autores propusieron un marco de evaluación integral para medir la competencia de razonamiento normativo de cinco MLLMs de vanguardia.

Modelos Evaluados:
1. GPT-4o
2. Gemini 2.0 Flash
3. Qwen-2.5VL (72B)
4. Intern-VL3 (14B)
5. Meta LLaMa-4 Maverick
Datos y Escenarios:
- Se generaron 30 historias basadas en texto y 30 historias basadas en imágenes (cómic de 4 paneles).
- 5 Normas Sociales: Tocar antes de entrar, no tirar basura, mantener el orden en la fila, puntualidad y ceder el asiento a personas mayores.
- 6 Variantes por Escenario: Diseñadas para probar matices en la adherencia y violación de normas:
  - V1: Adherencia sin alabanza.
  - V2: Adherencia con alabanza.
  - V3: Violación sin sanción.
  - V4a/V4b: Violación con consejo suave o regaño.
  - V5: Metanorma: Sancionar no solo al violador, sino también a los espectadores pasivos que no sancionan (castigo meta).
Proceso de Evaluación:
- Se utilizaron 8 preguntas por historia para evaluar la comprensión (identificación de la norma, sujeto, adherencia/violación, consecuencias, alabanzas, sanciones y metanormas).
- Ground Truth: Se estableció mediante consenso entre dos evaluadores humanos principales y validado por evaluadores externos (con un acuerdo de Cohen's Kappa > 0.90).
- Los modelos respondieron a las preguntas basándose en los inputs de texto e imágenes generados.

3. Contribuciones Clave

Primer Marco Multimodal: Es el primer trabajo que evalúa sistemáticamente la capacidad de razonamiento normativo de MLLMs utilizando tanto texto como imágenes, cerrando la brecha entre la teoría de MAS y las capacidades de los LLMs modernos.
Evaluación de Metanormas: Introduce una evaluación rigurosa sobre la capacidad de los modelos para entender conceptos complejos como las metanormas (sancionar a quien no sanciona), un nivel de razonamiento social de alto orden.
Benchmark de Variantes: Proporciona un conjunto de datos diversificado con 6 variantes por escenario, permitiendo analizar la sensibilidad de los modelos a matices sociales como la alabanza, el castigo y la responsabilidad colectiva.
Análisis Comparativo: Ofrece una comparación exhaustiva entre modelos comerciales y de código abierto, identificando qué arquitecturas son más viables para la integración en agentes sociales.

4. Resultados Principales

Rendimiento General:
- Los MLLMs demostraron un rendimiento superior en texto (precisión media del 95.33%) comparado con imágenes (precisión media del 83.58%).
- Una prueba t pareada confirmó que esta diferencia es estadísticamente significativa ( $p < 0.001$ ).
Rendimiento por Modelo:
- GPT-4o: Fue el mejor modelo en ambas modalidades (98.75% en texto, 92.5% en imágenes).
- Qwen-2.5VL: Se posicionó como la mejor alternativa gratuita (97.5% en texto, 85.41% en imágenes).
- Meta LLaMa-4 Maverick: Obtuvo el rendimiento más bajo, especialmente en imágenes (76.66%).
Dificultad por Categoría de Norma:
- Los modelos fueron mejores detectando violaciones de normas (Categoría 2) que la adherencia (Categoría 1) o las metanormas (Categoría 3).
- Las metanormas (V5) fueron la tarea más desafiante, con una precisión mediana del 75%, indicando que el razonamiento de múltiples niveles (identificar violación -> identificar sanción -> identificar falta de sanción en terceros) es un cuello de botella actual.
Análisis de Escenarios:
- Las normas de "no tirar basura" y "tocar antes de entrar" fueron las más fáciles de entender.
- "Ceder el asiento" y "mantener la fila" mostraron mayor variabilidad y dificultad, especialmente en formato visual.
- Las preguntas sobre alabanza (V2) y metanormas (V5) fueron las más difíciles de responder correctamente en imágenes.

5. Significado e Implicaciones

Viabilidad para Agentes Sociales: Los resultados sugieren que los MLLMs, especialmente GPT-4o y Qwen-2.5VL, son componentes fundamentales viables para desarrollar robots sociales y agentes autónomos capaces de interpretar normas en entornos complejos sin necesidad de codificación manual exhaustiva.
Limitación Visual: La brecha de rendimiento entre texto e imagen indica que, aunque los modelos tienen una fuerte capacidad de inferencia textual, su comprensión visual de contextos sociales sutiles (gestos, expresiones de alabanza, dinámicas de grupo) aún necesita mejora.
Futuro de la Investigación: El trabajo señala la necesidad de:
- Extender la evaluación a video y entradas de audio.
- Explorar técnicas como Tree-of-Thought o ajuste fino (fine-tuning) para mejorar el razonamiento en dilemas morales complejos.
- Evaluar estos modelos en agentes físicos reales (robots) para validar su comportamiento en interacciones humano-robot en tiempo real.
- Investigar el aprendizaje dinámico de normas a través de la interacción y el refuerzo.

En conclusión, el estudio valida el potencial de los MLLMs como motores de razonamiento normativo, pero subraya que el razonamiento sobre normas complejas (metanormas) y la comprensión visual de matices sociales siguen siendo desafíos técnicos significativos.

Social Norm Reasoning in Multimodal Language Models: An Evaluation

1. El Problema: ¿Cómo enseñamos las reglas?

2. El Experimento: La Prueba de Fuego

3. Los Resultados: ¿Quién aprobó?

📚 En el examen de texto (Leer cuentos)

🎨 En el examen de imágenes (Ver cómics)

4. La Gran Conclusión (En palabras sencillas)

Título: Razonamiento de Normas Sociales en Modelos de Lenguaje Multimodales: Una Evaluación

1. Planteamiento del Problema

2. Metodología

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Implicaciones

Más como este

Explainable machine learning for predicting shellfish toxicity in the Adriatic Sea using long-term monitoring data of HABs

Talking like Piping and Instrumentation Diagrams (P&IDs)

SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models

IntrinsicWeather: Controllable Weather Editing in Intrinsic Space

Expert Evaluation of LLM World Models: A High-TcT_cTc​ Superconductivity Case Study

Expert Evaluation of LLM World Models: A High- $T_c$ Superconductivity Case Study