Using Vision + Language Models to Predict Item Difficulty

Este estudio demuestra que un enfoque multimodal que combina características visuales y textuales mediante el modelo GPT-4.1-nano predice con mayor precisión la dificultad de los ítems de alfabetización en visualización de datos para adultos estadounidenses en comparación con los enfoques unimodales.

Samin Khan

Publicado 2026-03-06
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que estás intentando adivinar qué tan difícil es un acertijo antes de que alguien lo intente resolver. ¿Podrías decir si es un rompecabezas de 5 piezas o uno de 1.000 solo mirándolo?

Este es exactamente el problema que resolvió Samin Khan, un estudiante de la Universidad de Stanford, en su proyecto. Su idea fue usar a un "superinteligente" de la inteligencia artificial (llamado GPT-4) para predecir qué tan difícil son las preguntas de un examen sobre lectura de gráficos y datos.

Aquí te explico cómo lo hizo, usando analogías sencillas:

1. El Problema: El "Examen de Gráficos"

Imagina que tienes un examen donde te muestran un gráfico (como un mapa del clima o una gráfica de ventas) y te hacen una pregunta sobre él.

  • A veces, el gráfico es muy confuso y la pregunta es fácil.
  • Otras veces, el gráfico es clarísimo, pero la pregunta es un enredo.
  • A veces, ambos son difíciles.

Los expertos en educación saben que crear estos exámenes es difícil. Tienen que adivinar qué tan difícil será cada pregunta para los estudiantes. Si adivinan mal, el examen no sirve.

2. La Solución: El "Detective con Lentes Mágicos"

Samin decidió usar a un modelo de Inteligencia Artificial (IA) como un detective que tiene dos tipos de "lentes" para investigar la dificultad de cada pregunta:

  1. Lentes de Texto: Para leer la pregunta y las opciones de respuesta.
  2. Lentes de Imagen: Para "ver" el gráfico o la imagen.

El detective probó tres estrategias diferentes, como si estuviera entrenando a tres aprendices distintos:

  • El Aprendiz "Solo Texto": Este detective solo leía la pregunta y las respuestas, pero no podía ver el gráfico. Era como intentar adivinar la dificultad de un rompecabezas leyendo solo la caja de instrucciones sin ver la foto del rompecabezas.

    • Resultado: Se equivocó bastante. (Error del 33.8%).
  • El Aprendiz "Solo Imagen": Este detective solo miraba el gráfico, pero no podía leer la pregunta. Era como mirar una foto de un paisaje y tratar de adivinar si es difícil de pintar sin saber qué te están pidiendo que hagas.

    • Resultado: Mejor que el anterior, pero seguía fallando. (Error del 28.2%).
  • El Aprendiz "Multimodal" (El Maestro): Este detective tenía ambos lentes. Podía ver el gráfico Y leer la pregunta al mismo tiempo. Entendía cómo la pregunta se relacionaba con la imagen.

    • Resultado: ¡Fue el ganador! Tuvo el error más bajo (22.4%).

3. La Analogía de la "Cocina"

Piensa en la dificultad de una pregunta como el sabor de un plato:

  • Si solo te dan la receta (texto), no sabes si los ingredientes son difíciles de conseguir.
  • Si solo te dan la foto del plato (imagen), no sabes qué tan complicado fue cocinarlo.
  • Pero si te dan la receta Y la foto, puedes entender perfectamente por qué ese plato es difícil de hacer.

La IA de Samin aprendió que para saber qué tan difícil es una pregunta de gráficos, necesitas ver la imagen y leer la pregunta juntas, no por separado.

4. El Resultado Final

El "Maestro Detective" (el modelo multimodal) fue tan bueno que, cuando le presentaron preguntas nuevas que nunca había visto antes (como un examen sorpresa), logró predecir la dificultad con una precisión sorprendente.

¿Por qué es importante esto?

Imagina que eres un profesor o un diseñador de exámenes. En lugar de tener que probar 100 preguntas en 100 estudiantes para ver cuáles son muy fáciles o muy difíciles (lo cual es lento y costoso), podrías usar esta IA para decirte: "Oye, esta pregunta con este gráfico y esta redacción será muy difícil para la mayoría, cámbiala".

En resumen:
Este proyecto nos enseña que la Inteligencia Artificial, cuando puede ver y leer al mismo tiempo, es muy buena entendiendo cómo piensan las personas. Esto podría ayudar a crear exámenes más justos y mejores materiales educativos en el futuro, ahorrando mucho tiempo y esfuerzo a los educadores.