Demand Estimation with Text and Image Data

Este artículo propone un método de estimación de demanda que utiliza datos no estructurados (imágenes y texto) mediante modelos de aprendizaje profundo para inferir patrones de sustitución, demostrando que supera a los modelos tradicionales en predicciones contrafactuales y es aplicable a múltiples categorías de productos en Amazon.

Giovanni Compiani, Ilya Morozov, Stephan Seiler

Publicado 2026-02-19
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que eres un chef que quiere predecir qué plato le gustará más a un cliente si su plato favorito no está disponible.

Este artículo de investigación es como una nueva receta para cocinar (o en este caso, para predecir el comportamiento de los compradores) que utiliza herramientas muy modernas: la inteligencia artificial y los datos que no están en tablas.

Aquí te lo explico paso a paso, con analogías sencillas:

1. El Problema: El Chef Ciego

Antes, los economistas y expertos en marketing intentaban predecir qué productos se reemplazan entre sí (por ejemplo, si no hay Coca-Cola, ¿la gente compra Pepsi o Sprite?) mirando una lista de características técnicas: precio, tamaño, color, ingredientes.

  • El problema: A veces, los datos que tienen son incompletos (como una receta sin sal).
  • El problema mayor: Hay cosas que no se pueden medir fácilmente en una lista, como el "diseño visual" de un producto o el "sentimiento" que transmite un texto. Es como intentar describir un cuadro solo diciendo "tiene colores azules y rojos", sin capturar la emoción que provoca.

2. La Solución: Los "Ojos" y "Oídos" de la IA

Los autores proponen usar datos no estructurados: las fotos de los productos y sus descripciones/reseñas en internet.

Imagina que tienes un robot superinteligente (un modelo de aprendizaje profundo) que ha visto millones de fotos y leído millones de libros.

  • Para las imágenes: El robot no solo ve "un libro", sino que entiende que la portada oscura con una calavera sugiere "misterio", mientras que una portada brillante con una sonrisa sugiere "autoayuda".
  • Para el texto: El robot lee las reseñas y entiende que si a alguien le gustó un libro por sus "giros inesperados", probablemente le gustará otro libro con la misma vibra, aunque los títulos sean diferentes.

El robot convierte estas fotos y textos en mapas numéricos (llamados "embeddings"). Es como traducir el arte y las palabras a un idioma que las matemáticas pueden entender.

3. El Truco: El Compresor de Maletas (PCA)

Estos mapas numéricos son enormes y complejos (como intentar meter 500 objetos en una maleta pequeña). Para arreglarlo, usan una técnica llamada Análisis de Componentes Principales (PCA).

  • La analogía: Imagina que tienes una maleta llena de ropa desordenada. El PCA es como un experto en packing que dobla la ropa perfectamente y la organiza en bloques compactos. Elimina el "ruido" y deja solo las formas más importantes que realmente importan para diferenciar un producto de otro.

4. La Prueba de Fuego: El Experimento del Libro

Para ver si su método funciona, hicieron un experimento con 10,000 personas y libros:

  1. Le mostraron a la gente una lista de 10 libros con precios aleatorios.
  2. Les pidieron que eligieran su primera opción.
  3. Luego, les quitaron ese libro y les pidieron que eligieran su segunda opción (su "plan B").

El resultado:

  • Los modelos antiguos (que solo miraban características técnicas) fallaron mucho al predecir el "plan B".
  • El nuevo modelo con IA adivinó el "plan B" con mucha más precisión.
  • La lección: La gente no elige solo por el precio o el género; eligen por la "vibra" visual y la historia que leen en las reseñas. La IA captó esa "vibra" mejor que las listas de datos tradicionales.

5. Aplicación Real: Amazon

Luego, probaron su método en 40 categorías diferentes de Amazon (desde ropa hasta videojuegos).

  • Descubrieron que en algunos casos (como ropa), las fotos son clave.
  • En otros (como videojuegos), a veces las descripciones son más importantes que las fotos.
  • Conclusión: No se puede adivinar de antemano qué dato es mejor. Lo ideal es tener todo (fotos y texto) y dejar que la IA elija la mejor combinación.

¿Por qué es importante esto?

Imagina que dos grandes tiendas de ropa se quieren fusionar (comprar una a la otra). El gobierno necesita saber: "¿Si desaparece la tienda A, la gente irá a la tienda B o se irá a la competencia?".

  • Antes: Se basaban en suposiciones o datos incompletos.
  • Ahora: Con este método, pueden usar las fotos y reseñas reales para predecir con mucha más precisión quién es el "rival" real de un producto.

En resumen

Este paper nos dice que la información está en todas partes, no solo en las tablas de Excel. Si quieres entender qué quiere la gente, no mires solo el precio o el tamaño; mira la foto, lee la reseña y deja que la inteligencia artificial encuentre los patrones ocultos que conectan los productos en la mente de los consumidores.

Es como pasar de intentar adivinar el sabor de un plato mirando solo la lista de ingredientes, a poder oler y probar el plato real antes de cocinarlo.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →