Demand Estimation with Text and Image Data

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que eres un chef que quiere predecir qué plato le gustará más a un cliente si su plato favorito no está disponible.

Este artículo de investigación es como una nueva receta para cocinar (o en este caso, para predecir el comportamiento de los compradores) que utiliza herramientas muy modernas: la inteligencia artificial y los datos que no están en tablas.

Aquí te lo explico paso a paso, con analogías sencillas:

1. El Problema: El Chef Ciego

Antes, los economistas y expertos en marketing intentaban predecir qué productos se reemplazan entre sí (por ejemplo, si no hay Coca-Cola, ¿la gente compra Pepsi o Sprite?) mirando una lista de características técnicas: precio, tamaño, color, ingredientes.

El problema: A veces, los datos que tienen son incompletos (como una receta sin sal).
El problema mayor: Hay cosas que no se pueden medir fácilmente en una lista, como el "diseño visual" de un producto o el "sentimiento" que transmite un texto. Es como intentar describir un cuadro solo diciendo "tiene colores azules y rojos", sin capturar la emoción que provoca.

2. La Solución: Los "Ojos" y "Oídos" de la IA

Los autores proponen usar datos no estructurados: las fotos de los productos y sus descripciones/reseñas en internet.

Imagina que tienes un robot superinteligente (un modelo de aprendizaje profundo) que ha visto millones de fotos y leído millones de libros.

Para las imágenes: El robot no solo ve "un libro", sino que entiende que la portada oscura con una calavera sugiere "misterio", mientras que una portada brillante con una sonrisa sugiere "autoayuda".
Para el texto: El robot lee las reseñas y entiende que si a alguien le gustó un libro por sus "giros inesperados", probablemente le gustará otro libro con la misma vibra, aunque los títulos sean diferentes.

El robot convierte estas fotos y textos en mapas numéricos (llamados "embeddings"). Es como traducir el arte y las palabras a un idioma que las matemáticas pueden entender.

3. El Truco: El Compresor de Maletas (PCA)

Estos mapas numéricos son enormes y complejos (como intentar meter 500 objetos en una maleta pequeña). Para arreglarlo, usan una técnica llamada Análisis de Componentes Principales (PCA).

La analogía: Imagina que tienes una maleta llena de ropa desordenada. El PCA es como un experto en packing que dobla la ropa perfectamente y la organiza en bloques compactos. Elimina el "ruido" y deja solo las formas más importantes que realmente importan para diferenciar un producto de otro.

4. La Prueba de Fuego: El Experimento del Libro

Para ver si su método funciona, hicieron un experimento con 10,000 personas y libros:

Le mostraron a la gente una lista de 10 libros con precios aleatorios.
Les pidieron que eligieran su primera opción.
Luego, les quitaron ese libro y les pidieron que eligieran su segunda opción (su "plan B").

El resultado:

Los modelos antiguos (que solo miraban características técnicas) fallaron mucho al predecir el "plan B".
El nuevo modelo con IA adivinó el "plan B" con mucha más precisión.
La lección: La gente no elige solo por el precio o el género; eligen por la "vibra" visual y la historia que leen en las reseñas. La IA captó esa "vibra" mejor que las listas de datos tradicionales.

5. Aplicación Real: Amazon

Luego, probaron su método en 40 categorías diferentes de Amazon (desde ropa hasta videojuegos).

Descubrieron que en algunos casos (como ropa), las fotos son clave.
En otros (como videojuegos), a veces las descripciones son más importantes que las fotos.
Conclusión: No se puede adivinar de antemano qué dato es mejor. Lo ideal es tener todo (fotos y texto) y dejar que la IA elija la mejor combinación.

¿Por qué es importante esto?

Imagina que dos grandes tiendas de ropa se quieren fusionar (comprar una a la otra). El gobierno necesita saber: "¿Si desaparece la tienda A, la gente irá a la tienda B o se irá a la competencia?".

Antes: Se basaban en suposiciones o datos incompletos.
Ahora: Con este método, pueden usar las fotos y reseñas reales para predecir con mucha más precisión quién es el "rival" real de un producto.

En resumen

Este paper nos dice que la información está en todas partes, no solo en las tablas de Excel. Si quieres entender qué quiere la gente, no mires solo el precio o el tamaño; mira la foto, lee la reseña y deja que la inteligencia artificial encuentre los patrones ocultos que conectan los productos en la mente de los consumidores.

Es como pasar de intentar adivinar el sabor de un plato mirando solo la lista de ingredientes, a poder oler y probar el plato real antes de cocinarlo.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Estimación de Demanda con Datos No Estructurados

1. El Problema

La estimación de la demanda para productos diferenciados es fundamental en economía y marketing (análisis de fusiones, evaluación de tarifas, fijación de precios óptimos). El enfoque estándar consiste en modelar los patrones de sustitución basándose en la similitud de atributos observados del producto. Sin embargo, este enfoque enfrenta dos desafíos prácticos críticos:

Datos incompletos: Los investigadores rara vez observan todos los atributos relevantes para la elección. A menudo dependen de datos de terceros con criterios de selección desconocidos o recopilan datos de manera subjetiva, omitiendo variables clave.
Atributos difíciles de cuantificar: Los consumidores valoran dimensiones como el diseño visual, la estética y beneficios funcionales sutiles que son extremadamente difíciles de capturar mediante atributos observados tradicionales (ej. "burbujas" en champán o el diseño de una portada de libro).

El objetivo del artículo es proponer un método para incorporar datos no estructurados (imágenes de productos, descripciones textuales, reseñas) en la estimación de la demanda para inferir patrones de sustitución sin necesidad de definir manualmente los atributos.

2. Metodología Propuesta

Los autores proponen un enfoque de tres pasos que integra modelos de aprendizaje profundo preentrenados con modelos econométricos estándar (Logit Mixto):

Paso 1: Extracción de Embeddings (Representaciones Vectoriales)

Imágenes: Se utilizan cuatro redes neuronales convolucionales preentrenadas (VGG19, ResNet50, InceptionV3, Xception) para extraer vectores de baja dimensión que capturan características visuales. Se eliminan las capas de clasificación para usar solo las representaciones de características.
Texto: Se procesan títulos, descripciones y reseñas. Se comparan modelos simples (Bolsa de palabras, TF-IDF) con modelos semánticos avanzados preentrenados como Universal Sentence Encoder (USE) y BERT Sentence Transformer (ST). Estos últimos capturan similitudes semánticas incluso cuando el vocabulario exacto difiere.

Paso 2: Reducción de Dimensionalidad (PCA)

Los embeddings son de alta dimensión (ej. 512 dimensiones), lo que hace prohibitivo su uso directo en modelos logit con coeficientes aleatorios debido al costo computacional de la integración numérica.
Se aplica Análisis de Componentes Principales (PCA) dentro de cada categoría de producto. Esto reduce la dimensionalidad, elimina la variación común entre categorías (enfocándose en las diferencias dentro de la categoría) y genera componentes ortogonales para evitar problemas de multicolinealidad.

Paso 3: Integración en el Modelo de Demanda y Selección de Modelo

Los componentes principales resultantes se incorporan en un modelo Logit Mixto (con coeficientes aleatorios), tratando las componentes como si fueran atributos observados.
Algoritmo de Selección de Modelo (Algoritmo 1): Dado que existen múltiples combinaciones de tipos de datos y modelos de embeddings, los autores proponen un algoritmo basado en el Criterio de Información de Akaike (AIC) in-sample.
- El algoritmo prueba iterativamente la inclusión de coeficientes aleatorios sobre un número creciente de componentes principales ( $K$ ).
- Selecciona la especificación que minimiza el AIC, equilibrando ajuste y complejidad.
- Este criterio se utiliza para elegir el mejor tipo de dato no estructurado (ej. reseñas vs. imágenes) y el mejor modelo de embeddings.

3. Contribuciones Clave

Validación Empírica Rigurosa: A diferencia de la literatura previa que se centra en predecir resultados observados, este trabajo valida la capacidad del modelo para predecir patrones de sustitución contrafactuales.
Diseño Experimental Innovador: Realizaron un experimento de elección con 10,775 participantes (libros de Amazon) donde se registraron tanto la primera elección (usada para estimación) como la segunda elección (usada como "verdad fundamental" o ground truth para validación). Esto permite medir directamente la capacidad del modelo para predecir hacia qué producto se sustituye cuando la opción preferida no está disponible.
Herramienta Práctica (DeepLogit): Desarrollaron y publicaron un paquete de Python (DeepLogit) para facilitar la adopción de este método por parte de otros investigadores.
Aplicabilidad General: Demuestran que el método funciona en 40 categorías de productos de Amazon (desde electrónica hasta ropa), mostrando que los datos no estructurados son informativos en mercados muy diversos.

4. Resultados Principales

A. Validación Experimental (Libros)

Superioridad sobre modelos basados en atributos: El mejor modelo (Logit Mixto con componentes de reseñas usando el modelo USE) superó significativamente a los modelos basados en atributos observados (género, año, páginas).
- Reducción del RMSE (Error Cuadrático Medio) en la predicción de segundas elecciones: 23% de mejora frente al Logit simple, comparado con un 11.7% de mejora para el modelo de atributos.
- La mejora del modelo con datos no estructurados fue comparable a la mejora que el modelo de atributos logró sobre el Logit simple.
Interpretación de los Componentes: Los componentes principales extraídos de las reseñas capturaron patrones de sustitución intuitivos (separación entre ficción/no ficción, subgéneros como misterio vs. ciencia ficción) e incluso detectaron similitudes entre libros de la misma serie o autor que los atributos estructurados no capturaban.
Selección de Datos: En el experimento, las reseñas fueron el tipo de dato más informativo, superando a títulos, descripciones e imágenes.

B. Aplicación Observacional (Amazon - 40 Categorías)

Mejora consistente: En las 40 categorías analizadas, el enfoque con datos no estructurados redujo el AIC en al menos 5.6 puntos en cada una, indicando una mejora sustancial sobre el Logit simple.
Ratios de Desviación (Diversion Ratios): El modelo propuesto genera ratios de desviación mucho más variables y realistas (promedio del 47% hacia el sustituto más cercano) en comparación con el Logit simple (22%), que tiende a subestimar la sustitución entre productos similares.
Imprevisibilidad del mejor dato: No existe una regla general sobre qué tipo de dato es mejor.
- En ropa, las imágenes no siempre fueron las mejores (en "Camisetas" y "Ropa interior", los títulos o reseñas fueron superiores).
- En videojuegos, las imágenes fueron más informativas que en libros.
- Conclusión práctica: Es crucial recolectar múltiples tipos de datos y usar la selección de modelos para determinar cuál es el más relevante para cada categoría.

5. Significado e Implicaciones

Para la Política Antimonopolio y Fusión: El método permite estimar con mayor precisión los ratios de desviación, que son métricas clave para evaluar el poder de mercado y el daño a la competencia en fusiones horizontales, sin depender de la subjetividad en la selección de atributos.
Escalabilidad: Elimina la necesidad de recopilar atributos específicos para cada categoría, permitiendo estimar la demanda en cientos de categorías simultáneamente utilizando datos fácilmente disponibles (imágenes y texto de e-commerce).
Bienes Creativos: Es particularmente útil para bienes donde la diferenciación es estética o narrativa (libros, arte, películas), donde los atributos tradicionales fallan.
Limitaciones y Futuro: El enfoque asume que los embeddings se mantienen fijos en los contrafactuales (ej. cambios de precio). No es adecuado si el cambio de precio altera las reseñas o el diseño del producto (cambio en los embeddings). El artículo sugiere que futuros trabajos podrían ajustar los embeddings o combinarlos con modelos de demanda más flexibles.

En resumen, el artículo demuestra que el uso de aprendizaje profundo sobre datos no estructurados supera a los métodos tradicionales basados en atributos para inferir patrones de sustitución, ofreciendo una herramienta robusta y escalable para la estimación de la demanda en la era del big data.