Demand Estimation with Text and Image Data

Cet article propose une méthode d'estimation de la demande intégrant des données textuelles et visuelles non structurées via des modèles d'apprentissage profond, démontrant ainsi une supériorité significative par rapport aux modèles traditionnels pour prédire les choix de substitution, même en l'absence d'attributs produits quantifiables.

Giovanni Compiani, Ilya Morozov, Stephan Seiler

Publié 2026-02-19
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un détective économique. Votre mission ? Comprendre pourquoi les gens achètent un produit plutôt qu'un autre. Si le produit A disparaît de l'étagère, vont-ils acheter le produit B (qui est très similaire) ou le produit C (qui est totalement différent) ?

C'est ce qu'on appelle estimer la demande et comprendre les modèles de substitution.

Le problème, c'est que les économistes traditionnels ont souvent les mains liées. Ils essaient de deviner ces choix en regardant une liste de caractéristiques officielles : le prix, le poids, la couleur, la taille. C'est comme essayer de décrire un film uniquement en listant sa durée et le nombre d'acteurs. Ça manque cruellement de détails !

L'idée géniale de ce papier (par Compiani, Morozov et Seiler) est d'utiliser ce que nous appelons des "données non structurées" : les images et les textes (comme les descriptions et les avis clients) que l'on trouve partout sur internet, mais que les économistes ne savaient pas vraiment utiliser jusque-là.

Voici comment ils font, expliqué simplement :

1. Le Traducteur Robotique (L'Intelligence Artificielle)

Imaginez que vous avez des milliers de livres. Certains ont des couvertures sombres avec des épées (des livres de fantasy), d'autres ont des photos de gens souriants sur fond jaune (des livres de développement personnel).

  • L'ancienne méthode : L'économiste regarde la catégorie "Fantasy" ou "Développement personnel".
  • La nouvelle méthode : Ils utilisent des "robots" (des modèles d'intelligence artificielle pré-entraînés) qui regardent la couverture du livre et lisent les avis. Ces robots ne se contentent pas de lire des mots ; ils transforment l'image et le texte en une carte d'identité numérique (un vecteur).

C'est comme si le robot disait : "Ce livre a une 'vibe' sombre et mystérieuse, et les gens disent qu'il est 'plein de rebondissements'. Je vais le noter sur une carte spéciale."

2. Le Réducteur de Bruit (L'Analyse en Composantes Principales)

Ces cartes d'identité numériques sont énormes et complexes (des centaines de points de données). C'est trop lourd pour faire des calculs.
Les auteurs utilisent une technique mathématique (l'ACP) pour compresser cette information. Imaginez que vous prenez un roman de 500 pages et que vous en extrayez les 3 phrases les plus importantes qui résument l'histoire.
Ces phrases résumées deviennent de nouvelles "caractéristiques" que l'on peut utiliser dans les calculs économiques.

3. Le Test de Vérité (L'Expérience)

Comment savoir si cette méthode fonctionne mieux que l'ancienne ?
Les auteurs ont organisé une expérience avec des milliers de participants.

  • Étape 1 : On demande à quelqu'un de choisir son livre préféré parmi une liste.
  • Étape 2 : On retire ce livre et on demande : "Ok, maintenant, quel livre choisiriez-vous à la place ?"

C'est ici que la magie opère. Les modèles traditionnels (basés sur les caractéristiques officielles) se trompent souvent sur le "deuxième choix". Ils pensent que si vous aimez un livre de science-fiction, vous aimerez n'importe quel autre livre de science-fiction.
Mais le nouveau modèle, grâce aux images et aux avis, comprend mieux les nuances. Il sait que "Ah, ce livre de science-fiction a un ton humoristique, donc si le premier disparaît, il préférera un autre livre humoristique plutôt qu'un livre de science-fiction sérieux."

Résultat : Le modèle basé sur les images et les textes prédit le "deuxième choix" beaucoup mieux que les modèles classiques.

4. L'Application Réelle : Amazon

Pour vérifier que ça marche dans la vraie vie, ils ont analysé 40 catégories de produits sur Amazon (des vêtements, des gadgets, de la nourriture pour animaux, etc.).
Ils ont découvert quelque chose de surprenant :

  • Parfois, les images sont les meilleurs indicateurs (pour les vêtements, on s'y attend).
  • Mais parfois, les textes (les avis clients) sont bien plus importants, même pour des produits visuels ! Par exemple, pour des t-shirts, ce que les gens disent dans les avis ("la taille est petite", "le tissu est doux") compte plus que la photo.

Pourquoi c'est important pour tout le monde ?

Cette méthode est comme un super-pouvoir pour les entreprises et les régulateurs :

  • Pour les entreprises : Elles peuvent mieux fixer leurs prix et comprendre qui sont leurs vrais concurrents, même si ces concurrents vendent des produits très différents en apparence.
  • Pour les régulateurs : Si deux grandes entreprises veulent fusionner, on peut simuler si cela ferait augmenter les prix. Avec cette nouvelle méthode, on a une prédiction beaucoup plus précise de ce qui va se passer.

En résumé :
Au lieu de se fier à une liste de caractéristiques rigide et souvent incomplète, les auteurs utilisent l'IA pour "lire" et "regarder" les produits comme le font les humains. Ils transforment cette richesse d'information (images, textes, avis) en données mathématiques pour prédire avec une précision incroyable ce que les consommateurs choisiront vraiment. C'est passer d'une carte routière dessinée à la main à un GPS en temps réel.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →