Demand Estimation with Text and Image Data

该论文提出了一种利用预训练深度学习模型从产品图像和文本描述中提取嵌入信息并融入混合 Logit 需求模型的新方法,有效解决了在缺乏产品属性数据或难以量化属性(如视觉设计)时的需求估计难题,并在反事实预测和亚马逊多品类实证中证明其优于传统属性模型。

Giovanni Compiani, Ilya Morozov, Stephan Seiler

发布于 2026-02-19
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在教经济学家和市场营销人员如何**“读懂”那些无法用数字直接衡量的产品魅力**,从而更准确地预测消费者到底喜欢什么、不喜欢什么,以及当一种商品缺货时,他们会转而购买什么。

想象一下,你是一家大型超市的经理,或者是一个正在研究市场竞争的侦探。你的任务是预测:如果“可口可乐”涨价了,大家会去买“百事可乐”还是“雪碧”?

1. 老方法 vs. 新方法:从“填表格”到“看脸识人”

以前的做法(填表格):
传统的经济学家就像是在填一张死板的属性清单。他们会问:“这个产品有 5 个属性吗?是红色的吗?价格是多少?”

  • 痛点: 很多时候,消费者买东西并不是因为“红色”或"5 个属性”,而是因为**“感觉”**。比如,一本书的封面设计是否吸引人?一款手机壳的纹理摸起来是否高级?这些“颜值”和“气质”很难用表格里的数字(比如“材质:塑料”)来完全描述。而且,研究者往往不知道应该收集哪些属性,就像让你去描述一个人的性格,但你只列出了身高和体重,却漏掉了“幽默感”和“善良”。

这篇论文的新方法(看脸识人):
作者们引入了人工智能(深度学习),就像给经济学家装上了一双**“火眼金睛”**。

  • 怎么做? 他们不再手动填表格,而是直接把产品的图片和**文字描述(如用户评论、产品简介)**扔给 AI。
  • AI 的作用: AI 就像一位阅书无数的老图书管理员,或者一位看脸识人的专家。它能从成千上万本书的封面中看出:“哦,这本封面有骷髅和剑,肯定是奇幻小说”;或者从评论中看出:“这本书节奏快,适合喜欢刺激的人”。
  • 结果: AI 把这些看不见的“感觉”和“气质”转化成了计算机能懂的**“数字指纹”(Embeddings,嵌入向量)**。

2. 核心步骤:把“感觉”变成“数学题”

作者提出了一个三步走的“魔法”:

  1. 提取指纹(Embeddings): 利用现成的 AI 模型,把产品的图片和文字变成一串长长的数字代码。这串代码里包含了产品所有的视觉特征和语义信息。
  2. 提炼精华(PCA): 这串代码太长了(比如 512 个数字),直接算太慢。作者用一种叫“主成分分析(PCA)”的方法,像把一堆杂乱无章的线索整理成几个核心故事线一样,把长代码压缩成几个最重要的“维度”。
    • 比喻: 就像把一本厚厚的书压缩成几个关键词,比如“悬疑”、“爱情”、“快节奏”。
  3. 放入模型(混合 Logit 模型): 把这些“关键词”放进传统的经济学需求模型里。现在,模型不仅能看价格,还能“看”懂产品的气质,从而更精准地预测谁和谁是“替代品”。

3. 如何验证?一场“找替身”的实验

怎么知道这个方法真的比老方法好?毕竟我们没法直接看到消费者心里的“替代想法”。

作者设计了一个**“找替身”的实验**:

  • 第一关: 让 1 万多名参与者从 10 本书里选一本最想买的(第一选择)。
  • 第二关: 把刚才选的那本拿走,让他们从剩下的 9 本里再选一本(第二选择)。
  • 真相: 第二选择就是**“如果首选没了,我会选谁”**。这就是最真实的“替代关系”。

实验结果:

  • 老方法(只看属性): 猜得比较准,但经常出错。比如它可能认为两本都是“悬疑小说”的书是替代品,但实际上读者觉得一本太慢,一本太快。
  • 新方法(看图片 + 评论): 大获全胜! 它预测的“第二选择”和真实情况高度吻合。
    • 比喻: 老方法像是在看简历猜性格,而新方法像是直接看了这个人的照片、朋友圈和朋友的评论,瞬间就懂了谁和谁合得来。

4. 实战演练:亚马逊上的 40 种商品

作者不仅在实验室里做了实验,还把这套方法用到了亚马逊(Amazon)上,涵盖了从衣服、宠物食品到电子产品等 40 个品类。

  • 发现: 在几乎所有品类中,加入图片和文字数据后,模型的预测能力都大幅提升。
  • 有趣的反转:
    • 你以为衣服主要看图片(颜值)?结果发现,有时候文字评论(比如“这件衣服面料很软”)比图片更能预测谁和谁互为替代品。
    • 你以为电子产品主要看参数(属性)?结果发现,产品描述和图片里藏着很多参数表里没有的“潜台词”,能更好地解释为什么消费者会在这两款耳机之间纠结。

5. 这对我们意味着什么?

  • 对于商家: 你不需要再纠结“我该收集哪些产品数据了”。只要你有产品的图片和文字,AI 就能帮你自动挖掘出消费者真正在意的“替代品”关系。这能帮你更精准地定价、设计促销活动,或者在合并竞争对手时预测市场反应。
  • 对于研究者: 以前那些难以量化的“设计感”、“氛围感”现在可以被量化并纳入经济模型了。
  • 局限性: 这个方法假设产品的“气质”(图片和文字)在价格变化时是不变的。如果价格变了,导致大家评论说“这玩意儿太贵了不值”,那 AI 提取的“指纹”可能会变,这时候就需要小心处理。

总结

这篇论文就像给经济学界送了一把**“万能钥匙”**。它告诉我们:在这个大数据时代,不要只盯着冷冰冰的数字表格。那些藏在图片里的设计美学、藏在评论里的真实感受,都是理解消费者行为的金矿。通过 AI 把这些“无结构数据”变成“有结构的知识”,我们就能更聪明地预测市场,更精准地满足需求。

一句话概括: 以前我们靠猜(填属性),现在我们靠“读心”(AI 读图读文),从而更懂消费者到底想换什么货。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →