Forecasting Future Language: Context Design for Mention Markets

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常有趣的问题：如何让人工智能（AI）更聪明地预测“未来会发生什么”，特别是当市场上已经有人对这件事下了注的时候。

为了让你轻松理解，我们可以把这篇论文的研究内容想象成一场**“预测未来的游戏”**。

1. 游戏背景：什么是“提及市场”？

想象一下，有一个特殊的赌场（预测市场），大家在这里下注赌一件事：“下周二的公司财报电话会议上，CEO 会不会亲口提到‘人工智能’这个词？”

如果提到了，买“是”的人赢钱。
如果没提到，买“否”的人赢钱。
市场上的价格（比如 0.55 美元）代表了大家集体认为这件事发生的概率是 55%。

挑战： 这个概率是市场里成千上万交易者用真金白银“算”出来的，通常很准。但是，AI 能不能通过阅读新闻、以前的财报记录，帮我们把这 55% 的预测变得更准呢？

2. 核心问题：怎么让 AI 做预测？

以前的做法是，直接问 AI：“你觉得 CEO 会提到这个词吗？”然后 AI 自己瞎猜一个概率。
但这篇论文发现，怎么给 AI“喂”信息（上下文设计）至关重要。

作者提出了三种不同的“喂法”：

方法 A：直接给数据（普通做法）

把新闻、以前的财报、还有市场现在的价格（比如 55%）全部扔给 AI，就像给一个学生看了一堆资料，然后问：“你猜是多少？”

结果： AI 可能会把市场价格当成另一个普通新闻，甚至被搞糊涂，预测得并不比市场本身好。

方法 B：市场条件提示法 (MCP) —— 核心创新

作者给 AI 换了一种“人设”。他们告诉 AI：

“听着，现在的市场大家觉得这件事有 55% 的可能性发生（这是先验，也就是大家的共识）。现在，请你阅读这些新闻和以前的财报（这是新证据）。如果新证据支持 55%，你就维持；如果新证据很强，你就更新你的想法，告诉我新的概率是多少。”

比喻： 这就像一位老练的侦探。
- 市场价格是“警局的初步报告”（大家觉得嫌疑人有 55% 的嫌疑）。
- 新闻和财报是“侦探找到的新线索”。
- MCP 方法就是让侦探尊重警局的初步报告，但必须根据新线索去修正它，而不是完全无视警局报告，也不是盲目相信。

方法 C：混合策略 (MixMCP) —— 最终赢家

作者发现，虽然 MCP 很聪明，但 AI 有时候太敏感，看到一点风吹草动就过度反应（比如把 55% 改成 90%，其实证据没那么强）。
于是，他们玩了一个“折中”游戏：

最终预测 = 70% 的市场价格 + 30% 的 AI 修正意见

比喻： 这就像**“稳健的船长 + 敏锐的瞭望员”**。
- 船长（市场） 经验丰富，方向感稳，不容易翻船。
- 瞭望员（AI） 眼睛尖，能看到远处的暗礁或新航线。
- 如果瞭望员大喊“前面有冰山！”，船长不会立刻全速转向（避免过度反应），而是稍微调整航向。
- 如果瞭望员看错了，船长依然能稳住大局。
- MixMCP 就是把这两者结合起来，既利用了市场的稳定性，又吸收了 AI 的新发现。

3. 实验发现了什么？（三大洞察）

信息越丰富，预测越准：
给 AI 看的资料越多（既有新闻，又有以前的财报），它猜得越准。就像侦探手里的线索越多，破案率越高。
把市场当作“基准”比把市场当作“数据”更好：
如果直接让 AI 把市场价格当成普通新闻读，效果不好。但如果告诉 AI“这是大家的共识，请你基于此进行修正"，AI 的预测就会变得非常精准，尤其是在市场大家意见不统一（比如概率在 50%-60% 之间摇摆）的时候，AI 能发挥最大作用。
混合策略 (MixMCP) 是冠军：
单纯靠 AI 修正，有时候会“矫枉过正”。单纯靠市场，又可能错过新信息。
MixMCP（70% 市场 + 30% AI）表现最好。它比单纯的市场预测更准，也比单纯靠 AI 更稳。

4. 总结：这篇论文告诉我们什么？

这就好比在投资界，不要试图用 AI 去“打败”市场，而应该让 AI 去“辅助”市场。

市场代表了集体的智慧和当前的共识（很稳）。
AI 擅长从海量文字中挖掘别人没注意到的细节（很敏锐）。
最好的方法是：让 AI 在尊重市场共识的基础上，利用新信息去微调预测，最后把两者的意见加权平均。

一句话总结：
这篇论文教我们如何设计 AI 的“思考方式”，让它像一个懂得倾听市场声音、又能独立思考的聪明助手，从而在预测未来时，比单独的市场或单独的 AI 都更准。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《FORECASTING FUTURE LANGUAGE: CONTEXT DESIGN FOR MENTION MARKETS》（预测未来语言：提及市场的上下文设计）的详细技术总结。

1. 研究背景与问题定义 (Problem)

背景：预测市场（Prediction Markets）通过交易合约来反映未来事件发生的概率。然而，如何结合现代自然语言处理（NLP）技术（如大语言模型 LLM）中的文本信息（新闻、财报等）来改进市场隐含概率的预测准确性，仍是一个未解之谜。
具体任务：本文聚焦于提及市场（Mention Markets），特别是财报电话会议提及市场。这类合约的结算条件是：在即将到来的财报电话会议转录稿中，是否**逐字（verbatim）**出现特定的关键词。
核心挑战：
1. 虽然 LLM 在生成预测方面表现优异，但如何设计输入上下文（Context Design）以支持准确的预测尚不清楚。
2. 如何设计 LLM 的提示（Prompt），使其能够利用文本证据去修正（而非完全替代）现有的市场概率，而不是从零开始重新预测基础概率。
3. 需要解决 LLM 可能过度反应（Overreaction）或引入噪声的问题，同时保留市场作为稳定先验的价值。

2. 方法论 (Methodology)

作者提出了一套基于**市场条件化提示（Market-Conditioned Prompting, MCP）**的框架，旨在将 LLM 定位为市场概率的“修正者”而非“独立预测者”。

2.1 输入数据构建

对于每个预测实例，系统收集以下信息：

市场信号 ( $p_{mkt}$ )：截止时刻的合约价格（即市场隐含概率）。
文本证据 ( $C_i$ )：
- $T_i$ (Transcript)：该公司上一季度的财报电话会议转录稿。
- $N_i$ (News)：截止时刻前检索到的相关新闻文章。
上下文组合：实验对比了不同组合（无上下文、仅新闻、仅转录稿、两者结合）。

2.2 核心方法：市场条件化提示 (MCP)

传统基线 (W/O Prompting)：将市场概率仅作为普通文本上下文输入给 LLM，不给予特殊指令。
MCP 策略：
- 明确将市场概率 $p_{mkt}$ 视为先验概率 (Prior)。
- 在提示词中明确指示 LLM：基于提供的文本证据（新闻和转录稿）来评估并更新这个先验概率。
- 公式化表示： $p^{MCP}_i = LLM_\theta(T_i, N_i \mid p^{mkt}_i)$ 。
- 这种方法迫使模型进行“证据驱动的修正”，而不是重新预测基础比率。

2.3 混合预测 (MixMCP)

鉴于 LLM 可能会因噪声信号而过度修正，作者提出了一种凸组合策略，将市场先验与 MCP 的后验概率进行加权：
$p^{mixMCP}_i = \alpha \cdot p^{mkt}_i + (1 - \alpha) \cdot p^{MCP}_i$
其中 $\alpha$ 是固定系数（实验中设为 0.7），用于在稳定的市场基准和 LLM 的文本更新之间取得平衡。

3. 实验设置 (Experimental Setup)

数据集：来自 Kalshi 平台的 856 个财报提及市场合约，涵盖 50 家公司和 70 次财报事件（2025 年 4 月 -12 月）。
模型：使用 GPT-5.1，未进行微调，直接通过结构化输出获取 0-100 的概率评分。
评估指标：
- Brier Score：衡量预测概率与真实结果的均方误差（越低越好）。
- ECE (Expected Calibration Error)：衡量校准度，即预测置信度与实际准确率的一致性（越低越好）。
- Accuracy / F1 Score。

4. 关键结果 (Key Results)

4.1 上下文丰富度提升性能

丰富的上下文始终能提升预测性能。
顺序：(转录稿 + 新闻) > (仅转录稿) > (仅新闻) > (无上下文)。
上一季度的转录稿比新闻更能捕捉公司特有的沟通风格和重复主题。

4.2 MCP 优于朴素的市场信号输入

对比：将市场概率作为普通文本输入（W/O Prompting）的效果甚至差于单纯的市场基准（Brier: 0.1674 vs 0.1402），且校准度较差。
MCP 优势：通过明确指示模型将市场概率作为先验进行更新，MCP 显著提升了校准度（ECE 从 0.0705 降至 0.0514）和准确率（74.4% 提升至 78.2%）。
结论：收益并非来自“看到”市场数字，而是来自“基于证据修正”的推理过程。

4.3 MCP 在“中等置信度”区间表现最佳

分析显示，当市场概率处于**不确定区间（50%-70%）**时，MCP 最能发挥作用。
在市场信号明确（高置信度）时，MCP 倾向于保持市场判断；而在市场信号模糊时，MCP 能有效利用文本证据消除歧义。

4.4 MixMCP 超越单一基线

最终表现：MixMCP ( $\alpha=0.7$ $α = 0.7$ ) 在所有指标上均优于单纯的市场基准和单纯的 MCP。
- Brier Score: 0.1392 (优于市场的 0.1402 和 MCP 的 0.1470)。
- 准确率: 80.3% (最高)。
机制：MixMCP 通过 dampening（抑制）LLM 的后验更新，防止了过度修正，同时保留了 LLM 从文本中提取的新颖洞察。

5. 主要贡献 (Contributions)

框架创新：将基于文本的预测形式化为市场条件化更新问题。LLM 不再作为独立预测器，而是作为利用文本证据修正市场先验的更新器。
方法提出：提出了 MCP (Market-Conditioned Prompting) 协议。通过显式地将市场概率作为先验，显著提高了 LLM 预测的校准度。
实证发现：证明了 MixMCP（市场先验与 MCP 后验的混合）能持续超越市场基准。这表明即使在有效市场中，LLM 也能通过文本分析提供互补的增量价值。
洞察：揭示了 LLM 在中等置信度（市场信号模糊）场景下最具价值，而在高置信度场景下应尊重市场共识。

6. 意义与局限性 (Significance & Limitations)

意义：
- 为预测市场与 LLM 的结合提供了新的范式：不是用 AI 取代市场，而是用 AI 增强市场。
- 展示了上下文设计（如何提示模型处理先验）对预测性能的决定性影响。
- 证明了在金融预测中，结合结构化市场数据和非结构化文本数据的有效性。
局限性：
- 研究仅针对“财报提及”这一特定类型的文本驱动市场，结论在其他合约类型上的泛化性有待验证。
- 基于离线历史数据评估，未考虑实时部署中的动态反馈效应。
- LLM 的输出仍对提示词敏感，未来需探索跨模型的鲁棒性。

总结：该论文证明了通过精心设计的提示工程（MCP），将 LLM 定位为市场概率的“证据驱动修正者”，并结合混合策略（MixMCP），可以显著提升对特定未来语言事件（如关键词提及）的预测准确性和校准度。