A Bipartite Graph Approach to U.S.-China Cross-Market Return Forecasting

Each language version is independently generated for its own context, not a direct translation.

这篇文章就像是在讲两个邻居（美国和中国的股市）之间如何“隔空传话”，以及我们如何利用这种“传话”来预测明天的天气（股票涨跌）。

想象一下，美国股市和中国股市是住在地球两端的两个邻居。因为时差的原因，他们从来不会同时醒着：

当美国邻居还在睡觉（休市）时，中国邻居已经起床干活了（开市）。
当中国邻居收工回家睡觉时，美国邻居才刚刚起床开始干活。

这就产生了一个有趣的现象：美国邻居前一天晚上的“梦话”（收盘后的信息），可能会影响中国邻居第二天早上的“工作状态”（开盘后的表现）。

这篇论文就是研究怎么听懂这些“梦话”，并用来赚钱。

1. 核心工具：一张特殊的“关系网”（二分图）

作者没有用那种复杂的、把所有股票都混在一起的大网，而是发明了一种**“单向关系网”，他们叫它二分图（Bipartite Graph）**。

比喻：想象左边有一排美国股票（A 组），右边有一排中国股票（B 组）。
连线规则：如果美国某只股票（比如苹果）昨天的表现，能很好地预测中国某只股票（比如腾讯）今天的表现，作者就在它们之间画一条单向箭头，从苹果指向腾讯。
怎么画线？：他们不是瞎猜，而是用统计学方法（就像老师批改作业时的“显著性测试”）来筛选。只有那些关系特别铁、信号特别强的连线才会被保留下来。
结果：这张网非常稀疏（线很少），但每一根线都很有意义。它就像是一个过滤器，帮我们把成千上万条杂乱的信息，过滤成最有价值的几条“关键线索”。

2. 实验过程：让机器当“翻译官”

有了这张关系网，作者就请来了10 位不同的“机器翻译官”（也就是 10 种不同的机器学习模型，比如随机森林、神经网络等）。

任务：这些翻译官的任务是，根据美国股票昨天的“梦话”（通过关系网筛选出的关键线索），来预测中国股票今天会涨还是跌。
对比：他们不仅让机器看美国的消息，还让机器只看中国自己的历史消息，或者不看关系网直接看所有消息，以此来做对比。

3. 惊人的发现：信息是“单向流动”的

这是论文最有趣的地方，就像发现了**“美国是老大，中国是跟班”**的规律：

美国 $\rightarrow$ 中国：效果非常好！美国昨天的收盘情况，能很准地预测中国今天的走势。这就像美国邻居前一天晚上在梦里大喊一声“明天要下雨”，中国邻居第二天早上出门就带了伞，而且带得很准。
中国 $\rightarrow$ 美国：效果很弱。中国昨天的表现，对美国今天的预测帮助不大。这就像中国邻居早上喊了一声，美国邻居晚上睡觉时根本听不见，或者听到了也不在乎。

为什么？
因为美国市场是全球金融中心，它的信息（尤其是收盘后的消息）传播得最快、最广。而中国市场的信息对美国的影响相对滞后和微弱。

4. 结论：谁赢了？

赢家：那些**既用了“关系网”筛选线索，又结合了“美国消息”**的机器模型。
输家：那些只看自己家历史数据，或者乱抓线索的模型。
关键洞察：
1. 结构很重要：那张精心设计的“关系网”（二分图）是关键。它帮机器去除了噪音，只保留了真正有用的“跨市场信号”。
2. 时间很重要：信息越新鲜越好。如果美国的消息是两天前的，效果就大打折扣了（就像过期的天气预报）。
3. 不对称性：在预测中国股市时，美国的“隔夜信息”是金矿；但在预测美国股市时，中国的“隔夜信息”含金量就低多了。

总结

这篇论文就像是在说：

“如果你想预测中国股市明天的表现，别光盯着中国自己的历史看。你要学会**‘听美国邻居的梦话’。但是，不能什么都听，得用一张聪明的网**把那些真正有影响力的‘梦话’（比如科技股对科技股的影响）挑出来，交给机器去分析。这样，你就能比那些只看自己家的人，更准地预测明天的天气。”

一句话总结：利用时差，通过一张精心设计的“单向关系网”，把美国股市的“隔夜消息”变成预测中国股市的“水晶球”，发现美国对中国的预测力远强于反向。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《A Bipartite Graph Approach to U.S.-China Cross-Market Return Forecasting》（一种基于二分图的美中跨市场回报预测方法）的详细技术总结。

1. 研究问题 (Problem)

核心挑战：金融市场的回报预测面临噪声大、非平稳性和非线性依赖等统计难题。现有的机器学习研究多集中于单一市场内的预测，而针对跨市场（特别是美股与中股）的个股级别回报预测研究较少。
特定背景：美国和中国股市的交易时间不重叠（Non-overlapping trading hours）。这意味着前一交易日的收盘信息在下一个市场开盘前是完全可观测的，这为构建具有明确时间顺序的跨市场预测框架提供了天然的实验环境。
研究缺口：现有文献多关注指数层面的联动或波动率溢出，缺乏利用机器学习在个股层面、基于非重叠交易时段进行显式跨市场回报预测的框架。

2. 方法论 (Methodology)

该研究提出了一种两阶段的机器学习框架，核心在于利用**有向二分图（Directed Bipartite Graph）**作为特征选择层。

2.1 数据构建

数据源：涵盖纽约证券交易所 (NYSE)、纳斯达克 (Nasdaq)、上海证券交易所 (SSE) 和深圳证券交易所 (SZSE)。
样本：选取两国市值最大的 500 只股票（2014-2021 年）。
目标变量：预测开盘至收盘（Open-to-Close, OPCL）的超额回报。
预测变量：利用前一市场的收盘至收盘（Previous Close-to-Close, pvCLCL）或开盘至收盘（OPCL）回报。
时间对齐：
- 预测中国股票时：使用美国 $t-1$ 日的 pvCLCL 回报（ $l=1$ ），因为美国收盘早于中国次日开盘。
- 预测美国股票时：使用中国 $t$ 日的 pvCLCL 回报（ $l=0$ ），因为中国收盘早于美国同日开盘。

2.2 有向二分图构建 (核心创新)

图结构：定义源市场 $X$ （如美股）和目标市场 $Y$ （如中股）为两个不相交的节点集。
边（Edges）的选择：
- 在滚动窗口（Look-back window, $w=250$ 天）内，对每一对 $(X_j, Y_i)$ 进行单变量线性回归。
- 计算回归系数的 $t$ 统计量。
- 阈值筛选：设定阈值 $\tau=2$ （对应约 95% 置信度），仅保留 $|t_\beta| > \tau$ 的边。
- 目的：这种筛选机制不仅作为特征选择，还作为一种**稀疏化（Sparsification）**手段，去除噪声，构建出具有经济解释性的跨市场预测网络。
图的性质：这是一个有向且时间有序的图，反映了信息从源市场向目标市场的潜在传导路径，而非简单的同期相关性。

2.3 机器学习预测模型

利用筛选出的跨市场特征（即图中指向目标股票 $Y_i$ 的源股票 $X_j$ 的回报），输入到 10 种不同的机器学习模型中进行预测：

线性/正则化模型：OLS, LASSO, Ridge。
核方法：支持向量机 (SVM)。
树模型：XGBoost, LightGBM (LGBM), 随机森林 (RF), AdaBoost。
集成策略：结果平均 (Ensemble-avg) 和结果中位数 (Ensemble-med)。

3. 主要贡献 (Key Contributions)

框架创新：首次将有向二分图引入跨市场个股回报预测，利用非重叠交易时间构建严格的时间序列依赖关系，解决了传统跨市场研究中时间对齐的难题。
特征选择机制：提出了一种基于滚动窗口假设检验的图构建方法，将统计显著性转化为稀疏的预测特征，增强了模型的可解释性。
不对称性发现：通过实证分析，量化并证实了美中市场间存在显著的预测不对称性（Directional Asymmetry）。
方法学验证：系统比较了单一市场基准、同市场图模型与跨市场图模型的表现，证明了跨市场信息结合图结构筛选能显著提升预测精度。

4. 实验结果 (Results)

预测不对称性：
- 美股 $\to$ 中股：利用美国 pvCLCL 回报预测中国 OPCL 回报，表现优异。多种模型（特别是 Ridge, LGBM, 集成模型）的夏普比率（Sharpe Ratio, SR）普遍超过 1，部分接近 2。
- 中股 $\to$ 美股：反向预测效果显著较弱，SR 值普遍较低。
- 结论：美国市场信息对中国市场具有更强的预测力，且**隔夜信息（pvCLCL）**比日内信息（OPCL）更具预测价值。
模型性能对比：
- 跨市场 > 同市场：结合跨市场信息的图模型显著优于仅使用同市场信息的图模型和非图基准模型。
- 集成模型表现稳健：Ensemble-avg 和 Ensemble-med 方法在大多数分位数下表现稳定，往往优于单一模型。
敏感性分析：
- 图结构重要性：随机替换图中的边会导致预测性能（SR）显著下降，证明预测收益依赖于图捕捉到的真实经济结构，而非随机多样性。
- 时间滞后效应：随着预测滞后时间 $l$ 的增加（即使用更早的数据），预测性能下降，表明跨市场信息的时效性至关重要。
行业传导：图结构分析显示，跨市场预测连接并不局限于同行业（非块对角结构），例如中国金融服务板块与美国公用事业板块之间存在显著联系，揭示了复杂的跨行业传导机制。

5. 意义与启示 (Significance)

理论意义：证明了在高度非线性和高维的金融数据中，利用结构化机器学习框架（图 + 统计筛选）可以有效挖掘跨市场的依赖关系，同时保持模型的经济可解释性。
实证意义：确认了美股作为全球定价中心，其隔夜信息对中国股市日内走势具有显著的指导作用，且这种作用具有方向性。
实践价值：虽然论文未构建包含交易成本的完整交易策略，但结果表明基于该框架的预测信号具有显著的经济价值（Pre-cost Alpha）。
未来方向：
- 扩展至欧洲及其他亚洲市场。
- 直接应用图神经网络（GNN）学习非线性跨市场依赖。
- 探索大语言模型（LLM）在结构化跨市场交互建模中的应用。

总结：该论文通过构建基于统计显著性的有向二分图，成功将美股的隔夜信息转化为预测中股日内回报的有效特征，揭示了显著的单向预测不对称性，为跨市场量化投资提供了新的方法论视角。

A Bipartite Graph Approach to U.S.-China Cross-Market Return Forecasting

1. 核心工具：一张特殊的“关系网”（二分图）

2. 实验过程：让机器当“翻译官”

3. 惊人的发现：信息是“单向流动”的

4. 结论：谁赢了？

总结

1. 研究问题 (Problem)

2. 方法论 (Methodology)

2.1 数据构建

2.2 有向二分图构建 (核心创新)

2.3 机器学习预测模型

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与启示 (Significance)

类似论文

LLM-Agent Interactions on Markets with Information Asymmetries

Conscription and its exemption in 19th Century Japan: Incentivized family head in educational market

Spectral Portfolio Theory: From SGD Weight Matrices to Wealth Dynamics

Slippage-at-Risk (SaR): A Forward-Looking Liquidity Risk Framework for Perpetual Futures Exchanges

AlgoXpert Alpha Research Framework. A Rigorous IS WFA OOS Protocol for Mitigating Overfitting in Quantitative Strategies