FinTexTS: Financial Text-Paired Time-Series Dataset via Semantic-Based and Multi-Level Pairing

该论文提出了名为 FinTexTS 的大规模金融文本 - 时间序列配对数据集,通过基于语义的上下文提取和多级(宏观、行业、关联公司及目标公司)新闻分类框架,有效解决了传统关键词匹配无法捕捉复杂市场关联的局限,并显著提升了股票价格预测性能。

Jaehoon Lee, Suhwan Park, Tae Yoon Lim, Seunghan Lee, Jun Seo, Dongwan Kang, Hwanil Choi, Minjae Kim, Sungdong Yoo, SoonYoung Lee, Yongjae Lee, Wonbin Ahn

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一个名为 FinTexTS 的新项目,它的核心任务是:教计算机如何像经验丰富的老股民一样,通过阅读新闻来预测股票价格。

为了让你更容易理解,我们可以把金融市场想象成一个巨大的、嘈杂的“超级市场”,而股票价格就是货架上商品的价格

1. 以前的做法:只会“搜关键词”的笨机器人

以前的研究者试图教机器人预测股价,方法是:只要新闻里出现了“苹果公司”或"Apple"这几个字,就把这条新闻和苹果公司的股价联系起来。

  • 比喻:这就像你在超市里找苹果。如果机器人只认“苹果”这两个字,它可能会把“苹果派”(一种甜点)或者“苹果树”(一种植物)的新闻也当成苹果公司的新闻。
  • 问题
    1. 漏掉重要信息:如果新闻说“芯片行业面临巨大挑战”,虽然没提“英伟达”(NVIDIA)的名字,但这其实对英伟达影响巨大。老方法会直接忽略这条新闻。
    2. 层次不分:它分不清哪些新闻是国家大事(比如央行加息),哪些是行业风波(比如半导体短缺),哪些是公司八卦(比如 CEO 辞职)。它把所有新闻混为一谈。

2. 新做法:FinTexTS 的“智能读心术”

这篇论文提出了一种更聪明的方法,叫**“基于语义和多级配对”。我们可以把它想象成给机器人配备了一位“超级分析师”**。

这个分析师的工作流程分为四步:

第一步:读懂公司的“体检报告” (SEC 文件解析)

  • 做法:分析师会先仔细阅读公司提交的官方文件(SEC 文件),了解这家公司到底是做什么的、有什么风险、最近有什么大动作。
  • 比喻:这就像在去超市买苹果前,先仔细研究苹果树的生长习性、土壤需求和病虫害历史。这样你就知道,什么样的新闻会对这棵树产生真正的影响。

第二步:像侦探一样“意会”新闻 (语义配对)

  • 做法:不再死板地搜关键词,而是利用 AI 的“理解能力”。如果新闻说“显卡需求暴涨”,AI 能立刻明白这和“英伟达”有关,哪怕新闻里没提英伟达的名字。
  • 比喻:就像你看到新闻说“夏天到了,冰淇淋销量大增”,你不需要新闻里写“哈根达斯”的名字,也能立刻联想到哈根达斯会卖得好。这就是**“意会”**。

第三步:把新闻分门别类 (多级配对)

这是 FinTexTS 最厉害的地方。它把新闻分成了四个层级,像剥洋葱一样:

  1. 宏观层 (Macro):国家大事。比如“美联储加息了”。这就像天气变了,会影响整个超市的所有商品。
  2. 行业层 (Sector):行业大事。比如“芯片行业产能不足”。这就像水果区整体缺货,会影响所有卖水果的摊位。
  3. 关联公司层 (Related Company):竞争对手或合作伙伴。比如“英伟达发布了新显卡”。这对 AMD(英伟达的竞争对手)来说,既是好消息(行业火)也是坏消息(竞争大)。
  4. 目标公司层 (Target):公司自己的事。比如“AMD 宣布与微软合作”。
  • 比喻:以前机器人是把所有新闻倒进一个锅里煮。现在,FinTexTS 给机器人准备了四个不同大小的碗
    • 大碗装“天气变化”(宏观);
    • 中碗装“水果区行情”(行业);
    • 小碗装“隔壁摊位的动静”(竞争对手);
    • 小碟子装“自家摊位的事”(公司自身)。
      这样,机器人就能清楚地知道,到底是“天冷”导致苹果涨价,还是“自家苹果坏了”导致涨价。

第四步:提炼精华 (新闻摘要)

  • 做法:新闻往往很长且啰嗦。AI 会把成千上万条新闻读完后,提炼出最核心的几点,变成简短的摘要。
  • 比喻:就像你不想读几十页的报纸,只想看“今日头条”的总结。

3. 实验结果:真的有用吗?

研究人员用这个新方法构建了一个巨大的数据集(FinTexTS),包含了 100 家大公司、5 年的数据和约 100 万条新闻。

  • 结果:当他们用这个数据去训练预测模型时,准确率比以前的“关键词搜索法”高了很多
  • 发现
    • 加上“语义理解”(意会新闻)比死板搜索更准。
    • 加上“多级分类”(分清宏观、行业、公司)比只关注公司自己更准。
    • 如果用更高质量的付费新闻(私有数据),效果还会更好。

总结

这篇论文的核心思想就是:预测股票不能只看“谁提到了谁”,而要看“谁和谁有关系”以及“这件事在什么层面上发生了”。

FinTexTS 就像给金融 AI 装上了一双**“透视眼”“分类脑”**,让它能透过新闻的字面意思,看到背后复杂的商业逻辑和层层递进的影响关系,从而做出更聪明的预测。

一句话总结:以前是“见字即连”,现在是“懂意分层”,让 AI 真正像人类专家一样理解金融世界的复杂性。