Utilizing Pre-trained and Large Language Models for 10-K Items Segmentation

该研究提出并比较了基于大语言模型(GPT4ItemSeg)和预训练模型结合 Bi-LSTM(BERT4ItemSeg)的两种 10-K 报告项目分割方法,其中 BERT4ItemSeg 在核心项目分割任务中取得了优于传统规则及条件随机场方法的最高性能(宏观 F1 值 0.9825),而 GPT4ItemSeg 则具备更强的监管变化适应性,两者共同构成了可扩展的 10-K 项目分割框架。

Hsin-Min Lu, Yu-Tai Chien, Huan-Hsun Yen, Yen-Hsiu Chen

发布于 2026-04-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章主要解决了一个让会计和金融研究人员非常头疼的问题:如何从成千上万页的“公司年报”(10-K 文件)中,精准地找到并切分出特定的章节?

想象一下,10-K 文件就像是一个巨大的、没有目录的超级迷宫。里面混杂着公司的财务状况、风险因素、法律诉讼等成千上万条信息。研究人员想要研究“风险因素”(Item 1A)或“管理层讨论”(Item 7),但如果没有自动化工具,他们就得像盲人摸象一样,一页页人工翻阅,或者用笨拙的“关键词搜索”去猜哪里是开头、哪里是结尾。

这篇文章提出了两种聪明的“迷宫导航员”(AI 模型),帮助研究人员快速、准确地切分这些文档。

1. 核心挑战:为什么这很难?

以前的方法就像是用老式探雷器(基于规则的代码):

  • 太死板:如果公司把标题从“风险因素”改成“我们面临的挑战”,或者把章节顺序打乱,老式探雷器就会失灵,找不到路。
  • 容易出错:一旦第一步切分错了,后面所有的数据分析都会像多米诺骨牌一样倒塌。
  • 维护困难:美国证券交易委员会(SEC)经常修改规则,研究人员得不断手动更新代码,非常累人。

2. 两大创新方案:两位“导航员”

作者训练了两个 AI 模型来当导航员,它们各有绝活:

🤖 方案一:BERT4ItemSeg(“超级阅读者”)

  • 它的角色:像一个受过严格训练的图书管理员
  • 怎么工作:它先学习大量的 10-K 文件(就像背熟了图书馆的藏书规律),然后逐行阅读。它使用一种叫 BERT 的技术来理解每一行文字的含义,再用 Bi-LSTM(一种擅长处理长句子的技术)来预测哪里是章节的开始和结束。
  • 优点准确率极高(在测试中得分 98.26%)。它非常稳定,就像一位经验丰富、从不犯错的资深编辑。
  • 缺点:它需要专门的电脑显卡(GPU)来运行,而且如果 SEC 突然改了规则(比如增加了新的“网络安全”章节),它需要重新“上课”(重新训练)才能学会。

🧠 方案二:GPT4ItemSeg(“灵活的外交官”)

  • 它的角色:像一个聪明的实习生,拿着最新的“操作手册”(提示词 Prompt)。
  • 怎么工作:它利用强大的 ChatGPT-4o。作者发明了一种叫“行号提示法”(Line-ID)的技巧。
    • 比喻:以前让 AI 读整本书,AI 容易记混或者瞎编(幻觉)。现在,作者给每一行都编了号,然后问 AI:“请告诉我,‘风险因素’是从第几行开始的?”AI 只需要回答数字,然后程序自动把那一行到下一行之间的内容切出来。
  • 优点极其灵活。如果 SEC 明天加了新章节,作者只需要在“操作手册”里加几个例子,AI 马上就能学会,不需要重新训练。它不需要昂贵的显卡,只要有网就能用。
  • 缺点:准确率稍低一点(95.67%),而且每次使用都要付 API 费用,还需要把数据传给云端(涉及隐私顾虑)。

3. 实验结果:谁赢了?

作者收集了 3737 份真实的 10-K 文件,让人工标注了正确答案,然后让这两个 AI 和老方法比赛。

  • 冠军BERT4ItemSeg(超级阅读者)。它的表现最稳定,几乎完美地切分了核心章节。
  • 亚军GPT4ItemSeg(灵活外交官)。虽然分数稍低,但表现依然非常出色,而且胜在“反应快”。
  • 垫底:传统的规则方法(老式探雷器)。一旦格式稍微变一点,它就抓瞎了。

4. 这篇文章为什么重要?(给普通人的启示)

  1. 建立了“标准地图”:以前大家切分文档都是“自创方法”,导致不同研究的结果没法比较。这篇文章建立了一个公开的大数据集,相当于给所有人发了一张标准的“迷宫地图”,让未来的研究更公平、可重复。
  2. 解决了“长文档”难题:以前的 AI 读不了太长的文件(像 BERT 只能读 512 个词,而年报有几万个词)。作者通过巧妙的“分层结构”和“行号提示”,让 AI 能轻松搞定几十页甚至上百页的长文档。
  3. 未来已来
    • 如果你想要最精准的结果,且有自己的电脑,用“超级阅读者”(BERT)。
    • 如果你需要快速适应新规则,或者没有昂贵设备,用“灵活外交官”(GPT)。

总结

这就好比以前我们要整理一个巨大的仓库,只能靠工人拿着手电筒一个个箱子找(传统方法),既慢又容易漏。现在,作者造了两台机器人:

  • 一台是精密仪器,只要给它看够多的仓库样本,它就能把东西分得井井有条,但换个新仓库得重新调试。
  • 另一台是智能助手,你给它看几个新箱子的样子,它立马就能学会怎么分,虽然偶尔会分错一两个,但胜在灵活。

这项研究让金融和会计领域的数据分析变得更干净、更可靠,就像给研究人员装上了“透视眼”,能直接看到他们真正关心的核心信息,而不被杂乱的格式所困扰。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →