HEARTS: Benchmarking LLM Reasoning on Health Time Series

该论文提出了名为 HEARTS 的统一基准,旨在通过整合 16 个真实数据集和 110 项任务来评估大语言模型在健康时间序列上的分层推理能力,研究发现当前模型在复杂时序推理上表现不佳且单纯扩大规模无法解决这一问题,从而为开发下一代医疗推理智能体提供了标准化测试平台。

Sirui Li, Shuhan Xiao, Mihir Joshi, Ahmed Metwally, Daniel McDuff, Wei Wang, Yuzhe Yang

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 HeaRTS 的新项目,你可以把它想象成给“医疗 AI 大脑”做的一次全面且严格的“体检”

为了让你更容易理解,我们可以用几个生活中的比喻来拆解这篇论文的核心内容:

1. 背景:为什么需要这次“体检”?

现在的大语言模型(LLM)(比如 ChatGPT 这类 AI)非常聪明,能写诗、写代码、做数学题。于是,科学家们想:“既然它们这么聪明,能不能让它们直接看懂人体健康数据(比如心电图、血糖监测、睡眠记录)呢?”

但是,以前的测试太简单了,就像只让一个刚学医的学生做“选择题”,而且题目只涉及很少几种病。这无法反映真实世界中医生面对复杂病情时的推理能力。

HeaRTS 就是为了解决这个问题而诞生的。 它不是一个简单的考试,而是一个超级复杂的“模拟医院”考场

2. HeaRTS 是什么?(考场的规模)

想象一下,HeaRTS 是一个拥有12 个不同科室(如心脏科、睡眠科、运动科等)和20 种不同检查仪器(从每秒跳动一次的脉搏,到每秒采样 4 万次的脑电波)的大型医院。

  • 数据量巨大:它收集了真实世界的 16 个数据集,包含了超过 2 万个测试题
  • 题目多样:不仅仅是“是或否”的选择题,还包括:
    • 感知(Perception):像护士一样,从一堆杂乱的波形中数出心跳了多少次,或者找出异常点。
    • 推理(Inference):像医生一样,根据数据判断病人是不是在睡觉,或者有没有低血糖风险。
    • 生成(Generation):像预测未来一样,根据过去的血糖数据,画出明天的血糖曲线;或者把缺失的数据“补”回来。
    • 演绎(Deduction):像老专家一样,结合多年的病史,推断病人未来可能得什么病,或者判断两个不同时间的检查哪个先发生。

3. 考试结果:AI 的表现如何?

科学家们让 14 个目前最顶尖的 AI 模型(包括 GPT-4.1, Claude, Gemini 等)参加了这场考试。结果有点让人意外,甚至有点“打脸”:

  • 表现平平:这些在聊天和写代码上无所不能的 AI,在面对医疗时间序列数据时,表现远不如专门训练过的医疗 AI 模型
    • 比喻:就像一个全科天才医生(通用大模型),虽然懂很多知识,但让他直接看心电图做手术,他可能还不如一个专门看了十年心电图的专科医生(专用模型)做得准。
  • 靠“猜”和“套路”:很多 AI 并没有真正理解数据背后的生理逻辑。它们更像是在玩“连连看”,或者用简单的数学公式(比如直线插值)去硬套复杂的数据。
    • 比喻:当被要求预测明天的血糖时,AI 可能只是把今天的曲线简单复制粘贴一下,或者画一条直线,而不是真正理解“吃了饭血糖会升,胰岛素会降”这种复杂的生理过程。
  • 数据越复杂,AI 越晕
    • 时间越长:如果数据跨度从几分钟变成几个月,AI 的准确率就直线下降。
    • 频率越高:如果数据采样非常快(比如每秒几千次),AI 就更容易“看花眼”。
    • 比喻:这就像让 AI 看慢动作回放它还能应付,但让它看超高速摄影或者连续看一年的监控录像,它就开始“死机”或胡乱猜测了。
  • 通用智商不等于医疗智商:论文发现,一个 AI 在通用推理测试(如数学、逻辑)中得分越高,并不代表它在医疗数据测试中表现越好。这两者几乎没有关系

4. 为什么会出现这种情况?

论文指出,目前的 AI 在处理这种数据时,缺乏真正的**“因果推理”**能力。

  • 它们没有真正的**“时间感”**:很难理解“因为 A 发生了,所以 B 在 5 分钟后发生”这种长链条的因果关系。
  • 它们缺乏**“领域知识”**:它们不知道心电图的某个波形代表心脏缺血,除非有人手把手教它,否则它只能靠猜。

5. 这个项目的意义是什么?

HeaRTS 不仅仅是一次考试,它是一个**“活着的生态系统”**(Living Ecosystem)。

  • 持续更新:就像游戏版本更新一样,未来会有更多的数据、更多的任务加入进来。
  • 社区共建:全球的科学家都可以往里面添加新的测试题或新的 AI 模型,共同推动医疗 AI 的进步。
  • 指明方向:它告诉开发者们,别光想着把模型做得更大(Scaling),现在的模型在“理解时间”和“理解生理机制”上还有很大的短板,需要新的技术突破。

总结

简单来说,这篇论文告诉我们:现在的 AI 虽然很聪明,但在处理复杂的、随时间变化的医疗数据时,还像个“外行”。它们擅长处理文字,但还没学会如何像真正的医生一样,去“思考”和“推理”人体随时间变化的健康信号。

HeaRTS 就是那个拿着听诊器和各种仪器,严格拷问 AI 的“考官”,目的是逼着 AI 从“只会聊天”进化到“能真正看病”的下一代智能体。