Longevity Bench: Are SotA LLMs ready for aging research?

⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于**“长寿基准测试”（LongevityBench）的研究报告。简单来说，这就是一场“AI 生物学家资格考试”**，目的是看看现在最聪明的人工智能（大语言模型，LLM）到底有没有真正“懂”变老这件事，还是只是在背课文。

想象一下，你正在招聘一位助手来帮你研究人类如何长寿。你面前有 15 位来自不同公司（如 OpenAI、Google、Anthropic 等）的“超级天才”候选人。为了测试他们，你设计了一套特殊的试卷，这就是LongevityBench。

🧬 这场考试考了什么？

这就好比给 AI 出了一套**“生物侦探”**的考题，涵盖了人类变老过程中的各种线索：

看体检报告猜寿命（临床数据）：
- 题目： 给你一个人的体检数据（血压、血糖、年龄等），问：“这个人还能活 10 年吗？”或者“这两个人谁活得更久？”
- 比喻： 就像老中医看面相和脉象，或者像保险精算师看数据表，AI 需要判断风险。
看基因密码猜年龄（表观遗传学）：
- 题目： 给你一段 DNA 甲基化数据（就像 DNA 上的“时间戳”），问：“这个人大概多少岁？”
- 比喻： 就像看一本旧书的页码磨损程度，或者看树木的年轮，AI 需要读出时间的痕迹。
看细胞活动猜衰老（转录组与蛋白质）：
- 题目： 给你细胞里成千上万个基因或蛋白质的活跃程度，问：“这个样本是来自年轻人还是老年人？”
- 比喻： 就像听一个工厂的机器轰鸣声，AI 需要分辨这是“新工厂”（年轻）还是“老旧工厂”（衰老）在运作。
做基因实验（遗传干预）：
- 题目： 告诉你给果蝇或老鼠加了两个基因突变，问：“它们会比普通老鼠活得更久吗？”
- 比喻： 就像给赛车改装引擎，AI 需要预测改装后是跑得更快（长寿）还是直接散架（早逝）。

🏆 考试结果如何？

这次考试邀请了 15 位“超级天才”（包括 GPT-5、Gemini 3、Claude 4.5 等当时最先进的模型）参加。结果非常有趣，也让人清醒：

没有全能冠军： 就像没有哪个学生能在数学、语文、体育和音乐所有科目都拿满分一样。没有一款 AI 在所有题目上都表现完美。
- 有的 AI 擅长看体检报告（比如 Google 的 Gemini 3 Pro），但在看基因数据时却像个初学者。
- 有的 AI 擅长猜癌症病人的生存期（比如 Anthropic 的 Claude），但在其他题目上表现平平。
- 目前的“状元”： Google 的 Gemini 3 Pro 综合排名最高，OpenAI 的 GPT-5 和 o3 紧随其后。
最大的弱点：死记硬背 vs. 真正理解
- 题目换种问法就懵了： 这是最让人惊讶的发现。如果题目问“谁活得更久？”，AI 能答对；但如果把同样的数据换一种问法（比如“谁先去世？”或者“把年龄分成几个档次选”），AI 的得分就会大幅下降，甚至不如瞎猜。
- 比喻： 这就像学生背熟了“苹果是红色的”，但如果你问“红色的水果一定是苹果吗？”，他就答不上来了。这说明 AI 并没有真正理解“衰老”背后的生物学逻辑，它只是在玩“找规律”的游戏，而不是在“做研究”。
某些领域表现特别差：
- 在蛋白质（Proteomics）相关的题目上，所有 AI 都表现得很糟糕，几乎是在乱猜。
- 比喻： 就像让一个只读过医学书的人去修精密的瑞士手表，他完全不知道那些零件（蛋白质）是怎么配合工作的。

💡 这对我们意味着什么？

这篇论文给科学家们泼了一盆冷水，但也指明了方向：

别太迷信 AI： 目前，AI 还不能完全替代生物学家去研究衰老。如果你让它直接预测某个新药能不能让人长寿，它可能会一本正经地胡说八道。
AI 是个好助手，但不是决策者： 它们可以帮科学家写代码、查文献、整理数据，但在做关键的科学判断时，人类专家必须亲自把关。
未来的路： 作者建立这个“考试”不是为了羞辱 AI，而是为了给 AI 补课。通过不断测试，告诉 AI 开发者：“看，你们的孩子在这里不懂，那里也不懂，快去训练它！”

🌟 总结

这就好比我们给 AI 发了一张**“生物学家实习证”。目前的测试结果显示，这些实习生虽然聪明绝顶，背了很多书，但缺乏真正的“生物直觉”**。它们能处理数据，但还没学会如何像生物学家那样思考生命的奥秘。

LongevityBench 就是那个严格的考官，它的存在是为了确保未来的 AI 不仅仅是“会说话的百科全书”，而是真正能帮我们解开长寿之谜的**“智慧伙伴”**。

Longevity Bench: Are SotA LLMs ready for aging research?

🧬 这场考试考了什么？

🏆 考试结果如何？

💡 这对我们意味着什么？

🌟 总结

LongevityBench 论文技术总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 数据集构建

2.2 任务格式

2.3 评估对象与指标

3. 关键贡献 (Key Contributions)

4. 主要结果 (Results)

4.1 总体排名

4.2 模态与任务差异

4.3 上下文利用能力

5. 意义与展望 (Significance)

Longevity Bench: Are SotA LLMs ready for aging research?

🧬 这场考试考了什么？

🏆 考试结果如何？

💡 这对我们意味着什么？

🌟 总结

LongevityBench 论文技术总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 数据集构建

2.2 任务格式

2.3 评估对象与指标

3. 关键贡献 (Key Contributions)

4. 主要结果 (Results)

4.1 总体排名

4.2 模态与任务差异

4.3 上下文利用能力

5. 意义与展望 (Significance)

类似论文

Functional-space alignment resolves the eco-evolutionary landscape of siderophore biosynthesis across bacteria

Exploring molecular signatures of senescence with markeR, an R toolkit for evaluating gene sets as phenotypic markers

TFBindFormer: A Cross-Attention Transformer for Transcription Factor-DNA Binding Prediction

TSvelo: Comprehensive RNA velocity by modeling cascade of gene regulation, transcription and splicing

From Movement to METs: A Validation of ActTrust(R) for Energy Expenditure Estimation and Physical Activity Classification in Young Adults