SciDef: Datasets and Tools for Automated Definition Extraction from Scientific Literature with LLMs

本文介绍了 SciDef,这是一个包含 DefExtra 基准测试、DefSim 相似性判定以及一个用于推进自动化科学定义提取的开源大语言模型流水线的综合资源套件,同时指出相关性感知过滤是实现全自动系统的主要挑战。

原作者: Filip Kučera, Christoph Mandl, Isao Echizen, Radu Timofte, Timo Spinde

发布于 2026-06-15
📖 1 分钟阅读☕ 轻松阅读

原作者: Filip Kučera, Christoph Mandl, Isao Echizen, Radu Timofte, Timo Spinde

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

想象一下,你正试图为科学家们建立一本巨大的、通用的词典。问题在于,每位科学家都有自己的规则。一位研究人员可能将“媒体偏见”(media bias)定义为“新闻倾斜”,而另一位则称之为“文章内部偏见”。他们谈论的是同一件事,但使用的词汇却不同。这使得比较他们的研究工作或构建能够理解整个科学领域的工具变得极其困难。

这篇论文的作者们开发了 SciDef,他们就像是一群决定解决这个混乱问题的图书管理员和工程师。他们构建了一个工具包,旨在帮助计算机自动发现、阅读并比较这些科学定义。

以下是该工具包的工作原理,分为三个主要部分:

1. “金标准”词典 (DefExtra)

DefExtra 想象成一副经过精心挑选的、庞大的闪卡组。

  • 它是什么: 一个由人类从 75 篇不同的学术论文中手动提取出的 268 个真实定义的集合。
  • 难点在于: 他们并没有只是抓取任何看起来像定义句子的内容,而是过滤掉了模糊的描述,只保留了那些“作者陈述式”的定义——即科学家们为了解释其术语而实际写下的定义。
  • 为什么重要: 在此之前,如果你想测试一个计算机程序是否能找到定义,你必须自己制作测试集。现在,每个人都可以使用这个相同的“金标准”卡片组来观察谁做得更好。

2. “口味测试” (DefSim)

寻找一个定义很容易;但判断两个定义是否意味着“相同的东西”却很难。

  • 问题所在: 如果计算机说“媒体偏见是糟糕的报道”,而人类给出的答案是“媒体偏见是倾斜的报道”,它们是一样的吗?简单的计算机检查可能会判定“不,词汇不同”。
  • 解决方案: DefSim 是一个包含 60 对定义的小型集合,人类对这些定义进行了 1 到 5 分的相似度评分(就像评价两首歌听起来有多相似一样)。
  • 目标: 这充当了一个“口味测试”,用以观察计算机的数学逻辑(其相似性度量指标)是否与人类的直觉一致。论文发现,一种特定的 AI 逻辑(称为 NLI)在通过这项口味测试方面表现得非常出色。

3. 机器人图书管理员 (SciDef Pipeline)

这就是实际执行工作的机器。

  • 它是如何工作的: 想象一个机器人,它接收一份 PDF 格式的科学论文,将其切成小块(就像切面包片一样),然后询问大语言模型(LLM):“请找出这一块中的定义。”
  • 实验过程: 作者使用不同的提问方式(提示词)和不同的切片方式(分块)测试了 1 种不同的 AI 模型。
  • 实验结果:
    • “全覆盖”策略: 有些设置能让机器人找到几乎所有的定义(86.4%!)。然而,它也找回了很多垃圾信息。这就像是一个金属探测器,不仅能探测到金币,连瓶盖和钉子也会发出鸣响。
    • “聪明”策略: 表现最好的设置使用了某种特殊的优化技术(DSPy)。它并没有找到“每一个”定义,但它找到的定义都是高质量且相关的。它的得分是 0.397,是所有组别中最高的。
    • 瓶颈所在: 主要问题不在于寻找定义,而在于过滤。机器人擅长撒大网,但它们很难在没有人类帮助的情况下丢弃无关的“噪音”。

核心结论

作者们并不是在声称机器人现在可以完美地独立阅读并理解科学。相反,他们是在说:

  1. 我们拥有工具: 他们向世界提供了数据(DefExtra, DefSim)和机器人(SciDef),以持续改进。
  2. 机器擅长“高召回率”: 它们可以找到你寻找的几乎所有东西,但也会带回很多杂乱的信息。
  3. 人类仍然必不可少: 因为机器人会过度生成(找回太多垃圾),所以下一步对于研究人员来说,是构建更好的过滤器,以将“金币”与“瓶盖”区分开来。

简而言之,SciDef 是一个入门套件,适合任何想要教计算机如何理解科学语言的人,它配备了一套测试卡片、一套评分准则以及一个正在运行的原型。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →