CRISP: Characterizing Relative Impact of Scholarly Publications

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 CRISP 的新方法，旨在更聪明地评估学术论文的“影响力”。

为了让你轻松理解，我们可以把学术研究想象成一个巨大的**“美食评论圈”，而每一篇新发表的论文就是一道“新菜”**。

1. 传统方法的痛点：盲人摸象

以前，当我们想知道某道“新菜”（新论文）有多好，或者它引用了哪些“老菜”（旧论文）时，我们通常是孤立地看。

旧做法：就像一位挑剔的美食家，只盯着新菜里提到的某一句“这道菜参考了 A 厨师的番茄酱配方”，然后单独评价 A 厨师的番茄酱好不好。
问题：这种做法忽略了上下文。也许这篇新菜其实主要是在模仿 B 厨师的烹饪手法，只是顺带提了一句 A 厨师的番茄酱。如果只孤立地看，我们可能会误以为 A 厨师的番茄酱是这道菜的灵魂，从而高估了它的重要性。这就好比在评价一场交响乐时，只盯着某一个乐手，却忘了看整个乐团的配合。

2. CRISP 的核心理念：全局视角的“评委团”

CRISP 方法（Characterizing Relative Impact of Scholarly Publications）就像是一个拥有全局视野的超级评委团。

怎么做？ 当新论文（新菜）出炉时，CRISP 不会单独去评价它引用的每一篇旧论文。相反，它会把这篇新论文引用的所有旧论文（比如 A、B、C、D）放在一起，让大语言模型（LLM）像评委一样，同时给它们排个座次。
比喻：想象你在看一场选秀比赛。以前的评委是选手一个个上台，评委只根据当下的表现打分（孤立评价）。而 CRISP 是让所有选手同时上台，评委根据他们之间的相对表现来排名。这样评委就能更清楚地看出：谁是真正的“冠军”（核心贡献），谁只是“凑数的”（背景介绍）。

3. 解决“位置偏见”：摇骰子大法

大语言模型（LLM）虽然聪明，但有个小毛病：它们容易受顺序影响。如果列表里的第一个选项，模型可能会下意识地觉得它更重要（就像我们看菜单，往往觉得排在第一位的菜最好吃）。

CRISP 的妙招：为了消除这种偏见，CRISP 让模型把参考列表打乱顺序，重复排三次。
- 第一次：A, B, C, D
- 第二次：C, D, A, B
- 第三次：B, A, D, C
投票决定：最后，CRISP 通过**“少数服从多数”**（投票）来决定每篇旧论文的真实影响力。如果某篇论文在三次打乱中都被排在前面，那它绝对是“核心贡献者”。这就像让三个不同的评委分别盲测，然后取共识，结果就靠谱多了。

4. 为什么它更省钱、更高效？

你可能会想：“把一堆论文放在一起分析，岂不是更费时间、更费钱？”

真相：恰恰相反！
比喻：
- 旧方法：就像你要给 100 个学生单独发 100 封邮件（每封邮件都要写一遍“你好，我是老师..."），虽然每封信很短，但你要发 100 次，总成本很高。
- CRISP：就像你只发1 封邮件，里面列出了 100 个学生，让老师一次性给这 100 个人打分。虽然邮件内容变长了，但“发送动作”（调用大模型的次数）大大减少了。
结果：CRISP 不仅更准确（比之前的顶尖方法准确率高了 9.5%），而且因为调用次数少，成本更低，速度更快，甚至可以用开源模型（免费或便宜的模型）达到很好的效果。

5. 总结：CRISP 带来了什么？

简单来说，CRISP 就像给学术评价系统装上了一个**“广角镜头”和“去偏见滤镜”**：

不再盲人摸象：它通过对比同一篇文章引用的所有文献，更精准地找出谁才是真正被“重用”的核心思想。
更公平：通过打乱顺序和投票，避免了模型因为“谁排在前面”而产生的偏见。
更经济：用更少的计算资源，干出了更漂亮的成绩。

这项研究不仅让学术界能更清楚地看到哪些思想真正推动了进步，也为未来的科研评价、基金申请和人才选拔提供了更科学、更透明的工具。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

核心问题：
现有的学术影响力评估方法通常存在以下局限性：

孤立评估的缺陷： 传统方法（如 Arnaout et al., 2025）通常将引用关系（Citation Edge）视为独立事件，仅分析引用上下文（Citation Context）中的孤立文本片段来判定引用意图或影响力。
缺乏相对性： 这种孤立评估忽略了同一篇引用论文（Citing Paper）中所有被引文献之间的相对重要性。一篇论文可能引用了数十篇文献，其中只有少数几篇是核心贡献，其余仅为背景或常规引用。孤立评估无法捕捉这种“相对权重”。
现有指标的不足： 传统的引用计数（Citation Count）无法区分引用的质量（例如，背景介绍与核心方法论借鉴的引用价值截然不同）。

目标：
开发一种能够利用 LLM 的上下文理解能力，在同一篇引用论文的完整引用环境中，对所有被引文献进行联合排序（Joint Ranking），从而更准确地识别出具有高影响力的核心参考文献。

2. 方法论 (Methodology: CRISP)

CRISP 的核心思想是从“孤立分类”转向“联合排序”，利用 LLM 的推理能力在比较中判断影响力。

2.1 核心流程

数据检索与提取：
- 给定目标论文 $p^*$ ，检索所有引用它的论文集合 $N_{in}(p^*)$ 。
- 对于每一篇引用论文 $q$ ，提取其完整的参考文献列表 $N_{out}(q)$ 以及所有相关的引用上下文 $Ctx_{all}(q)$ 。
基于 LLM 的联合排序 (Joint Ranking)：
- 不再单独评估每一篇被引文献，而是将引用论文 $q$ 的所有参考文献作为一个列表，输入给 LLM。
- LLM 根据这些文献对 $q$ 的贡献程度（影响力），对整个列表进行排序，并赋予影响力标签（高/中/低）。
- 提示词设计： LLM 被要求考虑整个引用环境，判断某篇文献是核心方法论、关键背景还是常规引用。
缓解位置偏差 (Mitigating Positional Bias)：
- 已知 LLM 在列表排序任务中存在位置偏差（倾向于给列表开头或结尾的项更高分数）。
- 解决方案： 采用 Permutation Self-Consistency (PSC) 策略。
  - 对同一组参考文献进行 3 次独立运行，每次随机打乱参考文献的顺序。
  - 通过 多数投票 (Majority Voting) 聚合三次运行的结果，确定最终的影响力标签。
- 替代方案： 使用 倒数秩融合 (Reciprocal Rank Fusion, RRF) 聚合三次排序结果，并结合 序数回归模型 (Ordinal Regression) 预测最终标签，以确保标签随排名单调递减。

2.2 计算效率优势

调用次数优化： 传统方法（如 UKP）需要对每篇引用论文中的每一条引用边单独调用 LLM，复杂度为 $O(m)$ （ $m$ 为引用边总数）。CRISP 仅需对每篇引用论文调用 3 次 LLM（用于排序），复杂度为 $O(n)$ （ $n$ 为引用论文数量）。由于 $m \gg n$ ，CRISP 显著减少了 LLM 调用次数。
Token 开销： 虽然总处理文本量相似，但 CRISP 减少了系统提示词（System Prompt）的重复次数，且可通过 Prompt 缓存进一步降低成本。

3. 实验设置 (Experimental Setup)

数据集： 基于 Arnaout et al. (2025) 发布的人工标注数据集，包含 442 篇引用论文和 1,338 篇被引论文。
基线模型 (Baseline)： 对比了先前的 SOTA 方法 UKP (Arnaout et al., 2025)，该方法独立评估每条引用。
评估模型：
- 闭源模型：GPT-5.1, o4-mini
- 开源模型：Qwen3-30B-A3B-Instruct
评估指标： 准确率 (Accuracy)、精确率 (Precision)、召回率 (Recall)、F1 分数。将“高影响力”映射为“正类”，“中/低”映射为“负类”进行二分类评估。

4. 主要结果 (Results)

CRISP 在多个模型上均显著优于现有的 SOTA 方法：

性能提升：
- 在 GPT-5.1 上：准确率提升 +11.9%，F1 分数提升 +12.0%。
- 在 o4-mini 上：准确率提升 +2.4%，F1 分数提升 +8.6%。
- 在 Qwen3-30B 上：准确率提升 +14.3%，F1 分数提升 +4.2%。
- 平均提升： 在所有模型上，CRISP 平均准确率提升 +9.5%，F1 分数提升 +8.3%。
效率与成本：
- CRISP 的 LLM 调用次数远少于基线方法，具有更好的可扩展性。
- 开源模型 Qwen3-30B 在 CRISP 框架下表现优异，接近闭源模型 GPT-5.1 的效果，证明了低成本部署的可行性。
定性分析：
- 混淆矩阵显示，CRISP 显著减少了假阳性 (False Positives)，即更准确地将非核心引用（背景/常规）识别为低影响力，同时保持了较高的召回率。
- 试点研究（Pilot Study）表明，LLM 生成的排序与人类作者（论文合著者）的排序具有高度相关性（Spearman 相关系数 > 0.7）。

5. 关键贡献 (Key Contributions)

提出 CRISP 方法： 首次提出利用 LLM 对单篇引用论文内的所有参考文献进行联合排序，以捕捉相对影响力，而非孤立地评估单条引用。
验证联合排序的有效性： 证明了引入“比较维度”（Comparative Dimension）能比孤立评估更可靠地区分高影响力引用，在多个 LLM 上均超越了 SOTA。
效率与可扩展性： 展示了该方法在减少 LLM 调用次数方面的显著优势，使其能够大规模应用于学术影响力分析。
开源资源： 发布了包含 1,338 篇被引论文、442 篇引用论文的排序数据、影响力标签以及完整的代码库。

6. 意义与局限性 (Significance & Limitations)

意义：

更精准的学术评价： 能够区分“实质性智力影响”与“例行公事引用”，为科研评估、基金申请和招聘提供更细粒度的依据。
推动文献检索与发现： 有助于识别解决特定研究问题的核心文献，提升文献检索系统的准确性。
成本效益： 证明了通过优化推理策略（联合排序 + 随机化），可以使用开源模型以较低成本实现高质量的影响力分析。

局限性：

领域覆盖： 实验数据主要来自心理学、医学和计算机科学，可能无法完全代表所有学科（如人文学科引用习惯不同）。
语言限制： 仅分析了英文论文。
长列表处理能力： 当引用列表极长（如超过 200 篇）时，部分模型（尤其是 o4-mini）会出现遗漏排名的情况，尽管 GPT-5.1 表现较好。
API 依赖： 依赖 Semantic Scholar API 获取元数据，若 API 返回缺失，流程无法完成。
潜在博弈风险： 如果影响力评分被公开，作者可能会策略性地调整引用方式以操纵评分。

总结：
CRISP 通过改变评估视角（从孤立到联合），利用 LLM 的比较推理能力，成功解决了传统引用分析中缺乏相对性判断的痛点。它不仅提升了评估的准确性，还通过算法优化降低了计算成本，为构建下一代智能学术评估系统提供了重要的技术路径。