Science-wide mapping and ranking of institutions based on affiliated authors' impact and research integrity proxies

⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一份**“全球科研机构的体检报告”**，但它不仅仅看谁“跑得快”（论文多、引用高），还特别关注谁“跑得稳”（有没有作弊、造假或学术不端）。

为了让你更容易理解，我们可以把科学研究想象成一场**“超级马拉松”，而各个大学和研究机构就是“参赛队伍”**。

1. 以前的排名只看“谁跑得快”

过去，大家给大学或研究所排名时，主要看两个指标：

队伍规模：谁家的队员多？（论文总数）
冲刺速度：谁家的队员拿过金牌？（高被引作者，即论文被引用次数极多的人）

问题在于：

大队伍优势：像哈佛大学、清华大学这样的大队，人多势众，只要凑够人数，金牌总数肯定多。但这掩盖了队里可能有很多“混子”或者“新手”。
忽视作弊：如果有个队员为了赢，偷偷在鞋里藏了弹簧（学术造假），或者拼命给自己之前的鞋贴标签（过度自引），以前的排名根本不管这些，只要他跑得快，就给他发奖状。

2. 这篇论文做了什么？（新的体检方法）

作者（主要是约翰·伊奥阿尼迪斯等科学家）觉得这样不公平，于是他们设计了一套**“新规则”**，给全球近 7000 个科研机构做了一次深度体检。

他们不仅看谁跑得快，还引入了三个**“作弊探测器”**：

探测器一：退稿记录（Retractions）
- 比喻：就像比赛后，裁判发现有人用了兴奋剂，或者成绩是伪造的，于是把奖牌收回（论文被撤稿）。
- 规则：如果一个队伍里有很多队员被收回了奖牌（非期刊错误的撤稿），这个队伍就要被扣分。
探测器二：疯狂自引（High Self-Citations）
- 比喻：就像跑步时，队员不跟别人比，而是拼命给自己之前的比赛录像点赞、转发，甚至拉帮结派互相刷分。
- 规则：如果一个队伍里，高被引队员的“自夸”比例太高（超过 95% 的同行），说明可能有刷分嫌疑，也要扣分。
探测器三：在“黑店”发论文（Discontinued Titles）
- 比喻：有些队员为了拿分，专门去那些没有执照、甚至已经倒闭的“野鸡跑鞋店”买鞋（在质量低劣或被剔除的期刊发表论文）。
- 规则：如果一个队伍里，高被引队员经常在这些“黑店”出没，说明他们可能为了刷数据不择手段，同样要扣分。

3. 体检结果：大反转！

当他们把这些“扣分项”算进去后，排名发生了巨大的变化：

真正的强者依然强，但更纯粹了：
像美国的普林斯顿大学、加州大学伯克利分校，德国的马普研究所，以及像谷歌（Alphabet）、微软这样的科技公司，虽然队伍规模不是最大的，但**“高被引队员”的比例极高**，而且作弊扣分很少。所以在新的排名里，它们依然名列前茅。
有些“大个子”跌落了：
一些以前靠“人海战术”和“刷分”冲到前列的大型机构（特别是来自某些特定国家的机构），因为撤稿多、自引高、在劣质期刊发文多，被大幅扣分，排名瞬间掉到了谷底。
- 文章特别提到，沙特阿拉伯、中国、马来西亚、伊朗、印度和印度尼西亚等国家的机构，在扣除这些“不诚信”的分数后，排名下降最明显。
小机构被发现了：
以前被淹没在大数据里的一些小型研究所或科技公司，因为队员少但个个都是“精英”且“干净”，现在被重新发掘出来，排名很高。

4. 这个报告想告诉我们什么？

别只看总数：一个机构发了 1 万篇论文，如果里面有很多是“注水”的，那它的真实水平可能远不如一个只发了 100 篇但篇篇精品、干干净净的机构。
诚信是底线：科研不仅仅是比谁声音大（引用多），更要比谁走得正（学术诚信）。
数据是公开的：作者把这份“体检报告”的所有数据都公开了，就像把成绩单贴在公告栏上，让每个人都能去查自己关心的学校或机构到底表现如何。

总结一下：
这就好比以前选“最佳运动队”只看金牌总数，现在我们要看**“金牌含金量”。如果金牌是靠兴奋剂（撤稿）或刷分（自引）得来的，不仅不算数，还要倒扣分。这篇论文就是要把那些“靠作弊跑得快”的队伍揪出来，让“靠实力跑得稳”**的队伍得到应有的荣誉。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《基于附属作者影响力和研究诚信代理指标的全科学机构映射》（Science-wide mapping of institutions based on affiliated authors' impact and research integrity proxies）的详细技术总结。

1. 研究背景与问题 (Problem)

现有的机构评估和排名系统（如大学排名）存在以下主要缺陷：

忽视研究诚信：大多数排名仅关注影响力（引用量、论文数量），完全忽略了学术不端行为（如撤稿、自我引用操纵、在低质量期刊发表）对机构声誉的负面影响。
规模偏差：绝对指标（如总论文数、总引用数）倾向于大型机构，无法公平比较不同规模的机构。
归一化困难：由于全球机构的人员构成（终身教职、兼职、研究员等）定义不统一，难以准确获取“活跃研究人员”的标准化分母，导致按人均计算的指标存在偏差。
缺乏综合视角：缺乏一种能够同时平衡“高影响力”与“研究诚信风险”的标准化评估框架。

2. 方法论 (Methodology)

该研究利用 Scopus 数据库（数据冻结于 2025 年 8 月 1 日），构建了一套标准化的机构级评估指标体系。

2.1 数据来源与筛选

作者池：筛选出至少发表过 5 篇 Scopus 索引全文（文章、综述、会议论文）的作者，共约 1093 万作者。
机构聚合：将作者的具体隶属机构（如"Harvard Medical School"）聚合为更高层级的“机构”（如"Harvard University"），排除仅以医院命名的独立机构，以解决归属分散问题。
主要分析子集（Primary Analysis）：为了模拟资深活跃研究人员，设定了严格的筛选阈值：
- 1980 年或之后开始发表（覆盖约 45 年职业生涯）。
- 职业生涯总发表量 $\ge$ 40 篇。
- 作为单作者、第一作者或最后作者的发表量 $\ge$ 5 篇。
- 仅针对拥有至少 100 名符合上述条件作者的机构进行百分位排名。

2.2 核心指标构建

研究构建了三个维度的指标：

影响力指标（Impact）：
- 基于 Top 2% 高被引科学家 列表（基于复合引用指标，包含总引用、h 指数、hm 指数等，并区分自引/非自引）。
- 计算机构中符合“主要分析”标准的作者中，高被引作者的比例。
研究诚信代理指标（Research Integrity Proxies）：
- 撤稿惩罚：统计机构所有符合条件作者中，因非出版商/期刊错误原因（即作者责任）导致的撤稿论文的作者署名总数（ $\Sigma R$ ）。
- 高自引率：统计机构高被引作者中，自引率超过该学科前 95% 百分位阈值的比例。
- 停刊期刊发表率：统计机构高被引作者中，在 Scopus 因质量问题被“停刊”（Discontinued）的期刊上发表文章比例超过前 95% 百分位阈值的比例。
综合调整得分（Summary Score）：
构建了一个加权公式，将影响力与诚信风险结合：
$\text{Score} = \frac{N(t) - \frac{\Sigma R}{2} - \max(0, S(t) - 0.05 N(t)) - \max(0, D(t) - 0.05 N(t))}{N(a)}$
- $N(t)$ ：主要分析中的高被引作者数。
- $N(a)$ ：主要分析中的总作者数。
- $\Sigma R$ ：撤稿署名总数（每 2 个撤稿署名抵消 1 个高被引作者的收益）。
- $S(t)$ 和 $D(t)$ ：分别为高自引和停刊期刊发表的高被引作者数。若超过 5% 的阈值，则产生惩罚。

2.3 敏感性分析

测试了不同的自引/停刊阈值（80, 95, 99 百分位）。
测试了不同的撤稿惩罚权重（因子 f = 1, 2, 4）。
结果显示基准参数（95 百分位，f=2）具有稳健性，机构排名在不同参数下高度相关（Spearman 相关系数 > 0.9）。

3. 主要发现 (Key Results)

3.1 机构规模与高被引比例的差异

数量 vs. 比例：按高被引作者绝对数量排名的机构（如哈佛、斯坦福、牛津）与按比例排名的机构几乎没有重叠。
小型机构的优势：按比例排名的前 100 名机构中，大多数是中小型研究机构、科技组织（如 Meta FAIR, Max Planck 研究所）和少数顶尖大学，而非巨型大学。
大型机构的异质性：在拥有超过 10,000 名作者的大型机构中，高被引作者的比例差异巨大（从 1% 到 40% 不等），许多中国大型机构的比例较低。

3.2 研究诚信指标的地理分布

撤稿：高撤稿惩罚的机构主要集中在中国（占前 100 名中的 75 家），其次是印度尼西亚、马来西亚等。
高自引：主要集中在俄罗斯（占其总机构的 52%）、中国、印度尼西亚和波兰。
停刊期刊：主要集中在印度、中国、马来西亚、沙特阿拉伯和俄罗斯。

3.3 调整后排名的显著变化

国家层面的差异：
- 高排名国家：英国、荷兰、瑞士、加拿大、美国、澳大利亚和瑞典的机构在调整后仍保持极高的百分位排名（中位数 82.6-85.5），且受到的惩罚极小。
- 低排名国家：沙特阿拉伯、中国、马来西亚、伊朗、印度和印度尼西亚的机构排名大幅下降。这些国家的机构受到的累积惩罚（撤稿、自引、停刊）平均是其高被引作者数量的 1.29 到 2.75 倍。
- 例如，沙特阿拉伯的机构中位数排名仅为第 3.9 百分位，中国为第 14.3 百分位。

3.4 近期年份数据

使用“单一年份”（2024 年）数据进行分析时，排名变化更大，部分来自非高收入国家的小型机构在未经调整时排名极高，但一旦引入诚信指标（撤稿、自引），其排名迅速崩塌，暗示了潜在的指标操纵行为。

4. 关键贡献 (Key Contributions)

首个全学科机构级诚信 - 影响力综合映射：首次大规模地将研究诚信代理指标（撤稿、自引、停刊期刊）纳入机构层面的标准化评估，打破了仅看影响力的传统。
标准化的人员分母：通过基于出版年龄和产出的客观阈值（而非行政职级），解决了跨机构人员统计不一致的难题，实现了更公平的比较。
公开数据集：提供了包含近 7000 所机构详细数据的公开数据集，允许学术界和公众进行透明探索。
揭示“高被引”背后的风险：揭示了某些机构（特别是某些国家）虽然拥有大量高被引作者，但其高产出伴随着极高的诚信风险（撤稿率高、操纵引用），导致其综合排名大幅下滑。

5. 意义与局限性 (Significance & Limitations)

意义

政策制定：为科研资助机构、大学管理层和政策制定者提供了更全面的评估工具，有助于识别潜在的学术不端热点。
激励机制：通过引入“诚信惩罚”，可能削弱单纯追求发表数量和引用量的不良激励，鼓励更负责任的科研行为。
透明度：增加了科研评估的透明度，使利益相关者能看到机构在“质量”与“诚信”之间的平衡。

局限性与注意事项

代理指标而非确证：高自引、撤稿等仅是“代理指标”，不能完全等同于学术不端（例如，撤稿可能源于诚实错误，高自引在特定领域可能是合理的）。
数据归属误差：Scopus 的作者归属和机构聚合可能存在误差，特别是对于小型机构，少量错误可能导致排名剧烈波动。
权重的主观性：综合得分公式中的权重（如 2 个撤稿抵消 1 个高被引）是人为设定的，尽管敏感性分析显示结果稳健，但具体数值仍具任意性。
覆盖范围：主要基于 Scopus 数据库，可能遗漏部分非英语或非 Scopus 索引的高质量研究。

总结

该研究提出了一种新的机构评估范式，强调**“影响力必须与诚信共存”**。它通过量化撤稿、异常自引和劣质期刊发表带来的“惩罚”，揭示了传统排名中隐藏的风险。研究结果表明，虽然某些国家拥有庞大的科研产出和高被引作者，但其在研究诚信方面的表现严重拖累了其整体科研声誉，而欧美及澳洲的部分机构则在保持高影响力的同时维持了较低的诚信风险。