Evaluating LLM-Based Grant Proposal Review via Structured Perturbations

该研究通过结构化扰动评估了大语言模型在 EPSRC 资助提案评审中的能力,发现分章节分析架构在检测率和评分可靠性上表现最佳,但现有模型仍存在高变异性且更倾向于合规性检查而非整体评估,因此目前仅适合作为辅助评审工具。

William Thorne, Joseph James, Yang Wang, Chenghua Lin, Diana Maynard

发布于 Tue, 10 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给“人工智能评委”做一场严格的“体检”,看看它们能不能胜任一项非常严肃的工作:审核科研基金申请书

想象一下,现在的科研界就像是一个极度拥挤的火车站。申请科研经费的人(就像赶火车的旅客)越来越多,而能审核这些申请的人类专家(就像检票员)却只有那么多。结果就是,旅客们排着长队,检票员累得半死,甚至可能因为太累而漏看了一些重要的细节。

为了解决这个问题,大家想:“不如让 AI 来帮忙检票吧!”但这篇论文的作者们(来自谢菲尔德大学和曼彻斯特大学)却有点担心:AI 真的靠谱吗?它会不会因为太“聪明”而忽略了真正的漏洞,或者因为太“死板”而误伤好人?

为了找到答案,他们设计了一个非常巧妙的实验,我们可以把它分成三个部分来讲:

1. 实验方法:给申请书“动手术”

作者们没有直接拿真实的申请书去测试(因为那是保密的,而且数量太少),他们想出了一个绝招:“故意捣乱法”(Perturbation)

  • 比喻:想象你有 6 份原本写得很好的“完美申请书”。作者们像外科医生一样,在这些申请书上故意制造了 42 种不同的“小毛病”
    • 有的毛病是**“钱算错了”**(比如预算突然翻倍,或者理由不充分);
    • 有的毛病是**“时间对不上”**(比如项目要在 1 年内做完,但任务量需要 5 年);
    • 有的毛病是**“人不对”**(比如团队里缺了关键的技术大牛);
    • 有的毛病是**“文不对题”**(比如申请书的内容和资助机构的要求完全不搭界);
    • 有的毛病是**“写得太烂”**(比如全是缩写,没人看得懂);
    • 有的毛病是**“没意义”**(比如做出来的东西对谁都没用)。

然后,他们让不同的 AI 评委去审核这些“被动过手术”的申请书,看看 AI 能不能一眼识破这些故意留下的破绽

2. 三种 AI 评委的“面试”

他们测试了三种不同的 AI 审核模式,就像三种不同的面试方式:

  • 模式一:单刀直入(Baseline)

    • 比喻:让一个 AI 一次性读完整本厚厚的申请书,然后马上给出分数和意见。
    • 结果:就像让一个人一口气读完几百页的书然后立刻做总结,它很容易**“读晕了”**,漏掉很多细节。
  • 模式二:分块阅读(Section-Level)

    • 比喻:把申请书拆成几块(比如“团队介绍”、“经费预算”、“研究计划”),让 AI 一块一块地读,读完一块评一块,最后再汇总。
    • 结果这是表现最好的! 就像让专家分别审核财务、技术、伦理,最后再开会讨论。这种方法最精准,AI 能发现最多的“故意捣乱”的毛病。
  • 模式三:专家委员会(Council of Personas)

    • 比喻:让 5 个不同性格的 AI 扮演不同角色(比如“抠门的财务”、“挑剔的伦理学家”、“狂热的技术粉”),让它们各自写意见,然后选出一个“主席”来汇总大家的意见。
    • 结果虽然听起来很豪华,但效果并没有比“单刀直入”好多少,反而慢得离谱,还贵得吓人。 就像开了一个冗长的会议,大家吵了半天,最后得出的结论和一个人瞎猜差不多。

3. 发现的“真相”与“盲点”

实验结束后,作者们发现了一些有趣(甚至有点让人担心)的现象:

  • AI 很擅长抓“硬伤”,但抓不住“软肋”

    • AI 很容易发现**“钱不对”“时间不对”**这种明显的逻辑错误(就像一眼看出算盘珠子拨错了)。
    • 但是,如果申请书**“写得太晦涩难懂”(比如全是缩写、逻辑不通),AI 却几乎完全看不出来**。
    • 比喻:AI 就像一个死板的校对员,它能发现你写错了数字,但它看不懂你写的故事是否通顺、是否感人。它倾向于“脑补”那些没写清楚的地方,而不是指出“这里没写清楚”。
  • AI 像个“合规检查员”,不像“战略家”

    • 人类专家在审核时,会看这个项目的整体愿景社会影响力以及是否值得投资
    • AI 则更像是一个**“找茬机器”,它更关注你是否符合格式要求、有没有违反规定(比如数据隐私),却很难像人类那样做出“这个项目虽然有小毛病,但未来潜力巨大,值得投”这种 holistic(整体性)的判断**。

总结:AI 能取代人类评委吗?

结论是:还不能完全取代,但可以作为“超级助手”。

  • 现在的 AI:就像是一个刚入职的实习生。它干活快,能帮你检查格式、算算账、看看有没有明显的逻辑漏洞。但是,如果你让它做最终决定,它可能会因为太死板而错过好项目,或者因为太“脑补”而放过烂项目。
  • 未来的方向:最好的模式是**“人机协作”**。让 AI 先帮人类专家把那些明显的格式错误、预算漏洞挑出来,然后由人类专家来做最终的“拍板”决定,特别是那些需要判断“愿景”和“影响力”的复杂部分。

一句话总结:这篇论文告诉我们,AI 在审核科研基金时**“眼力”还不够好**,它擅长抓明显的硬伤,却看不懂文字背后的深意。所以,在科研经费分配这种大事上,人类专家依然不可替代,但 AI 可以帮人类省点力气,别让自己累垮在“火车站”里。