ConCISE: A Reference-Free Conciseness Evaluation Metric for LLM-Generated Answers

本文提出了一种名为 ConCISE 的新型无参考指标,通过结合 LLM 生成的摘要压缩率与去冗余词压缩率,实现了对大语言模型生成回答中冗余内容的自动化量化评估,从而无需依赖人工标注即可衡量回答的简洁性。

Seyed Mohssen Ghafari, Ronny Kol, Juan C. Quiroz, Nella Luan, Monika Patial, Chanaka Rupasinghe, Herman Wandabwa, Luiz Pizzato

发布于 2026-03-13
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 ConCISE 的新工具,它就像是一个专门给大语言模型(LLM)的“废话”量尺。

想象一下,你问一个 AI 助手:“今天天气怎么样?”

  • 理想的回答:“今天晴天,气温 25 度。”(简洁、有用)
  • 糟糕的回答:“关于您询问的天气情况,根据最新的气象数据,今天是一个阳光明媚的日子,气温大约在 25 摄氏度左右,这是一个非常舒适的温度,适合外出活动,当然,如果您不喜欢晒太阳,也可以待在室内……"(啰嗦、重复、浪费钱)

现在的 AI 模型经常喜欢“掉书袋”,说很多废话。这不仅让用户读得累,对于按“输出字数”收费的付费模型来说,还意味着用户要掏更多的钱

为了解决这个问题,作者们(来自澳大利亚联邦银行)发明了 ConCISE。它的核心特点是:不需要参考答案,就能自动判断 AI 回答得是否啰嗦。

ConCISE 是如何工作的?(三个“魔法”步骤)

传统的评分方法通常需要人类先写一个“标准答案”来对比,但这太贵太慢了。ConCISE 不需要标准答案,它自己当裁判,通过三个“魔法”来给 AI 的回答“瘦身”并打分:

  1. 魔法一:提炼精华(抽象总结)

    • 比喻:就像把一杯加了冰块的柠檬水,通过魔法把冰块和多余的水分抽走,只留下最浓缩的柠檬汁。
    • 操作:ConCISE 让另一个 AI 把原来的长回答“改写”成一段更短、更精炼的话。如果改写后的话和原话意思一样,但短了很多,说明原话里有很多废话。
  2. 魔法二:剪枝留干(提取总结)

    • 比喻:就像修剪一棵树,把那些长得乱七八糟、不结果的树枝剪掉,只留下主干。
    • 操作:ConCISE 让 AI 从原回答中直接“挑”出最重要的句子。如果挑出来的句子很少,但意思没变,说明原回答里有很多“枝叶”(废话)。
  3. 魔法三:大扫除(删词压缩)

    • 比喻:就像给一个塞满杂物的行李箱做整理,把那些“虽然能装但没必要带”的多余物品(比如重复的形容词、客套话)全部扔出去,只保留核心物品。
    • 操作:ConCISE 让 AI 尝试从原回答中删掉尽可能多的词,同时保证意思不变。删掉的词越多,说明原回答越啰嗦,得分越低。

最后,ConCISE 把这三个步骤的结果平均一下,算出一个**“简洁度分数”**。分数越高,说明 AI 回答得越干脆利落。

实验结果:它管用吗?

作者们找了一堆来自维基百科的问答数据,让人类专家给这些回答的“简洁度”打分(1 到 5 分),然后拿 ConCISE 去算分,看看两者是否一致。

  • 结果:ConCISE 的打分和人类专家的打分高度一致(相关性很高)。
  • 对比:以前的一些方法(比如直接让 AI 给个 0-10 分),往往不太准,甚至有时候人类觉得啰嗦,AI 却觉得很好。但 ConCISE 像是一个经验丰富的编辑,能精准地识别出哪些是“废话”。

为什么这个工具很重要?

  1. 省钱:对于按字数收费的 AI 服务,能自动识别并减少废话,直接帮用户省钱。
  2. 省心:不需要人类专家去写“标准答案”来对比,完全自动化,适合大规模使用。
  3. 提升体验:让 AI 的回答更像是一个干练的助手,而不是一个喋喋不休的演说家。

总结

这就好比给 AI 请了一位**“金牌编辑”**。以前我们不知道 AI 是不是在说废话,现在有了 ConCISE,我们就能自动检测出 AI 是否“话多”,并鼓励它“少说废话,多说干货”。这对于让 AI 变得更聪明、更实用、更经济,是一个非常重要的进步。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →