Not Too Short, Not Too Long: How LLM Response Length Shapes People's Critical Thinking in Error Detection

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在做一场关于“如何给大脑喂饭”的实验。

想象一下，你正在参加一场高难度的智力测验（比如逻辑推理题），这时候，一个超级聪明的 AI 助手（大语言模型）跳出来帮你解题。它不仅能告诉你答案，还会写一段长长的“解题思路”来解释为什么是这个答案。

研究人员想知道：这个 AI 解释得越详细、越长，你是不是就越容易看穿它的错误，还是说反而被它绕晕了？

🍽️ 核心比喻：吃自助餐 vs. 吃定食

为了搞清楚这个问题，研究人员把 AI 的回答分成了三种“份量”：

小份（Short）：简单直接，几句话带过。
中份（Medium）：不短不长，刚好把逻辑讲清楚。
大份（Long）：长篇大论，像写小作文一样详细。

他们让 24 位职场人士（像律师、顾问、高管这样的“逻辑达人”）去判断 AI 的答案是对是错。

🔍 实验发现了什么？

1. 如果 AI 是对的，大家都挺准的

当 AI 给出的答案和逻辑都是正确的时候，不管它说得是长是短，大家都能轻松判断出“嗯，这 AI 挺靠谱”。这时候，AI 就像一位靠谱的导游，无论话多话少，你都能跟上节奏。

2. 如果 AI 是错的，长度就成关键了！

这才是最有趣的地方。当 AI 犯错了（比如逻辑不通，或者结论是瞎编的）：

太短（小份）：大家容易被带偏。因为解释太简单，大家没多想，就跟着 AI 的错误结论走了。就像有人指路说“前面左转”，虽然没解释为什么，但你信了。
太长（大份）：大家也容易被绕晕。AI 说了太多华丽的辞藻和复杂的步骤，像一锅乱炖的浓汤，把你淹没在信息里。你读着读着就累了，或者被它看似专业的语气唬住了，反而忽略了它结论里的漏洞。
刚刚好（中份）：这是黄金比例！当 AI 的解释长度适中时，大家的火眼金睛最亮。大家既能看清逻辑，又不会被过多的信息干扰，最容易发现：“哎？等等，虽然你前面说得头头是道，但最后结论好像不对啊！”

💡 一个生动的场景

想象你在看魔术表演（AI 在表演推理）：

如果魔术师只说“变！”（太短），你根本没时间思考，只能跟着喊“哇”。
如果魔术师开始讲起他祖传的魔术秘籍，讲了半小时，还穿插了哲学思考（太长），你听得云里雾里，最后他变出一只兔子，你虽然觉得不对劲，但已经懒得去拆解了，只能跟着鼓掌。
但如果魔术师只用了30 秒，清晰地展示了手法，你正好有时间反应过来：“嘿！你刚才袖子里藏了东西！”（中份长度让你保持了批判性思维）。

🚀 这对我们意味着什么？

这篇论文告诉我们要警惕“越长越好”的误区。

不要迷信长篇大论：AI 解释得越长，并不代表它越聪明，也不代表你越容易理解。有时候，啰嗦的解释反而是一种“烟雾弹”，让你失去独立思考的能力。
“刚刚好”最重要：在设计 AI 助手时，应该追求清晰、简洁、逻辑自洽的解释，而不是堆砌字数。
保持怀疑：当 AI 给出一个错误结论时，如果它解释得太长，我们反而要更小心，因为那可能是在用“废话”掩盖逻辑的漏洞。

一句话总结：
在 AI 时代，“少即是多”（Less is More）。一个长度适中、逻辑清晰的 AI 回答，最能激发人类的批判性思维；而过于简短或过于冗长的回答，都容易让我们变成“听话的复读机”。

LLM 状态	短 (Short)	中 (Medium)	长 (Long)
LLM 错误	24.5%	54.2%	30.7%
LLM 正确	71.5%	81.1%	79.5%

Not Too Short, Not Too Long: How LLM Response Length Shapes People's Critical Thinking in Error Detection

🍽️ 核心比喻：吃自助餐 vs. 吃定食

🔍 实验发现了什么？

1. 如果 AI 是对的，大家都挺准的

2. 如果 AI 是错的，长度就成关键了！

💡 一个生动的场景

🚀 这对我们意味着什么？

论文技术总结：LLM 响应长度如何塑造人们在错误检测中的批判性思维

1. 研究背景与问题 (Problem)

2. 研究方法 (Methodology)

3. 关键贡献 (Key Contributions)

4. 主要结果 (Results)

5. 意义与启示 (Significance)

Not Too Short, Not Too Long: How LLM Response Length Shapes People's Critical Thinking in Error Detection

🍽️ 核心比喻：吃自助餐 vs. 吃定食

🔍 实验发现了什么？

1. 如果 AI 是对的，大家都挺准的

2. 如果 AI 是错的，长度就成关键了！

💡 一个生动的场景

🚀 这对我们意味着什么？

论文技术总结：LLM 响应长度如何塑造人们在错误检测中的批判性思维

1. 研究背景与问题 (Problem)

2. 研究方法 (Methodology)

3. 关键贡献 (Key Contributions)

4. 主要结果 (Results)

5. 意义与启示 (Significance)

类似论文

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers