Not Too Short, Not Too Long: How LLM Response Length Shapes People's Critical Thinking in Error Detection

Each language version is independently generated for its own context, not a direct translation.

🍳 요리사 (LLM) 와 맛보기 (사용자) 의 실험

이 연구는 마치 **요리사 (LLM)**가 만든 요리를 **맛보기 (사용자)**가 평가하는 상황을 상상해 보세요.

요리사는 두 가지 방식으로 요리를 설명합니다.

정답인 요리: 맛있는 요리를 만들었습니다.
오답인 요리: 실수가 있어서 맛이 없는 요리를 만들었습니다.

그런데 요리사가 요리를 설명할 때 **말하는 양 (글자 수)**을 다르게 했습니다.

짧은 설명: "이건 소금만 넣었어요." (간단함)
중간 설명: "소금을 넣고, 약한 불에서 5 분간 끓였습니다. 그 후..." (적당함)
긴 설명: "소금을 넣고, 약한 불에서 5 분간 끓였습니다. 그 후 재료를 다지고, 향신료를 넣고... (중략) ...결론은 소금만 넣은 거예요." (너무 길고 복잡함)

이때, 맛보기 (사람) 가 **"이 요리가 진짜 맛있는 거야, 아니면 실패작이야?"**를 정확히 판단할 수 있을까요?

🔍 연구 결과: "적당히"가 가장 좋습니다

연구팀은 24 명의 전문가들에게 15 가지 논리 문제를 주고, AI 가 만든 해설을 보고 "이 해설이 맞냐, 틀리냐"를 판단하게 했습니다. 결과는 다음과 같았습니다.

1. AI 가 맞을 때는? (요리가 맛있을 때)

AI 의 설명이 맞다면, 설명이 짧든 길든 사람들은 대부분 "맞다"고 잘 판단했습니다. AI 가 정답을 알려주면 사람들은 그걸 믿고 따라가기 쉽기 때문입니다.

2. AI 가 틀릴 때는? (요리가 실패했을 때)

여기가 가장 흥미로운 부분입니다. AI 가 틀린 해설을 했을 때, 사람들이 그 오류를 찾아낸 비율은 설명의 길이에 따라 크게 달라졌습니다.

너무 짧은 설명: 사람들은 "아, AI 가 말도 안 했네"라고 생각하거나, 너무 짧아서 의심할 틈이 없어 실수를 간과했습니다.
너무 긴 설명: 사람들은 "와, 설명이 정말 자세하고 전문적이네!"라고 생각해서 AI 를 너무 신뢰하게 되었습니다. 긴 설명이 마치 '전문가'처럼 보이게 만들어, 사람들은 그 긴 글 속에 숨겨진 실수를 발견하지 못했습니다. (이걸 '말이 길면 믿음이 간다'는 현상이라고 할 수 있죠.)
적당한 길이의 설명: 설명이 너무 짧지도, 너무 길지도 않은 중간 길이일 때, 사람들은 가장 잘 집중했습니다. "이 설명은 충분히 이해할 수 있지만, 너무 길어서 압도당하지도 않아서" 스스로 생각하며 실수를 찾아내는 데 가장 성공적이었습니다.

💡 핵심 교훈: "길면 좋은 게 아니다"

이 연구는 우리에게 중요한 메시지를 줍니다.

"AI 가 설명을 길게 늘린다고 해서 우리가 더 똑똑해지거나, 오류를 더 잘 찾아내는 것은 아닙니다. 오히려 너무 길면 사람들이 '전문가 같다'는 착각에 빠져 오류를 놓칠 수 있습니다."

마치 과자를 먹을 때, 너무 많이 먹으면 배가 불러서 맛을 느끼지 못하거나, 너무 적으면 배가 고파서 만족하지 못하는 것과 비슷합니다. **적당한 양 (중간 길이)**이 가장 맛있게, 그리고 정확하게 판단하게 해줍니다.

🛠️ 앞으로의 디자인 방향

이 연구를 바탕으로 AI 를 설계할 때 다음과 같이 생각해야 합니다.

무조건 길게 쓰지 않기: AI 가 "더 자세히 설명해 드릴게요"라고 해서 글자를 늘리는 것은 오히려 사용자의 비판적 사고를 방해할 수 있습니다.
중간 길이의 '골든 존' 찾기: 사용자가 정보를 처리하기 부담스럽지 않으면서, 충분히 생각할 시간을 주는 '적당한 길이'를 찾아야 합니다.
정확한 확신 표현: AI 가 틀렸을 때 긴 설명으로 위장하지 말고, "이 부분은 제가 확신이 없어요"라고 솔직하게 말하는 것이 사용자의 판단을 돕습니다.

📝 한 줄 요약

"AI 의 설명이 너무 길면 사람들은 '전문가'인 줄 알고 맹신하다가 실수를 놓치고, 너무 짧으면 아예 무시합니다. 가장 좋은 것은 '적당히' 설명해 주는 것입니다."

이 연구는 우리가 AI 를 사용할 때, 글자 수에 현혹되지 말고 내용을 꼼꼼히 따져봐야 한다는 경고를 줍니다.

Not Too Short, Not Too Long: How LLM Response Length Shapes People's Critical Thinking in Error Detection

🍳 요리사 (LLM) 와 맛보기 (사용자) 의 실험

🔍 연구 결과: "적당히"가 가장 좋습니다

1. AI 가 맞을 때는? (요리가 맛있을 때)

2. AI 가 틀릴 때는? (요리가 실패했을 때)

💡 핵심 교훈: "길면 좋은 게 아니다"

🛠️ 앞으로의 디자인 방향

📝 한 줄 요약

논문 요약: LLM 응답 길이가 오류 탐지 시 인간의 비판적 사고에 미치는 영향

1. 연구 배경 및 문제 제기 (Problem)

2. 연구 방법론 (Methodology)

3. 주요 결과 (Key Results)

4. 주요 기여 및 시사점 (Key Contributions & Significance)

5. 결론

Not Too Short, Not Too Long: How LLM Response Length Shapes People's Critical Thinking in Error Detection

🍳 요리사 (LLM) 와 맛보기 (사용자) 의 실험

🔍 연구 결과: "적당히"가 가장 좋습니다

1. AI 가 맞을 때는? (요리가 맛있을 때)

2. AI 가 틀릴 때는? (요리가 실패했을 때)

💡 핵심 교훈: "길면 좋은 게 아니다"

🛠️ 앞으로의 디자인 방향

📝 한 줄 요약

논문 요약: LLM 응답 길이가 오류 탐지 시 인간의 비판적 사고에 미치는 영향

1. 연구 배경 및 문제 제기 (Problem)

2. 연구 방법론 (Methodology)

3. 주요 결과 (Key Results)

4. 주요 기여 및 시사점 (Key Contributions & Significance)

5. 결론

유사한 논문

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation