Not Too Short, Not Too Long: How LLM Response Length Shapes People's Critical Thinking in Error Detection

이 연구는 LLM 의 답변 길이가 사용자의 비판적 사고 오류 탐지 정확도에 미치는 영향을 조사한 결과, LLM 의 추론이 틀린 경우 중간 길이의 설명이 가장 높은 정확도를 보였음을 밝혀냈습니다.

Natalie Friedman, Adelaide Nyanyo, Kevin Weatherwax, Lifei Wang, Chengchao Zhu, Zeshu Zhu, S. Joy Mountford

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍳 요리사 (LLM) 와 맛보기 (사용자) 의 실험

이 연구는 마치 **요리사 (LLM)**가 만든 요리를 **맛보기 (사용자)**가 평가하는 상황을 상상해 보세요.

요리사는 두 가지 방식으로 요리를 설명합니다.

  1. 정답인 요리: 맛있는 요리를 만들었습니다.
  2. 오답인 요리: 실수가 있어서 맛이 없는 요리를 만들었습니다.

그런데 요리사가 요리를 설명할 때 **말하는 양 (글자 수)**을 다르게 했습니다.

  • 짧은 설명: "이건 소금만 넣었어요." (간단함)
  • 중간 설명: "소금을 넣고, 약한 불에서 5 분간 끓였습니다. 그 후..." (적당함)
  • 긴 설명: "소금을 넣고, 약한 불에서 5 분간 끓였습니다. 그 후 재료를 다지고, 향신료를 넣고... (중략) ...결론은 소금만 넣은 거예요." (너무 길고 복잡함)

이때, 맛보기 (사람) 가 **"이 요리가 진짜 맛있는 거야, 아니면 실패작이야?"**를 정확히 판단할 수 있을까요?

🔍 연구 결과: "적당히"가 가장 좋습니다

연구팀은 24 명의 전문가들에게 15 가지 논리 문제를 주고, AI 가 만든 해설을 보고 "이 해설이 맞냐, 틀리냐"를 판단하게 했습니다. 결과는 다음과 같았습니다.

1. AI 가 맞을 때는? (요리가 맛있을 때)

AI 의 설명이 맞다면, 설명이 짧든 길든 사람들은 대부분 "맞다"고 잘 판단했습니다. AI 가 정답을 알려주면 사람들은 그걸 믿고 따라가기 쉽기 때문입니다.

2. AI 가 틀릴 때는? (요리가 실패했을 때)

여기가 가장 흥미로운 부분입니다. AI 가 틀린 해설을 했을 때, 사람들이 그 오류를 찾아낸 비율은 설명의 길이에 따라 크게 달라졌습니다.

  • 너무 짧은 설명: 사람들은 "아, AI 가 말도 안 했네"라고 생각하거나, 너무 짧아서 의심할 틈이 없어 실수를 간과했습니다.
  • 너무 긴 설명: 사람들은 "와, 설명이 정말 자세하고 전문적이네!"라고 생각해서 AI 를 너무 신뢰하게 되었습니다. 긴 설명이 마치 '전문가'처럼 보이게 만들어, 사람들은 그 긴 글 속에 숨겨진 실수를 발견하지 못했습니다. (이걸 '말이 길면 믿음이 간다'는 현상이라고 할 수 있죠.)
  • 적당한 길이의 설명: 설명이 너무 짧지도, 너무 길지도 않은 중간 길이일 때, 사람들은 가장 잘 집중했습니다. "이 설명은 충분히 이해할 수 있지만, 너무 길어서 압도당하지도 않아서" 스스로 생각하며 실수를 찾아내는 데 가장 성공적이었습니다.

💡 핵심 교훈: "길면 좋은 게 아니다"

이 연구는 우리에게 중요한 메시지를 줍니다.

"AI 가 설명을 길게 늘린다고 해서 우리가 더 똑똑해지거나, 오류를 더 잘 찾아내는 것은 아닙니다. 오히려 너무 길면 사람들이 '전문가 같다'는 착각에 빠져 오류를 놓칠 수 있습니다."

마치 과자를 먹을 때, 너무 많이 먹으면 배가 불러서 맛을 느끼지 못하거나, 너무 적으면 배가 고파서 만족하지 못하는 것과 비슷합니다. **적당한 양 (중간 길이)**이 가장 맛있게, 그리고 정확하게 판단하게 해줍니다.

🛠️ 앞으로의 디자인 방향

이 연구를 바탕으로 AI 를 설계할 때 다음과 같이 생각해야 합니다.

  1. 무조건 길게 쓰지 않기: AI 가 "더 자세히 설명해 드릴게요"라고 해서 글자를 늘리는 것은 오히려 사용자의 비판적 사고를 방해할 수 있습니다.
  2. 중간 길이의 '골든 존' 찾기: 사용자가 정보를 처리하기 부담스럽지 않으면서, 충분히 생각할 시간을 주는 '적당한 길이'를 찾아야 합니다.
  3. 정확한 확신 표현: AI 가 틀렸을 때 긴 설명으로 위장하지 말고, "이 부분은 제가 확신이 없어요"라고 솔직하게 말하는 것이 사용자의 판단을 돕습니다.

📝 한 줄 요약

"AI 의 설명이 너무 길면 사람들은 '전문가'인 줄 알고 맹신하다가 실수를 놓치고, 너무 짧으면 아예 무시합니다. 가장 좋은 것은 '적당히' 설명해 주는 것입니다."

이 연구는 우리가 AI 를 사용할 때, 글자 수에 현혹되지 말고 내용을 꼼꼼히 따져봐야 한다는 경고를 줍니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →