Show Your Work: Verbatim Evidence Requirements and Automated Assessment for Large Language Models in Biomedical Text Processing

이 논문은 생물의학 텍스트 처리에서 LLM 의 결정에 대한 검증 가능성을 높이기 위해 '작업 과정 제시 (구체적 인용)'를 강제하는 것이 정확성과 검증성은 향상시킬 수 있으나, 모델에 따라 처리율 감소와 새로운 실패 모드를 초래할 수 있음을 보여줍니다.

Windisch, P., Weyrich, J., Dennstaedt, F., Zwahlen, D. R., Foerster, R., Schroeder, C.

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기
⚕️

이것은 동료 심사를 거치지 않은 프리프린트의 AI 생성 설명입니다. 의학적 조언이 아닙니다. 이 내용을 바탕으로 건강 관련 결정을 내리지 마세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

🍳 핵심 비유: "요리사에게 레시피를 보여달라고 하다"

이 연구는 세 가지 유명한 AI 모델 (GPT-5.2, Gemini 3 Flash, Claude Opus 4.5) 을 실험실 셰프들로 상정했습니다. 이들은 **암 임상 시험 논문 (요리 재료 목록)**을 읽고, **"이 시험에 환자를 뽑을 때, 암이 퍼진 상태 (전이) 도 가능한가, 아니면 초기 단계 (국소) 만 가능한가?"**를 판단해야 했습니다.

연구팀은 두 가지 상황을 만들었습니다.

  1. 상황 A (기존 방식): "정답만 말해줘." (예: "전이 가능")
  2. 상황 B (새로운 방식): "정답을 말하되, 논문 원문에서 그 근거가 되는 문장을 그대로 베껴서 보여줘." (예: "전이 가능. 근거: '환자는 전이성 암을 가진 경우 포함됨'")

이때 AI 가 보여준 문장이 **실제로 원문에 있는 문장인지 (위조하지 않았는지)**를 컴퓨터가 자동으로 확인했습니다.

🔍 연구 결과: "근거를 보여달라고 하면 어떻게 될까?"

1. "모르는 척"을 더 많이 하게 됨 (Coverage 감소)

근거를 보여달라고 하니, AI 들이 조금 더 신중해졌습니다.

  • 비유: 요리사가 "이 재료가 들어갔다고 확신할 수 없으면, 요리를 안 하고 '모르겠습니다'라고 말하는" 경우가 늘어난 것입니다.
  • 결과: AI 가 답을 내놓지 않거나 (거부), 형식이 틀린 경우가 약간 늘었습니다. 하지만 이는 오히려 좋은 일일 수 있습니다. 근거가 부족할 때 무작정 답을 내는 것보다, "모르겠습니다"라고 말하는 것이 의료 현장에서는 더 안전하기 때문입니다.

2. 정답률은 모델마다 달랐음 (성능 변화)

  • GPT 와 Gemini: 근거를 보여달라고 했을 때, 오히려 정답률이 약간 좋아졌습니다. (근거를 찾으려다 실수를 줄인 셈)
  • Claude: 근거를 보여달라고 했을 때, 정답률이 떨어졌습니다. (근거를 찾으느라 정답을 놓친 경우 발생)
  • 교훈: AI 모델마다 성격이 다릅니다. 어떤 모델은 "근거를 보여달라"는 요구가 도움이 되지만, 어떤 모델은 혼란을 겪습니다.

3. "근거"가 진짜 근거일까요? (기계적 유효성 vs 의미적 유효성)

이게 가장 재미있는 부분입니다.

  • 기계적 유효성: AI 가 보여준 문장이 원문에 정확히 존재하는지 확인했습니다. (대부분 OK)
  • 의미적 유효성: 그 문장이 정답을 뒷받침하는 진짜 논리적인 근거인지를 또 다른 AI 가 판정했습니다.
  • 결과: AI 가 보여준 문장 중 약 50~70% 만이 진짜로 논리적인 근거였습니다. 나머지는 원문에 있는 문장이긴 한데, 정답과는 상관없는 엉뚱한 문장이거나, 문맥을 잘못 해석한 것이었습니다.
  • 비유: 요리사가 "이 요리에 소금이 들어갔습니다"라고 말하며 소금병을 보여줬는데, 사실 그 소금병은 설탕이었습니다. 문장 자체는 원문에 있었지만, 의미는 틀린 것입니다.

💡 이 연구가 우리에게 주는 교훈

이 논문은 **"AI 가 답을 내놓을 때, 그 근거를 보여달라고 요구하는 것 (Show Your Work)"**이 왜 중요한지, 그리고 어떤 함정이 있는지 알려줍니다.

  1. 신뢰할 수 있는 '감시자' 역할: AI 가 근거를 보여준다면, 우리는 그 근거가 진짜인지 쉽게 확인할 수 있습니다. (위조된 레시피를 걸러낼 수 있음)
  2. 정확도 vs 신뢰도: 근거를 보여달라고 하면 AI 가 더 신중해져서, 정답을 내놓는 횟수는 줄어들지만, 내놓은 답의 신뢰도는 높아집니다.
  3. 자동화된 '품질 관리': 만약 AI 가 근거를 보여주고, 그 근거가 논리적으로 맞다면 그 답만 자동화하고, 근거가 애매한 것은 사람이 다시 확인하게 하면 됩니다. 이렇게 하면 실수 없이 중요한 의료 업무를 처리할 수 있습니다.

📝 한 줄 요약

"AI 에게 "정답만 말하지 말고, 그 근거를 원문에서 찾아서 보여줘"라고 요구하면, AI 는 조금 더 신중해지고 우리가 그 답을 믿을 수 있게 됩니다. 다만, AI 가 보여주는 근거가 항상 논리적으로 완벽한 것은 아니므로, 중요한 결정 앞에서는 AI 의 '근거'도 한번 더 확인하는 것이 좋습니다."

이 연구는 의료 분야에서 AI 를 사용할 때, 단순히 "정답이 몇 % 맞았나?"를 보는 것을 넘어, **"왜 그 답을 냈는지 증명할 수 있는가?"**를 확인하는 새로운 기준을 제시합니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →