Show Your Work: Verbatim Evidence Requirements and Automated Assessment for Large Language Models in Biomedical Text Processing

⚕️

이것은 동료 심사를 거치지 않은 프리프린트의 AI 생성 설명입니다. 의학적 조언이 아닙니다. 이 내용을 바탕으로 건강 관련 결정을 내리지 마세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

🍳 핵심 비유: "요리사에게 레시피를 보여달라고 하다"

이 연구는 세 가지 유명한 AI 모델 (GPT-5.2, Gemini 3 Flash, Claude Opus 4.5) 을 실험실 셰프들로 상정했습니다. 이들은 **암 임상 시험 논문 (요리 재료 목록)**을 읽고, **"이 시험에 환자를 뽑을 때, 암이 퍼진 상태 (전이) 도 가능한가, 아니면 초기 단계 (국소) 만 가능한가?"**를 판단해야 했습니다.

연구팀은 두 가지 상황을 만들었습니다.

상황 A (기존 방식): "정답만 말해줘." (예: "전이 가능")
상황 B (새로운 방식): "정답을 말하되, 논문 원문에서 그 근거가 되는 문장을 그대로 베껴서 보여줘." (예: "전이 가능. 근거: '환자는 전이성 암을 가진 경우 포함됨'")

이때 AI 가 보여준 문장이 **실제로 원문에 있는 문장인지 (위조하지 않았는지)**를 컴퓨터가 자동으로 확인했습니다.

🔍 연구 결과: "근거를 보여달라고 하면 어떻게 될까?"

1. "모르는 척"을 더 많이 하게 됨 (Coverage 감소)

근거를 보여달라고 하니, AI 들이 조금 더 신중해졌습니다.

비유: 요리사가 "이 재료가 들어갔다고 확신할 수 없으면, 요리를 안 하고 '모르겠습니다'라고 말하는" 경우가 늘어난 것입니다.
결과: AI 가 답을 내놓지 않거나 (거부), 형식이 틀린 경우가 약간 늘었습니다. 하지만 이는 오히려 좋은 일일 수 있습니다. 근거가 부족할 때 무작정 답을 내는 것보다, "모르겠습니다"라고 말하는 것이 의료 현장에서는 더 안전하기 때문입니다.

2. 정답률은 모델마다 달랐음 (성능 변화)

GPT 와 Gemini: 근거를 보여달라고 했을 때, 오히려 정답률이 약간 좋아졌습니다. (근거를 찾으려다 실수를 줄인 셈)
Claude: 근거를 보여달라고 했을 때, 정답률이 떨어졌습니다. (근거를 찾으느라 정답을 놓친 경우 발생)
교훈: AI 모델마다 성격이 다릅니다. 어떤 모델은 "근거를 보여달라"는 요구가 도움이 되지만, 어떤 모델은 혼란을 겪습니다.

3. "근거"가 진짜 근거일까요? (기계적 유효성 vs 의미적 유효성)

이게 가장 재미있는 부분입니다.

기계적 유효성: AI 가 보여준 문장이 원문에 정확히 존재하는지 확인했습니다. (대부분 OK)
의미적 유효성: 그 문장이 정답을 뒷받침하는 진짜 논리적인 근거인지를 또 다른 AI 가 판정했습니다.
결과: AI 가 보여준 문장 중 약 50~70% 만이 진짜로 논리적인 근거였습니다. 나머지는 원문에 있는 문장이긴 한데, 정답과는 상관없는 엉뚱한 문장이거나, 문맥을 잘못 해석한 것이었습니다.
비유: 요리사가 "이 요리에 소금이 들어갔습니다"라고 말하며 소금병을 보여줬는데, 사실 그 소금병은 설탕이었습니다. 문장 자체는 원문에 있었지만, 의미는 틀린 것입니다.

💡 이 연구가 우리에게 주는 교훈

이 논문은 **"AI 가 답을 내놓을 때, 그 근거를 보여달라고 요구하는 것 (Show Your Work)"**이 왜 중요한지, 그리고 어떤 함정이 있는지 알려줍니다.

신뢰할 수 있는 '감시자' 역할: AI 가 근거를 보여준다면, 우리는 그 근거가 진짜인지 쉽게 확인할 수 있습니다. (위조된 레시피를 걸러낼 수 있음)
정확도 vs 신뢰도: 근거를 보여달라고 하면 AI 가 더 신중해져서, 정답을 내놓는 횟수는 줄어들지만, 내놓은 답의 신뢰도는 높아집니다.
자동화된 '품질 관리': 만약 AI 가 근거를 보여주고, 그 근거가 논리적으로 맞다면 그 답만 자동화하고, 근거가 애매한 것은 사람이 다시 확인하게 하면 됩니다. 이렇게 하면 실수 없이 중요한 의료 업무를 처리할 수 있습니다.

📝 한 줄 요약

"AI 에게 "정답만 말하지 말고, 그 근거를 원문에서 찾아서 보여줘"라고 요구하면, AI 는 조금 더 신중해지고 우리가 그 답을 믿을 수 있게 됩니다. 다만, AI 가 보여주는 근거가 항상 논리적으로 완벽한 것은 아니므로, 중요한 결정 앞에서는 AI 의 '근거'도 한번 더 확인하는 것이 좋습니다."

이 연구는 의료 분야에서 AI 를 사용할 때, 단순히 "정답이 몇 % 맞았나?"를 보는 것을 넘어, **"왜 그 답을 냈는지 증명할 수 있는가?"**를 확인하는 새로운 기준을 제시합니다.

Show Your Work: Verbatim Evidence Requirements and Automated Assessment for Large Language Models in Biomedical Text Processing

🍳 핵심 비유: "요리사에게 레시피를 보여달라고 하다"

🔍 연구 결과: "근거를 보여달라고 하면 어떻게 될까?"

1. "모르는 척"을 더 많이 하게 됨 (Coverage 감소)

2. 정답률은 모델마다 달랐음 (성능 변화)

3. "근거"가 진짜 근거일까요? (기계적 유효성 vs 의미적 유효성)

💡 이 연구가 우리에게 주는 교훈

📝 한 줄 요약

1. 연구 배경 및 문제 제기 (Problem)

2. 연구 방법론 (Methodology)

3. 주요 결과 (Key Results)

4. 주요 기여 (Key Contributions)

5. 의의 및 결론 (Significance)

Show Your Work: Verbatim Evidence Requirements and Automated Assessment for Large Language Models in Biomedical Text Processing

🍳 핵심 비유: "요리사에게 레시피를 보여달라고 하다"

🔍 연구 결과: "근거를 보여달라고 하면 어떻게 될까?"

1. "모르는 척"을 더 많이 하게 됨 (Coverage 감소)

2. 정답률은 모델마다 달랐음 (성능 변화)

3. "근거"가 진짜 근거일까요? (기계적 유효성 vs 의미적 유효성)

💡 이 연구가 우리에게 주는 교훈

📝 한 줄 요약

1. 연구 배경 및 문제 제기 (Problem)

2. 연구 방법론 (Methodology)

3. 주요 결과 (Key Results)

4. 주요 기여 (Key Contributions)

5. 의의 및 결론 (Significance)

유사한 논문

A case report on gendered biases in a Finnish healthcare AI assistant

An End-to-End Synthetic Oncology Clinical Trial Framework Integrating Radiographic Response, Circulating Tumor DNA, Safety, and Survival for Decision-Oriented Clinical Data Science

Who is leading medical AI? A systematic review and scientometric analysis of chest x-ray research

High-Throughput Observational Evidence Generation Using Linked Electronic Health Record and Claims Data

Perception of Safety in Behavioral Health Crisis Units among Patients and Care Partners versus Artificial Intelligence (AI): A Multimethod Study