Consistency of AI-Generated Exercise Prescriptions: A Repeated Generation Study Using a Large Language Model

본 연구는 대규모 언어 모델이 생성한 운동 처방이 의미적 일관성은 높으나 강도 등 핵심 정량적 요소에서 변동성이 크고 안전 문구의 분포도 상황에 따라 달라지므로, 임상 적용 전 프롬프트 구조 개선과 전문가 검수가 필요함을 밝혔습니다.

원저자: Kihyuk Lee

게시일 2026-04-14
📖 3 분 읽기☕ 가벼운 읽기
⚕️

이것은 동료 심사를 거치지 않은 프리프린트의 AI 생성 설명입니다. 의학적 조언이 아닙니다. 이 내용을 바탕으로 건강 관련 결정을 내리지 마세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

🏥 제목: "AI 운동 처방전, 똑같은 주문에 똑같은 요리가 나올까?"

1. 배경: 왜 이 연구를 했나요?

최근 AI(거대 언어 모델) 가 의사의 도움을 받아 환자나 일반인에게 맞춤형 운동 계획을 짜주는 시대가 왔습니다. 하지만 여기서 큰 문제가 하나 생깁니다.

비유: 만약 당신이 똑같은 재료와 똑같은 레시피를 들고 **다른 요리사 (AI)**에게 "이걸로 요리를 해줘"라고 20 번이나 주문했다고 상상해 보세요.

  • 1 번째 요리사는 "소금 1 큰술"을 넣었을 텐데,
  • 2 번째 요리사는 "소금 2 큰술"을 넣거나,
  • 3 번째 요리사는 "소금 대신 간장"을 넣을 수도 있죠.

운동 처방전도 마찬가지입니다. 같은 환자 정보를 AI 에게 20 번 입력했을 때, 매번 똑같은 운동 강도와 횟수를 제안해 준다면 신뢰할 수 있지만, 매번 다른 내용을 말해준다면 위험할 수 있습니다. 이 연구는 바로 이 **'일관성 (Consistency)'**을 확인한 것입니다.

2. 실험 방법: 20 번의 주문

연구진은 6 가지 다른 상황 (당뇨병 환자, 무릎 통증 노인, 암 수술 회복자, 건강한 젊은이 등) 을 만들어 AI(Gemini 2.5 Flash) 에게 20 번씩 운동 처방전을 요청했습니다. 총 120 개의 처방전이 만들어졌고, 이를 세 가지 기준으로 비교했습니다.

  1. 말의 일관성 (Semantic): 문장 전체의 의미와 톤이 비슷한가?
  2. 구조의 일관성 (FITT): 운동의 '빈도, 강도, 시간, 종류'가 매번 똑같은 숫자로 나왔는가?
  3. 안전성 일관성: 위험한 운동을 하지 않도록 경고하는 문구가 들어갔는가?

3. 주요 결과: "말은 비슷하지만, 숫자는 제각각"

① 말은 거의 똑같았어요 (높은 일관성)
AI 가 쓴 문장 전체를 비교했을 때, 의미는 매우 비슷했습니다. 마치 같은 이야기를 20 번 반복해서 하는 것처럼, "당신은 천천히 걷는 것이 좋습니다"라는 핵심 메시지는 매번 유지되었습니다. 특히 **병이 있는 환자 (임상 케이스)**일수록 AI 가 더 단단하게 같은 말을 반복했습니다.

② 하지만 숫자는 제각각이었어요 (낮은 일관성)
여기가 가장 중요한 부분입니다. "얼마나 힘껏 운동할까?"라는 강도 (Intensity) 부분에서 AI 는 꽤 혼란스러웠습니다.

  • 비유: "소금 1 큰술"을 넣으라고 했더니, 어떤 때는 "소금 1 큰술", 어떤 때는 "소금 1.5 큰술", 또 어떤 때는 "소금 양은 대략 적당히"라고 답했습니다.
  • 특히 근력 운동에서 "무게를 얼마로 할까?"를 묻자, 10~25% 의 경우 AI 가 "정확한 숫자를 못 말해"라고 하거나, 매번 다른 숫자를 제시했습니다.

③ 안전 경고는 100% 넣었어요
AI 는 "이 운동 중 어지러우면 멈추세요" 같은 안전 수칙을 100% 포함했습니다. 다만, 병이 심한 환자일수록 안전 경고 문장이 훨씬 길고 많았습니다. (건강한 젊은이에게는 짧게, 아픈 환자에게는 길게 설명하는 식입니다.)

4. 결론 및 시사점: "AI 는 훌륭한 조수지만, 아직은 '주장 (Chef)'이 될 수 없습니다"

이 연구는 AI 가 운동 처방전을 짤 때 두 가지 특징을 발견했습니다.

  1. 좋은 점: AI 는 말로 설명하는 부분 (의미, 안전 수칙) 에서 매우 안정적입니다. 특히 환자가 복잡한 병을 가진 경우, AI 는 더 신중하고 일관된 조언을 합니다.
  2. 아쉬운 점: 하지만 **구체적인 숫자 (운동 강도, 횟수)**를 매번 똑같이 정하는 데는 한계가 있습니다. AI 는 확률적으로 단어를 고르기 때문에, 같은 질문에도 미세한 숫자 차이가 발생할 수 있습니다.

💡 최종 메시지:

"AI 는 훌륭한 **'운동 가이드북 작성 보조'**입니다. 하지만 AI 가 혼자서 "오늘은 50% 강도로 30 분 운동하세요"라고 숫자를 딱 정해서 내주면, 우리는 **의사나 전문가가 그 숫자를 다시 한번 확인 (검수)**해야 합니다.

마치 자동 조리 기계가 요리를 해줄 때, 레시피는 완벽하지만 '소금 양'이 매번 조금씩 다를 수 있으니, 요리사가 마지막에 맛을 보고 간을 맞추는 것처럼 말이죠."

이 연구는 앞으로 AI 를 병원에 도입할 때, **"숫자 부분은 반드시 사람이 다시 확인해야 한다"**는 중요한 규칙을 세우게 해줍니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →