From Protocol to Analysis Plan: Development and Validation of a Large Language Model Pipeline for Statistical Analysis Plan Generation using Artificial Intelligence (SAPAI)

이 연구는 임상시험 프로토콜을 기반으로 통계분석계획서 (SAP) 초안을 생성하는 대규모 언어 모델 파이프라인을 개발·검증한 결과, 기술적 세부사항 작성에는 높은 정확도를 보였으나 복잡한 통계적 추론이 필요한 부분에서는 여전히 인간 전문가의 검토가 필수적임을 규명했습니다.

Jafari, H., Chu, P., Lange, M., Maher, F., Glen, C., Pearson, O. J., Burges, C., Martyn, M., Cross, S., Carter, B., Emsley, R., Forbes, G.

게시일 2026-03-19
📖 3 분 읽기☕ 가벼운 읽기
⚕️

이것은 동료 심사를 거치지 않은 프리프린트의 AI 생성 설명입니다. 의학적 조언이 아닙니다. 이 내용을 바탕으로 건강 관련 결정을 내리지 마세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

🍳 핵심 비유: "요리사 (통계학자) 와 AI 조리 보조"

임상시험은 새로운 약이나 치료법을 검증하는 거대한 요리 대회라고 생각해보세요.

  • 프로토콜 (Protocol): "무엇을 만들 것인가?"에 대한 메뉴판입니다. (예: "오늘은 김치찌개를 만들자.")
  • 통계 분석 계획서 (SAP): "정확히 어떻게 요리할 것인가?"에 대한 상세한 레시피입니다. (예: "김치는 30 분 볶고, 고기는 200g 씩 넣되, 불은 중약으로 유지한다.")

이 레시피는 아주 중요합니다. 왜냐하면 요리가 끝난 뒤 (데이터가 나온 뒤) 에 "아, 내가 이렇게 했어야 했는데!"라고 마음대로 바꾸면, 그 요리 (연구 결과) 가 믿을 수 없게 되기 때문입니다.

하지만 이 상세한 레시피를 쓰는 일은 매우 어렵고 지루한 일입니다. 전문 요리사 (통계학자) 가 수백 시간을 들여 써야 하죠. 그래서 연구팀은 **"AI 가 이 레시피를 대신 써줄 수 있을까?"**라고 궁금해했습니다.


🔍 연구가 어떻게 진행되었나요?

연구팀은 최신 AI 3 종 (GPT-5, Claude, Gemini) 을 데려와서, 실제 임상시험 9 건의 '메뉴판 (프로토콜)'을 주고 "이걸 바탕으로 상세 레시피 (SAP) 를 써봐"라고 시켰습니다.

그리고 전문 요리사 2 명이 AI 가 쓴 레시피를 꼼꼼히 채점했습니다.

  • 채점 기준: "이 레시피대로 요리하면 맛있는 김치찌개가 나올까? 아니면 실패할까?"

📊 결과는 어땠나요? (AI 의 능력)

결과는 **"반은 천재, 반은 초보"**였습니다.

1. 잘한 점: "기본기"는 완벽함 (80% 이상)

  • 비유: "김치 2kg, 고기 500g, 물 1 리터" 같은 재료 목록이나 "요리 시간 30 분" 같은 기본 정보를 적는 것은 AI 가 아주 잘했습니다.
  • 현실: 연구의 기본 정보 (누가 참여하는지, 언제 측정하는지 등) 를 요약하고 정리하는 작업은 AI 가 인간보다 훨씬 빠르고 정확하게 해냈습니다.

2. 못 한 점: "요리 비법"은 위험함 (67~72%)

  • 비유: "김치가 너무 짜면 어떻게 할까?", "불이 너무 세면 어떻게 조절할까?" 같은 예상치 못한 상황 대처법이나 맛을 결정하는 미세한 조절은 AI 가 잘 못했습니다.
  • 현실: 통계적으로 복잡한 부분 (어떤 수식을 쓸지, 실수가 났을 때 어떻게 분석할지) 에서 AI 는 그럴듯하지만 틀린 내용을 만들어냈습니다.
    • 예시: AI 가 "이런 분석 방법을 쓰면 더 정확할 거예요"라고 제안했지만, 사실은 그 방법이 연구 목적에 맞지 않아 결과를 왜곡할 수 있는 위험한 제안이었습니다.

3. 세 가지 AI 의 차이

  • 놀랍게도 GPT, Claude, Gemini 세 가지 AI 는 성능 차이가 거의 없었습니다. 모두 비슷하게 잘하고 비슷하게 못했습니다.

💡 이 연구가 우리에게 주는 교훈

"AI 는 훌륭한 '초안 작성자'지만, '마스터 셰프'가 될 수는 없다."

  • 기대: AI 가 레시피의 기본 뼈대 (재료, 시간, 기본 순서) 를 먼저 써주면, 인간 요리사 (통계학자) 는 그 위에 맛을 결정하는 핵심 비법만 다듬으면 됩니다. 이렇게 하면 연구 준비 시간을 반으로 줄일 수 있습니다.
  • 경고: 하지만 AI 가 쓴 레시피를 그대로 믿고 요리를 시작하면 재앙이 일어날 수 있습니다. AI 는 "그럴듯하게" 틀린 말을 잘하기 때문입니다.

🚀 결론

이 연구는 **"AI 가 통계 분석 계획서를 작성하는 데 큰 도움을 줄 수 있지만, 절대 인간 전문가의 감시를 대체할 수는 없다"**는 것을 증명했습니다.

앞으로는 AI 가 초안을 쓰고, 인간이 최종 검수하는 '팀워크' 방식이 임상시험의 표준이 될 것입니다. AI 는 우리 곁의 '재능 있는 조수'가 되겠지만, '책임 있는 요리사'는 여전히 인간이어야 한다는 뜻입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →