Each language version is independently generated for its own context, not a direct translation.
📚 핵심 비유: "참고서 없이 외운 학생" vs "참고서를 펼쳐본 학생"
이 실험은 세 가지 다른 상황에 있는 AI 들을 비교했습니다.
- AI A (NotebookLM + RAG): 최신 의학 교과서 (참고서) 를 옆에 두고, 질문과 관련된 부분만 딱 찾아서 답을 쓰는 똑똑한 비서.
- AI B (Gemini + REK): 최신 의학 교과서 (참고서) 를 모든 내용을 복사해서 질문 앞에 붙여놓은 비서. (하지만 교과서 내용을 직접 찾아보지는 않음)
- AI C (Gemini - REK): 교과서 없이 기억력만 믿고 답을 쓰는 비서.
🧪 실험 내용: "가상의 췌장암 환자 100 명"을 진단해 보세요!
연구진은 100 명의 가상의 췌장암 환자 CT 사진을 만들고, AI 에게 "이 환자의 병기 (암의 진행 단계) 는 몇 단계인가?"라고 물었습니다. 이때 '병기'는 암이 얼마나 퍼졌는지, 수술이 가능한지 등을 판단하는 아주 중요한 기준입니다.
🏆 실험 결과: 누가 이겼을까?
- AI A (참고서 검색형): **70%**의 정답률을 기록했습니다! 🎉
- 특히 "병기"를 판단할 때, 교과서에서 정확한 문장을 찾아서 "왜 이렇게 판단했는지" 근거를 함께 제시했습니다.
- AI B (참고서 붙여넣기형): **38%**의 정답률.
- 교과서 내용을 다 줬는데도, 중요한 부분을 놓치고 엉뚱한 답을 냈습니다.
- AI C (기억력만 믿은형): **35%**의 정답률.
- 교과서도 없이 기억만으로 답을 내서 가장 틀렸습니다.
💡 결론: AI 가 단순히 많은 지식을 가지고 있는 것보다, 필요한 정보를 '찾아서' (검색해서) 사용하는 능력이 훨씬 중요하다는 것이 증명되었습니다.
🔍 재미있는 발견: "왜 AI A 가 더 잘했을까?"
- 찾아낸 정보의 정확성: AI A 는 92% 의 확률로 질문과 관련된 교과서 내용을 정확히 찾아냈습니다. 마치 도서관에서 책 제목만 보고 필요한 페이지를 바로 찾아내는 것과 같습니다.
- 근거 제시의 투명성: AI A 는 답을 줄 때, **"교과서 50 페이지에 이렇게 적혀 있으니 이 환자는 3 단계입니다"**라고 근거를 보여줬습니다. 이는 의사가 AI 의 답을 믿고 검증할 때 큰 도움이 됩니다.
- 아직도 실수는 있습니다: 가끔 AI 가 교과서 내용을 찾아냈는데도, 그 내용을 오해해서 틀린 답을 내는 경우도 있었습니다. (예: '비장 정맥'을 '문맥'으로 잘못 이해한 경우). 이는 AI 가 아직 인간 의사의 마지막 확인이 필요하다는 뜻입니다.
🚨 중요한 경고: "병원에서 바로 쓸 수 있을까?"
이 연구는 AI 의 가능성을 보여줬지만, 아직 바로 병원에 도입하기는 어렵습니다.
- 비밀 유지 문제: 현재 실험에 쓴 AI (NotebookLM) 는 인터넷에 연결되어 있습니다. 환자의 CT 사진이나 정보를 인터넷으로 보내는 것은 개인정보 유출 위험이 있어 의료 현장에서는 금지됩니다.
- 미래의 해결책: 앞으로는 이 기술을 병원 내부 서버에서 작동하는 오프라인 AI로 개발해야 합니다. 즉, "참고서"와 "비서"가 병원 안의 안전한 방 안에 있어야 한다는 뜻입니다.
📝 한 줄 요약
"AI 가 암 진단을 할 때, 단순히 머릿속 지식을 믿는 것보다, 최신 의학 지침을 '찾아서' 근거를 보여주는 방식이 훨씬 정확하고 신뢰할 수 있다. 하지만 아직은 의사의 최종 확인이 필요하며, 환자 정보를 보호할 수 있는 안전한 시스템이 필요하다."
이 연구는 AI 가 의사의 **'똑똑한 조수'**가 되어, 복잡한 의학 지식을 찾아서 정리해 줄 수 있는 가능성을 보여주었습니다.