Evaluating Large Language Models' Responses to Sexual and Reproductive Health Queries in Nepali

이 논문은 네팔어 성 및 생식 건강 질문을 평가하기 위해 정확성, 언어, 사용성, 안전성 등 다차원적 기준을 제시한 'LEAF' 프레임워크를 개발하고, 이를 통해 현재 대규모 언어 모델이 적절하고 안전한 답변을 제공하는 비율이 35.1% 에 불과하다는 한계를 드러냈습니다.

Medha Sharma, Supriya Khadka, Udit Chandra Aryal, Bishnu Hari Bhatta, Bijayan Bhattarai, Santosh Dahal, Kamal Gautam, Pushpa Joshi, Saugat Kafle, Shristi Khadka, Shushila Khadka, Binod Lamichhane, Shilpa Lamichhane, Anusha Parajuli, Sabina Pokharel, Suvekshya Sitaula, Neha Verma, Bishesh Khanal

게시일 2026-03-25
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🌟 핵심 이야기: "AI 상담사, 말은 잘하지만 '사람'은 아닐까?"

연구진들은 AI(특히 챗GPT) 가 네팔어 사용자에게 성 건강에 대한 조언을 줄 수 있는지 시험해 보았습니다. 마치 새로운 상담사를 채용해서 훈련시키는 과정과 같습니다.

1. 왜 이 연구를 했나요? (배경)

네팔에서는 성 건강에 대해 묻는 것이 부끄럽거나 두려운 일이 많습니다. 사람들은 AI 를 만나면 남의 시선을 의식하지 않고, 부끄러움 없이 질문할 수 있습니다. 하지만 AI 가 엉뚱한 소리나 위험한 조언을 한다면 큰 문제가 됩니다. 그래서 "AI 가 정말로 믿을 만한 상담사가 될 수 있을까?"를 확인하기로 했습니다.

2. 새로운 평가 도구 'LEAF'를 만들었습니다 (방법론)

기존에는 AI 가 "사실 (Accuracy)"만 맞는지 확인했습니다. 하지만 연구진들은 **"사실만 맞으면 된다고?"**라고 생각했습니다.
이들은 LEAF라는 새로운 평가 기준을 만들었습니다. 이는 마치 음식 평가를 할 때 '맛 (사실)'만 보는 게 아니라, **'위생 (안전)', '접근성 (언어)', '배려 (문화적 적절성)'**까지 모두 보는 것과 같습니다.

  • 맛 (정확성): 의학적 사실이 맞나요?
  • 위생 (안전성): 폭력이나 자살을 부추기는 위험한 조언은 없나요?
  • 접근성 (언어): 네팔어로 자연스럽게 말하나요? 아니면 엉뚱한 영어로 대답하나요?
  • 배려 (문화적 적절성): 네팔의 문화나 상황에 맞나요? (예: 네팔에 없는 약을 추천하지 않는지)

3. 실험 결과: "대부분은 '괜찮은' 상담사였지만, '완벽한' 상담사는 아니었다" (결과)

네팔 전역에서 9,000 명 이상의 사람들과 14,000 건 이상의 대화를 나누고 AI 의 답변을 전문가들이 평가했습니다. 결과는 다음과 같았습니다.

  • 🍎 "완벽한 상담사"는 35% 뿐: 모든 조건 (사실, 안전, 문화적 배려 등) 을 다 갖춘 '훌륭한 답변'은 전체의 **35.1%**에 불과했습니다.
  • 📚 "지식은 있지만, 배려가 부족함": 사실 (의학 지식) 은 62% 정도 맞았습니다. 하지만 정답을 알려줘도 너무 길거나, 문화적으로 맞지 않거나, 필요한 정보가 빠진 경우가 많았습니다.
    • 비유: AI 가 "감기에 좋은 약은 A, B, C 입니다"라고 정확한 약 이름을 알려주지만, **"네팔 시골에서는 A 약을 구할 수 없습니다"**라는 사실을 모르고 말해버린 것과 같습니다.
  • ⚠️ "위험한 조언"은 드물지만 존재함: 전체의 0.7% 정도는 안전하지 않은 조언을 했습니다. 하지만 성 건강 같은 민감한 주제에서는 0.1% 의 위험한 조언도 사람의 생명을 위협할 수 있습니다.

4. 버전 비교: "초보 상담사 vs 베테랑 상담사" (GPT-3.5 vs GPT-4)

연구진은 최신 버전인 GPT-4 도 테스트해 보았습니다.

  • GPT-3.5 (초보): 사실은 어느 정도 알지만, 엉뚱한 말을 하거나 문화적 맥락을 모르는 경우가 많았습니다.
  • GPT-4 (베테랑): 훨씬 더 똑똑해졌습니다. 잘못된 답변이 줄고, 더 적절한 조언을 했습니다. 하지만 여전히 완벽하지는 않았습니다. 특히 네팔어를 로마자 (영어 알파벳) 로 적었을 때 혼란을 겪는 등, 언어 처리에 약점이 있었습니다.

5. 결론 및 제언: "아직은 보조 역할로만"

이 연구는 **"AI 가 성 건강 상담에 완전히 의존하기엔 아직 준비가 덜 되었다"**는 것을 보여줍니다.

  • 현재 상태: AI 는 훌륭한 '정보 검색 도구'가 될 수 있지만, '최종 결정권자'나 '전문 상담사'로 바로 쓰기는 위험합니다.
  • 미래 제안: AI 를 더 발전시키기 위해서는 단순히 '지식'을 늘리는 것뿐만 아니라, 사용자의 문화, 언어, 안전까지 고려하는 '배려'를 학습시켜야 합니다.

💡 한 줄 요약

"AI 는 성 건강에 대해 꽤 많은 지식을 가지고 있지만, 네팔 사람들의 문화와 상황에 맞춰 '안전하고 따뜻한 조언'을 하는 데는 아직 갈 길이 멉니다. 우리는 AI 를 '완벽한 의사'가 아니라 '도움을 주는 보조 도구'로 발전시켜야 합니다."