원본 논문은 CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. 이것은 동료 심사를 거치지 않은 프리프린트의 AI 생성 설명입니다. 의학적 조언이 아닙니다. 이 내용을 바탕으로 건강 관련 결정을 내리지 마세요. 전체 면책 조항 읽기
네 가지 다른 "디지털 의사"(AI 채팅봇) 가 건강 질문에 답하도록 되어 있다고 상상해 보세요. 여러분은 동일한 의학적 질문을 하지만 영어, 프랑스어, 러시아어, 아랍어, 히브리어, 태국어 등 여섯 가지 다른 언어로 질문합니다.
이 연구는 거대한 품질 관리 테스트와 같습니다. 연구자들은 봇에게 단순한 질문만 던진 것이 아니라, 온라인 포럼에서 나온 실제적이고 복잡하며 현실적인 건강 우려 사항들을 가져와 봇들에게 해결하도록 요청했습니다. 그 후, 해당 언어를 구사하는 실제 의사들을 고용하여 답변을 평가하게 했습니다.
다음은 그들이 발견한 바를 간단히 설명한 것입니다:
1. "따뜻한 포옹" 대 "나쁜 지도"
가장 놀라운 발견은 AI 가 어떻게 들리는지와 AI 가 실제로 무엇을 말하는지 사이의 괴리입니다.
- 따뜻한 포옹 (공감): AI 채팅봇은 어떤 언어로 질문하든 친절하고, 배려심이 있으며, 따뜻하게 들리는 데 탁월했습니다. 태어나 히브리어로 질문하든, 봇은 영어로 질문했을 때와 똑같이 연민에 찬 반응을 보였습니다. 마치 모든 언어로 완벽한 위안의 포옹을 주는 법을 배운 로봇과 같았습니다.
- 나쁜 지도 (임상적 내용): 그러나 실제 의학적 조언은 영어가 아닌 언어에서는 종종 재앙이었습니다. 영어 답변이 병원을 향한 명확하고 정확한 지도였다면, 태국어, 히브리어, 아랍어로 된 답변은 종종 길이 누락되거나, 잘못된 방향으로 이끄거나, 막다른 길로 향하는 지도와 같았습니다.
비유: 완벽한 영어를 구사하며 도시의 상세하고 정확한 지도를 제공하는 투어 가이드를 상상해 보세요. 이제 같은 가이드가 거의 모르는 언어로 지도를 주려고 한다고 가정해 봅시다. 그는 여전히 따뜻하게 미소 짓고, 손을 잡아주며, "걱정하지 마세요, 제가 도와드릴게요!"라고 말할 수 있습니다 (따뜻한 포옹). 하지만 그가 건네는 지도는 박물관이 아닌 강으로 당신을 이끌 수 있습니다 (나쁜 지도).
2. 브랜드보다 언어가 더 중요하다
"글쎄, 아마 '구글' 봇이 '오픈AI' 봇보다 나을지도 모른다"라고 생각할 수 있습니다. 하지만 연구 결과에 따르면 어떤 봇을 사용했는지는 중요하지 않았습니다.
조언이 안전한지 위험한지를 결정하는 가장 큰 요인은 봇을 만든 회사가 아니라 사용자가 말한 언어였습니다.
- 영어로 말하면 조언은 일반적으로 안전하고 정확했습니다.
- 태국어, 히브리어, 아랍어로 말하면 ChatGPT, Claude, Gemini, DeepSeek 중 누구와 대화하든 조언은 현저히 나빠졌습니다.
이는 레스토랑 체인점에서 음식을 주문하는 것과 같습니다. "빅 버거"든 "슈퍼 버거"든, 주방이 잘 이해하지 못하는 언어로 주문하면 버거 대신 샐러드가 나올 수 있습니다. 브랜드가 당신을 구해주지 않습니다. 언어 장벽이 당신을 구하지 못합니다.
3. "침묵하는" 위험
연구에 따르면 AI 는 "이 독을 먹어라"와 같은 크고 명백한 실수를 주로 하지 않았습니다. 대신 침묵적인 생략을 했습니다.
- 뇌졸중 예시: 환자가 뇌졸중 증상을 묘사하면, 영어 버전의 AI 는 "즉시 응급실로 가세요; 치료 가능한 시간 창은 4.5 시간입니다"라고 말할 수 있습니다. 다른 언어에서는 AI 가 "응급실로 가세요"라고 말하지만, 시간 제한에 대한 언급을 잊어버립니다. 잘못된 것을 말한 것이 아니라, 가장 중요한 정보를 빼먹은 것입니다.
- 일산화탄소 예시: 남편이 가족이 아파서 "직장 스트레스" 탓이라고 말하면, 영어 버전의 AI 는 "일산화탄소를 확인하세요; 집 안의 모든 사람이 아프다면 그것은 스트레스가 아닙니다"라고 말할 수 있습니다. 다른 언어에서는 AI 가 남편의 말에 동의하여 단순히 스트레스라고 말하며, 생명을 구할 단서를 놓칩니다.
비유: 이는 의사가 약을 복용하라고 말하지만 언제 복용해야 하는지 말해주는 것을 잊는 것과 같습니다. 조언이 쉽게 반박할 수 있는 방식으로 "틀린" 것은 아니지만, 가장 중요한 부분이 빠져 있어 무용하고 위험합니다.
4. "안전한" 긴급 전화번호
사람들이 비영어권 언어로 응급 상황에 대해 질문했을 때, 봇들은 종종 올바른 현지 긴급 전화번호를 제공하지 못했습니다.
- 영어에서는 (미국 맥락에서) "911"이나 현지 번호를 말해야 한다는 것을 알고 있었습니다.
- 다른 언어에서는 종종 번호를 주지 않고 "긴급 서비스에 전화하세요"라고만 말하거나, 해당 국가에서 작동하지 않는 일반적인 번호를 제공했습니다. 그들은 "안전한"(태국 사람에게 911 과 같은 잘못된 번호를 주지 않음) 것이었지만, 도움이 되지 않았습니다.
5. 왜 이런 일이 발생할까요?
연구자들은 컴퓨터가 단어를 처리하는 방식 (토큰화) 과 해당 언어에 대한 온라인 데이터의 양 측면에서 영어와 언어가 얼마나 멀리 떨어져 있는지에 따라 문제가 악화됨을 발견했습니다.
- 영어와 구조적으로 매우 다르고 디지털 데이터가 적은 태어나 히브리어와 같은 언어가 가장 큰 피해를 입었습니다.
- AI 모델은 주로 영어 데이터로 훈련된 것으로 보이며, 다른 언어로 말하려고 할 때 매우 자신감 있고 친절하게 들리면서도 사실은 의학적 사실을 "추측"하고 있는 것입니다.
결론
이 논문은 현재의 AI 건강 도구는 전 세계를 대상으로 준비되지 않았다고 결론지었습니다. 어떤 언어든 배려심 있는 친구처럼 들리는 데는 탁월하지만, 영어가 아닌 언어에서는 안전한 의학적 조언자가 되는 데는 종종 형편없습니다.
위험한 점은 환자가 AI 의 따뜻한 어조에 너무 위로받아 그 안에 숨겨진 나쁜 조언을 신뢰할 수 있다는 것입니다. 이 연구는 AI 가 유창하게 당신의 언어를 말한다고 해서 안전하다고 가정할 수 없다고 경고합니다. 답변의 "실체"는 영어권 세계를 벗어나는 순간 종종 무너집니다.
연구 분야의 논문에 파묻히고 계신가요?
연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.