When Multiple Scripts Matter: Evaluating ASR in Clinical Settings

원저자: Jean Seo, Minkyu Kim, Jeonguk Lee, Jisoo Jung, Wooseok Han, Eunho Yang

게시일 2026-06-17✓ Author reviewed ⓘ

📖 3 분 읽기☕ 가벼운 읽기

원저자: Jean Seo, Minkyu Kim, Jeonguk Lee, Jisoo Jung, Wooseok Han, Eunho Yang

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

당신이 로봇에게 의사가 환자에게 말하는 것을 듣는 법을 가르치려 한다고 상상해 보세요. 영어권 병원에서는 이는 비교적 간단합니다. 의사가 "brace"라고 말하면, 로봇은 "brace"라고 받아 적습니다.

하지만 한국과 같은 많은 비영어권 국가에서 상황은 마치 모두가 같은 언어를 말하지만, 서로 다른 악센트나 철자를 사용하는 이중 언어 파티와 같습니다.

이 논문의 이야기를 쉬운 개념으로 나누어 설명해 드리겠습니다:

1. 문제점: "정답은 하나"라는 함정

현실 세계에서 한국인 의사는 무릎 보호대를 뜻하는 영어 단어 "brace"를 말할 수 있습니다. 하지만 이를 기록할 때, 의사는 두 가지 유효한 방식으로 쓸 수 있습니다:

방식 A: 영어 철자: "brace"
방식 B: 한국어 음성 표기: "브레이스" (bureseu)

두 방식은 정확히 같은 의미이며 소리도 같습니다. 하지만 표준 컴퓨터 음성 인식 테스트는 마치 단 하나의 특정 정답만을 인정하는 엄격한 선생님과 같습니다. 만약 로봇이 "브레이스"라고 적었는데 테스트 정답지가 "brace"라고 되어 있다면, 로봇이 의사의 말을 완벽하게 이해했음에도 불구하고 컴퓨터는 이를 틀렸다고 표시합니다.

저자들은 이를 **"다중 스크립트 가변성(Multiscript Variability)"**이라고 부릅니다. 이것은 마치 친구에게 "Hello"라고 써달라고 부탁했는데, 친구가 "Hullo"라고 쓰거나 (프랑스인이라면) "Salut"이라고 썼다고 해서, 단지 철자가 당신이 생각한 것과 정확히 일치하지 않는다는 이유로 시험에서 낙제점을 주는 것과 같습니다.

2. 해결책: "MultiClin" 벤치마크

연구진은 이 "이중 언어 파티" 규칙을 이해하는 음성 로봇을 위한 새로운 시험장인 MultiClin을 구축했습니다. 이것은 일종의 특화된 시험입니다.

데이터셋: 그들은 가상의 (하지만 현실적인) 의사-환자 대화 라이브러리를 만들었습니다. 실제 의료 녹음은 개인 정보(비밀 일기처럼)이기 때문에, 그들은 AI를 사용하여 이러한 대화를 생성했으며, 영어 또는 한국어로 쓰일 수 있는 의학 용어들을 정교하게 추가했습니다.
새로운 규칙: 로봇의 답변이 단 하나의 특정 스크립트와 일치하는지 확인하는 대신, 새로운 테스트는 로봇의 답변이 영어 버전이거나 혹은 한국어 버전 중 하나와 일치하는지를 확인합니다. 이는 선생님이 "만약 네가 'brace'라고 쓰든 '브레이스'라고 쓰든, 둘 다 정답으로 인정해주겠다"라고 말하는 것과 같습니다.

3. 결과: 로봇이 훨씬 더 똑똑해 보이다

연구진이 인기 있는 음성 로봇들(Whisper, Qwen, Gemini 등)을 기존의 "엄격한 선생님" 규칙으로 테스트했을 때, 로봇들은 형편없는 성적을 보였습니다. 로봇들이 현지 철자를 사용했다는 이유로 벌점을 받았기 때문에 오류율이 높았습니다.

하지만 새로운 MultiClin 규칙을 적용했을 때:

오류율이 상당히 감소했습니다.
로봇이 실제로 멍청해진 것이 아니라, 테스트가 너무 가혹했던 것입니다.
가장 뛰어난 로봇(Gemini 2.5 Pro)은 우리가 현지 스크립트를 사용한다는 이유로 벌점을 주는 것을 멈추자, 이러한 까다로운 의료 대화를 우리가 생각했던 것보다 훨씬 더 잘 처리할 수 있음을 보여주었습니다.

4. 학습 교훈: 한 우물만 파라!

연구진은 또한 이 새로운 데이터를 사용하여 로봇을 직접 가르치는 실험도 진행했습니다. 그들은 로봇을 학습시키는 방법에 대해 매우 중요한 교훈을 발견했습니다: 일관성이 핵심입니다.

당신이 아이에게 "cat"이라는 단어를 쓰는 법을 가르친다고 상상해 보세요.

시나리오 A: 당신이 100%의 확률로 "cat"이라고 보여줍니다. 아이는 완벽하게 배웁니다.
시나리오 B: 당신이 50%는 "cat"이라고 보여주고, 나머지 50%는 "kæt"(음성 표기)라고 보여줍니다. 아이는 혼란에 빠집니다. 아이는 어떤 것이 "진짜" 단어인지 알지 못하며, 이로 인해 실수를 하기 시작합니다.

논문은 만약 학습 데이터가 영어와 한국어 철자를 무작위로 섞어서 제공한다면(50/50 비율), 로봇이 매우 혼란스러워하며 성능이 저하된다는 것을 발견했습니다. 이는 마치 로봇의 뇌가 어떤 철자가 맞는지 결정하기 위해 제자리에서 뱅글뱅글 돌며 헤매는 것과 같습니다.

승자: 로봇은 학습 데이터가 100% 통일되었을 때 가장 좋은 성과를 냈습니다. 목표가 한국어로 쓰는 것이었다면 모든 것이 한국어로 작성되어야 했고, 영어였다면 모든 것이 영어여야 했습니다. 이렇게 하면 혼란이 제거되어 로봇이 의학 용어를 빠르고 정확하게 배울 수 있습니다.

요약

문제점: 현재의 테스트는 음성 로봇이 의학 용어의 현지 철자를 사용할 때, 그것이 맞더라도 불공정하게 벌점을 줍니다.
해결책: 저자들은 영어 또는 현지 스크립트 모두를 정답으로 인정하는 새로운 테스트인 MultiClin을 만들었습니다.
발견: 로봇은 우리가 생각했던 것보다 훨씬 더 의료 대화를 잘 이해하고 있지만, 우리는 "하나의 크기로 통일된" 자로 그들을 평가하는 것을 멈춰야 합니다.
학습 팁: 이러한 로봇을 잘 가르치려면, 철자 스타일을 무작위로 섞지 마세요. 한 가지 스타일을 선택해 끝까지 고수해야 합니다. 그렇지 않으면 로봇은 혼란에 빠집니다.

기술 요약: 다중 스크립트 가변성을 고려한 임상 환경에서의 ASR 평가

문제 정의
비영어권 임상 환경에서의 자동 음성 인식(ASR)은 **다중 스크립트 가변성(multiscript variability)**이라는 특정한 문제에 직면해 있습니다. 이는 단순한 코드 스위칭(acoustic alternation)과는 다릅니다. 코드 스위칭이 언어 간의 음향적 교체를 의미한다면, 다중 스크크립트 가변성은 하나의 구어체 의학 용어가 여러 가지 유효한 철자 형태(예: 로마자 알파벳으로 표기된 영어 의학 용어와 이를 한국어 한글로 음성 전사한 형태)로 대응될 때 발생합니다.

WER(Word Error Rate)과 같은 기존의 ASR 평가 지표는 단일 참조 전사(single-reference transcription) 가정을 기반으로 합니다. 그러나 임상 환경에서는 이 가정이 성립하지 않습니다. 영어 기원의 의학 용어는 표준화된 현지화 가이드라인이 부족한 경우가 많아, 여러 개의 유효한 전사 형태가 존재할 수 있기 때문입니다. 엄격한 문자열 매칭 방식의 지표들은 이러한 유효한 철자 변이들을 오류로 처리하며, 결과적으로 ASR의 성능을 체계적으로 과소평가하게 됩니다. 또한, 기존의 벤치마크와 지표(Transliterated WER 등)는 주로 일반 도메인의 코드 스위칭이나 방언 변이에 초점을 맞추어 왔기에, 임상 분야의 다중 스크립트 환경은 거의 탐구되지 않았습니다.

방법론
이러한 격차를 해소하기 위해, 저자들은 다중 스크립트 가변성에 대한 강건성을 평가하기 위해 설계된 임상 ASR 벤치마크인 MultiClin을 소개합니다.

데이터셋 구축: 본 데이터셋은 공개된 의사-환자 대화 데이터(ACIBLC, Primock57, MTS-Dialog)를 기반으로 구축되었습니다. 구축 과정은 다음과 같습니다:
1. 태깅(Tagging): LLM을 사용하여 스크립트 전환 사례를 MEDICAL(영어 용어), UNIT(측정 단위), NUMBER의 세 가지 범주로 식별하고 태깅했습니다.
2. 번역 및 음사(Translation & Transliteration): 대화 내용을 한국어로 번역했습니다. 결정적으로, 태깅된 엔티티들은 원래의 형태를 유지하면서도 현지 스크립트의 음성 전사 형태(예: "injection, 인젝션")를 쉼표로 구분하여 추가하였습니다. 이를 통해 음성과 유효한 철자 사이의 "일대다(many-to-one)" 매핑을 생성했습니다.
3. 전문가 검수: 간호 전문가들이 데이터의 철자 정확성과 자연스러움을 검수했습니다.
4. 음성 합성: HIPAA 및 개인정보 보호 규정을 준수하기 위해, 특정 화자 스타일(전문적인 의사, 무기력한 환자)과 시뮬레이션된 임상 소음(잔향, HVAC 소음)을 적용한 TTS 모델을 사용하여 오디오를 합성했습니다.
5. 통계: 최종 데이터셋은 20개 이상의 임상 전문 분야를 아우르는 316개의 대화로 구성되었으며, 대화당 평균 34회의 발화(turn)를 포함합니다.
평가 프로토콜 (동적 다중 스크립트 참조 해결): 저자들은 단일 참조 매칭을 넘어선 국소적 평가 지표(Algorithm 1)를 제안합니다.
- 참조(reference) 내의 각 태깅된 엔티티에 대해, 시스템은 ASR 예측값에서 50자 크기의 윈도우를 동적으로 추출합니다.
- 이 윈도우를 대상으로 원래의 영어 형태와 현지 스크립트 형태 모두에 대해 문자 에러율(CER)을 계산합니다.
- 시스템은 최소 로컬 에러를 생성하는 참조 변이(원래 형태 또는 음사 형태)를 선택함으로써, 두 철자 형태 모두를 유효한 정답(ground truth)으로 취급합니다.
실험 설정:
- 모델: Whisper (v3, v3-turbo), Qwen3 ASR (0.6B, 1.7B), Gemini (2.5 Flash, 2.5 Pro)를 대상으로 제로샷 추론을 테스트했습니다.
- 미세 조정(Fine-tuning): Whisper 모델들을 LoRA를 사용하여 미세 조정했습니다. 본 연구는 훈련 과정 중 "음사 비율(transliteration ratio, 태깅된 엔티티 중 현지 스크립트로 렌더링된 비율)"을 변화시켜 **라벨링 일관성(labeling consistency)**이 미치는 영향을 구체적으로 조사했습니다.

주요 결과

평가 편향(Evaluation Bias): 엄격한 단일 라벨 매칭("원래 형태"만 인정)에서 다중 스크키트 인지 평가("둘 다" 인정)로 전환했을 때 모든 모델에서 에러율이 크게 감소했습니다. 예를 들어, Gemini 2.5 Pro의 경우 의학 용어를 다중 스크립트 유연성을 적용해 평가했을 때 WER이 28.28%에서 15.78%로 하락했습니다. 이는 기존의 지표들이 단일 참조와 철자가 다르더라도 음성적으로 정확한 출력을 체계적으로 처벌하고 있음을 확인시켜 줍니다.
모델 성능: 다중 스크립트 인지 설정에서 Gemini 2.5 Pro는 4.86%의 가장 낮은 문자 에러율(CER)을 달 기록했습니다. 오픈 소스 모델 중에서는 Whisper v3 Turbo가 가장 강력한 강건성(WER 23.00%)을 보여주었습니다.
미세 조정 효과: 모든 태깅된 엔티티를 현지 스크립트로 통일한 100% 음사 비율로 MultiClin 데이터셋을 사용하여 Whisper 모델을 미세 조정했을 때 상당한 개선이 있었습니다. Whisper-Large v3 Turbo는 최고 수준인 6.16%의 CER을 달성하였으며, 이는 사전 학습된 베이스라인 대비 3.83%p의 절대적 감소를 나타냅니다.
라벨링 일관성의 영향: 연구 결과, 음사 비율과 성능 사이에는 비단조적(non-monotonic) 관계가 있음이 밝혀졌습니다.
- 0% 비율 (혼합형/로마자 전용): 가장 높은 에러율(69.17% CER)을 보였습니다.
- 50% 비율: 이차적인 에러 정점(57.47% CER)이 나타났습니다. 저자들은 이를 철자 불확실성(orthographic uncertainty) 때문이라고 설명하며, 일관되지 않은 스크립트 매핑이 조건부 엔트로피 $H(Y|X)$ 를 극대화하여 모델이 안정적인 결정 경계를 형성하는 것을 방해한다고 분석했습니다.
- 100% 비율 (통합형): 지속적으로 가장 좋은 성능(7.66% CER)을 보였으며, 이는 스크립트 통합이 결정론적인 학습 신호를 제공한다는 점을 입증합니다.

의의 및 주장
본 논문은 MultiClin이 전통적인 지표가 놓치는 유효한 철자 변이를 고려함으로써, 비영어권 임상 ASR을 위한 더 공정하고 정보가 풍부한 평가 프레임워크를 제공한다고 주장합니다. 저자들은 다음을 강조합니다:

다중 스크립트 인지 평가는 엄격한 문자열 매칭에 의해 과소평가되기 쉬운 ASR 모델의 실제 능력을 드러냅니다.
스크립트 통합(Script unification) (일관된 철자로 훈련하는 것)은 임상 환경에서 철자 모호성을 완화하고 모델 수렴을 개선하는 데 필수적인 전략입니다.
본 데이터셋과 코드는 다중 스크립트 가변성 및 임상 ASR 강건성에 관한 후속 연구를 촉진하기 위해 공개됩니다.

결론적으로, 향러 연구에서는 이러한 ASR의 개선이 개체명 추출(entity extraction) 및 SOAP 노트 생성과 같은 다운스트림 임상 작업에 어떤 영향을 미치는지 조사해야 한다고 언급하며 마무리합니다.

1. 문제점: "정답은 하나"라는 함정

2. 해결책: "MultiClin" 벤치마크

3. 결과: 로봇이 훨씬 더 똑똑해 보이다

4. 학습 교훈: 한 우물만 파라!

요약

유사한 논문