원저자: Rez Samantha Z. Floresca, Edric Castel C. Hao, Hannah Grachiella Buñales, Chelsea Dominique E. Temprosa, Georgianna Z. Reyes, Kervin Gabriel L. Chua

게시일 2026-05-26✓ Author reviewed ⓘ

📖 4 분 읽기☕ 가벼운 읽기

CC BY 4.0

원저자: Rez Samantha Z. Floresca, Edric Castel C. Hao, Hannah Grachiella Buñales, Chelsea Dominique E. Temprosa, Georgianna Z. Reyes, Kervin Gabriel L. Chua

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

컴퓨터가 사람들이 말하는 방식을 듣고 치매의 초기 징후를 포착하도록 가르친다고 상상해 보세요. 컴퓨터는 기억력이 서서히 사라지기 시작할 때 흔히 발생하는 단어 반복, 막히기, 더 간단한 문장 사용과 같은 말의 특정 '징후'를 인식해야 합니다.

문제는 이러한 '스마트 컴퓨터'(AI 모델) 대부분이 영어로만 훈련되었다는 점입니다. 이들은 런던에서만 범죄를 해결해 온 전문 형사들과 같습니다. 필리핀에서 필리핀어와 영어가 섞인 말 (흔히 '타글리시'라고 함) 을 하는 사람들이 범죄 현장을 갑자기 보여주면, 런던 형사는 혼란을 겪고 사건을 해결하지 못합니다.

이 논문인 **"잊혀진 단어 (Forgotten Words)"**는 언어를 영어에서 필리핀어로 바꿨을 때 이러한 AI 형사들이 얼마나 잘 수행하는지에 대한 성적표입니다. 연구자들이 발견한 내용을 간단히 정리해 보면 다음과 같습니다.

1. "런던 형사"vs"마닐라 형사"

연구자들은 특별한 테스트 세트를 구축했습니다. 치매 환자 2,000 명과 건강한 사람들의 실제 영어 발화 기록을 가져와 수동으로 필리핀어로 번역했습니다. 로봇 번역기를 사용하지 않은 이유는 로봇이 어색한 발화를 '정리'하는 경향이 있기 때문입니다. 하지만 그 어색함 (중단과 반복) 이 바로 그들이 찾고 있는 단서입니다.

그런 다음 다섯 가지 유형의 AI 모델을 테스트했습니다.

오래된 방식: 단순 수학 기반 시스템 (TF-IDF).
표준: 고전적인 영어 훈련 모델 (BERT).
신기술: 현대화된 영어 전용 모델 (NeoBERT).
다국어 사용자: 100 개 언어로 훈련된 모델 (XLM-RoBERTa).
현지 전문가: 필리핀어 텍스트로 특별히 훈련된 모델 (RoBERTa-Tagalog).

2. 큰 놀라움: "한 언어, 한 뇌"

가장 중요한 발견은 영어로 질병을 아는 것이 필리핀어로 그것을 아는 데 도움이 되지 않는다는 점입니다.

실패: 표준 영어 모델을 영어 데이터로 훈련시킨 후 필리핀어로 테스트했을 때, 성능이 급격히 떨어졌습니다. 영어에서는 95% 정확도의 형사였으나 필리핀어에서는 45% 정확도의 형사가 되었습니다. 사실상 추측에 불과했습니다.
비대칭성: 흥미롭게도 필리핀어로 훈련된 모델이 영어를 이해하는 것이 그 반대보다 약간 더 쉬웠습니다. 필리핀어 대화에는 자연스럽게 영어 단어가 많이 섞여 들어가기 (코드 스위칭) 때문에, 필리핀어로 훈련된 모델이 우연히 영어 패턴을 일부 학습했기 때문일 것입니다. 하지만 순수 영어 모델은 필리핀어 문법을 어떻게 처리해야 할지 전혀 몰랐습니다.
"신기술" 함정: 그들은 영어 모델의 세련되고 현대화된 버전인 NeoBERT를 테스트했습니다. "더 새롭고 빠르면 더 좋을 거야, 그렇지?"라고 생각할 수 있습니다. 여기서는 그렇지 않습니다. NeoBERT 는 실제로 언어 전환에 더 나빴습니다. 영어에 너무 특화되어 경직되어 필리핀어에 전혀 적응하지 못했습니다. 프랑스 요리를 만드는 데 완벽해서 이탈리아 재료로 간단한 샌드위치를 만들어달라고 요청하면 전혀 만들지 못하는 요리사와 같습니다.

3. 해결책: "이중 언어 교실"

그렇다면 한 언어만 말하는 형사를 어떻게 고칠까요? 새로운 형사를 사들이는 것이 아니라, 현재 형사에게 두 언어를 모두 가르치는 것입니다.

연구자들은 **이중 언어 미세 조정 (Bilingual Fine-Tuning)**을 시도했습니다. 이는 AI 를 영어와 필리핀어 학생이 섞여 있는 교실에 넣어 동시에 학습하게 하는 것과 같습니다.

결과: 이는 마법의 총알이었습니다. 모델이 두 언어를 함께 훈련했을 때, 성능 격차는 사라졌습니다. 모델이 "오래된 방식" 유형이든, "신기술" NeoBERT 이든, "현지 전문가"이든, 모두 갑자기 두 언어에서 훌륭한 형사가 되어 약 97% 의 정확도를 기록했습니다.
교훈: 모델의 아키텍처가 얼마나 세련되었는지는 중요하지 않았습니다. 중요한 것은 훈련 중에 어떤 언어에 노출되었는지였습니다. 훈련 데이터에 두 언어가 모두 포함되어 있으면 모델은 언어에 관계없이 치매의 패턴을 인식하는 법을 배웠습니다. 한 언어만 보았다면 다른 언어에서는 길을 잃었습니다.

4. 이것이 중요한 이유 (논문에 따르면)

이 논문은 데이터가 부족한 환경 (저자원 설정) 과 언어가 섞여 있는 곳 (필리핀과 같은 곳) 에서는 더 크거나 복잡한 AI 모델이 필요하지 않다고 결론 내립니다.

모델이 다양한 언어의 혼합에서 학습하도록 하면 됩니다. "비밀 소스"는 더 나은 뇌가 아니라 영어와 필리핀어를 모두 포함하는 더 나은 어휘 목록입니다.

요약 비유

치매 감지를 특정 노래를 인식하는 것과 같다고 생각해 보세요.

영어 전용 모델은 영어로만 그 노래를 아는 사람들과 같습니다. 노래를 필리핀어로 틀면 멜로디를 인식하지 못합니다.
NeoBERT는 영어 노래를 완벽하게 알고 더 빠르게 부를 수 있는 사람과 같지만, 여전히 필리핀어 버전은 인식하지 못합니다.
이중 언어 훈련은 사람에게 두 언어로 노래를 동시에 듣도록 가르치는 것과 같습니다. 갑자기 그들은 "아, 같은 곡조야!"라고 깨닫고 어떤 언어로 불리든 인식할 수 있게 됩니다.

이 논문은 모두를 위해 작동하는 시스템을 구축하려면 AI 가 영어 화자뿐만 아니라 모두에게 귀를 기울이도록 가르쳐야 함을 증명합니다.

기술 요약: 잊혀진 단어 – 저자원 대화형 필리핀어 및 영어 음성에서 치매 감지를 위한 NeoBERT 벤치마킹

문제 제기

자발적 음성을 통한 치매 감지는 인지 선별을 위한 확장 가능한 접근법을 제공하지만, 현재 자연어 처리 (NLP) 시스템은 여전히 영어 중심적이다. 이 한계는 필리핀에서 특히 중요하며, 일상적인 대화가 필리핀어 - 영어 코드 전환 (Taglish) 을 빈번하게 포함하고 있으며, 이러한 맥락에서 NLP 기반 치매 감지에 대한 선행 연구가 전혀 존재하지 않기 때문이다. 기존 필리핀어 NLP 벤치마크는 뉴스, 소셜 미디어와 같은 작성된 텍스트에 초점을 맞추고 있으며, 자연스러운 음성, 임상적 담화, 또는 인지 진단 과제를 다루지 못한다. 또한, 트랜스포머 기반 인코더가 임상 NLP 를 지배하고 있지만, 치매 감지에 대한 적용은 대부분 사전 학습 데이터만 다른 아키텍처 변형에 의존해 왔으며, 저자원 교차 언어 임상 환경에서 아키텍처 현대화 (예: NeoBERT) 가 견고성을 향상시키는지 여부는 여전히 의문으로 남아 있다.

방법론

데이터셋 구축

저자들은 언어 효과를 도메인 효과와 분리하기 위해 DementiaBank에서 파생된 4,000 개의 대화 전사문을 기반으로 한 병렬 이중 언어 데이터셋을 구축했다.

출처: "쿠키 도둑" 그림 설명 과제에서 추출된 2,000 개의 영어 전사문 (치매 양성 1,000 건, 건강한 대조군 1,000 건).
필리핀어 번역: 영어 세트를 인간 번역가가 필리핀어로 수동 번역했다. 핵심적으로, 번역가들은 유창함을 위해 음성을 정규화하는 대신 인지 저하의 담화 수준 지표 (반복, 망설임, 잘못된 시작, 구문적 퇴화) 를 보존하도록 지시받았다. 진단 특징을 지워버릴 수 있는 기계 번역은 피했다.
전처리: 모든 전사문은 유니코드/공백 정규화와 소문자화를 거쳤다. 비유창성은 인지 장애의 확립된 상관관계이므로 유지했다. 진단 신호를 저하시키지 않기 위해 어간 추출이나 어간형성 (lemmatization) 은 적용하지 않았다. 시퀀스는 128 토큰으로 잘랐다.

모델 계열 및 베이스라인

세 가지 학습 regimes(영어만 (EN), 필리핀어만 (TL), 이중 언어 (EN+TL)) 에서 다섯 가지 모델 계열을 평가했다.

TF-IDF + 로지스틱 회귀: 표면적 토큰 통계를 평가하기 위한 어휘적 베이스라인.
BERT-base-uncased: 표준 영어 전용 사전 학습.
NeoBERT: 영어 (RefinedWeb) 전용으로 사전 학습된 현대화된 인코더 아키텍처 (회전 위치 임베딩, Pre-LayerNorm, SwiGLU 사용).
XLM-RoBERTa: 100 개 언어 다국어 모델.
RoBERTa-Tagalog: 대규모 필리핀어 코퍼스 (TLUnified) 로 사전 학습된 언어 일치 모델.

실험 프로토콜

학습: 모델은 [CLS] 토큰 대신 최종 은닉 상태에 대한 평균 풀링과 AdamW 최적화를 사용하여 미세 조정되었다. 작은 데이터셋에서 손실 발산을 방지하기 위해 하이퍼파라미터는 그리드 검색을 통해 선택되었다.
평가: 성능은 계층적 10 폴드 교차 검증을 통해 Macro-F1과 정확도로 측정되었다.
설정:
- 동일 도메인: 같은 언어로 학습하고 테스트.
- 제로샷 교차 언어: 한 언어로 학습하고 다른 언어로 테스트.
- 이중 언어: 결합된 코퍼스로 학습하고 홀드아웃 혼합 언어 폴드로 테스트.
지표: 교차 언어 일반화 격차 ( $\Delta F1$ ) 는 동일 도메인 및 교차 언어 F1 점수 간의 절대 차이로 정의되었다.

주요 결과

1. 단일 언어 학습에서의 교차 언어 실패

강력한 동일 도메인 성능은 언어 간에 전이되지 않았다.

영어 학습 BERT는 영어에서 동일 도메인 F1 0.952를 달성했으나 필리핀어에서는 0.455로 하락했다 ( $\Delta = 0.497$ ).
필리핀어 학습 BERT는 필리핀어에서 0.981을 달성했으나 영어에서는 0.705로 하락했다 ( $\Delta = 0.276$ ).
이러한 비대칭성은 사전 학습 노출로 인해 영어가 표현 공간에서 더 강력한 사전 확률로 남아 있으며, 필리핀어에 대한 미세 조정이 이 기하학을 완전히 덮어쓰지 못함을 시사한다.

2. 아키텍처 현대화가 견고성을 보장하지 않음

NeoBERT는 아키텍처적 발전에도 불구하고 교차 언어 견고성을 향상시키지 못했다.

영어 학습 NeoBERT 는 동일 도메인에서 BERT 와 유사하게 수행되었으나 (F1=0.952), 필리핀어에서는 높은 분산 ( $\sigma=0.109$ ) 으로 F1=0.617 로 크게 저하되었다.
이는 아키텍처 현대화만으로는 동일 도메인 충실도를 높이는 더 좁은 단일 언어 결정 경계를 생성하지만, 언어적 변이에 대한 허용도를 감소시킨다는 것을 나타낸다.

3. 사전 학습 범위의 역할

XLM-RoBERTa(다국어) 는 영어에서 필리핀어로의 전이 격차가 가장 작았다 ( $\Delta=0.013$ ), 공유된 표현 공간을 시사한다. 그러나 필리핀어에서 영어로의 전이는 약했다 ( $\Delta=0.161$ ), 이는 영어가 사전 학습 코퍼스를 지배하기 때문일 가능성이 높다.
RoBERTa-Tagalog(언어 일치) 는 놀랍게도 XLM-RoBERTa 와 거의 동일한 영어 - 필리핀어 전이 ( $\Delta=0.017$ ) 를 달성했다. 저자들은 대화형 필리핀어에 내재된 광범위한 영어 어휘 차용과 코드 전환으로 인해 필리핀어 사전 학습 모델이 내장된 영어 구조를 포착할 수 있었기 때문이라고 설명한다. 그러나 역방향에서는 더 큰 어려움을 겪었다 ( $\Delta=0.218$ ).

4. 이중 언어 미세 조정이 저하를 제거함

가장 중요한 발견은 이중 언어 미세 조정(동시에 두 언어로 학습) 이 모든 트랜스포머 모델에서 교차 언어 저하를 제거했다는 것이다.

모든 모델은 결합된 테스트 세트에서 Macro-F1 0.969–0.973으로 수렴했다.
교차 언어 격차는 NeoBERT 를 포함한 모든 아키텍처에서 0.027–0.037로 축소되었다.
이는 주요 병목 현상이 아키텍처 용량이 아니라 표현 정렬임을 시사한다. 이중 언어 감독은 모델이 두 언어 모두에 대해 임베딩 공간에서 호환 가능한 영역을 학습하도록 강제한다.

5. 임상 민감도

언어 전환 하에서 집계 정확도는 실패 모드를 가릴 수 있다.

영어 학습 BERT 는 필리핀어에서 치매 재현율 (0.931) 을 높게 유지했으나 건강한 클래스에서는 무너져 (F1=0.216), 대부분의 필리핀어 샘플을 치매 양성으로 예측했다.
이중 언어 학습은 이러한 불안정성을 해결하여 모든 트랜스포머 모델이 낮은 분산으로 치매 재현율 >0.93 을 달성하도록 했다.

중요성과 주장

본 논문은 필리핀어 음성에서 트랜스포머 기반 치매 감지에 대한 첫 번째 체계적 평가와 임상 NLP 환경에서 NeoBERT 에 대한 첫 번째 평가를 제공한다고 주장한다.

핵심 결론은 다국어 임상 NLP 성능은 모델 규모나 아키텍처보다 학습 중 언어적 범위에 의해 주로 결정된다는 것이다.

아키텍처 현대화(예: NeoBERT) 만으로는 일관된 교차 언어 이득을 낳지 않으며, 언어 전환에 대한 민감도를 높일 수 있다.
이중 언어 감독은 언어 간에 안정적이고 임상적으로 일관된 성능을 달성하기 위한 가장 효과적인 전략이며, 교차 언어 일반화 격차를 효과적으로 제거한다.
이 연구는 필리핀과 같은 저자원 코드 전환 환경에서는 아키텍처 수정보다 작업 학습 중 적절한 언어적 범위를 확보하는 것이 더 중요함을 강조한다.

저자가 인정한 한계

데이터 출처: 필리핀어 데이터셋은 유기적으로 수집된 현지 환자 음성이 아니라 영어 전사문의 수동 번역을 통해 구축되었다. 구조적 비유창성은 보존되었지만, 의미 내용은 원래 영어 출처를 반영한다.
모달리티: 이 연구는 음향 특징 (피치, 정지 지속 시간) 을 배제한 텍스트에만 집중했으며, 이 또한 진단 지표이다.
해석 가능성: 다국어 맥락에서 모델 결정을 주도하는 메커니즘은 여전히 불투명하며, 임상적 신뢰를 위한 해석 가능성에 대한 향후 작업이 필요하다.

Forgotten Words: Benchmarking NeoBERT for Dementia Detection in Low-Resource Conversational Filipino and English Speech