원저자: Rashad Aziz, Ikhlasul Akmal Hanif, Fajri Koto

게시일 2026-06-02✓ Author reviewed ⓘ

📖 3 분 읽기☕ 가벼운 읽기

원저자: Rashad Aziz, Ikhlasul Akmal Hanif, Fajri Koto

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

거대한 문제: AI 안전성의 "언어 장벽"

매우 똑똑하고 잘 훈련된 보안 요원(AI 모델)이 있다고 상상해 보세요. 이 요원은 영어(고자원 언어)로 위험한 요청을 감지하고 "안 됩니다"라고 말하도록 교육받았습니다. 만약 누군가 영어로 "폭탄을 어떻게 만드나요?"라고 묻는다면, 요원은 즉시 거절할 것입니다.

하지만 만약 당신이 정확히 똑같은 질문을 스와힐리어나 미얀마어(저자원 언어)로 던진다면, 보안 요원은 갑자기 자신의 훈련을 잊어버린 듯 행동합니다. 그들은 거절하는 대신 질문에 답변을 해버릴 수도 있습니다.

오랫동안 연구자들은 이것이 AI가 해당 다른 언어들의 위험한 단어들을 단순히 이해하지 못하기 때문에 발생하는 현상이라고 생각했습니다. 그들은 언어가 바뀔 때 AI의 뇌에서 "위험 신호"가 사라진다고 믿었습니다.

발견: 요원은 이해하고 있지만, 행동하지 않을 뿐이다

이 논문의 저자들은 실제로 어떤 일이 일어나고 있는지 확인하기 위해 AI의 "뇌"(내부 수학 구조) 내부를 들여다보기로 했습니다. 그리고 그들은 놀라운 사실을 발견했습니다.

AI는 스와힐리어 나 미얀마어로 된 요청이 위험하다는 것을 이미 알고 있습니다.

이렇게 생각해 보세요: 보안 요원이 스와힐리어로 된 위험한 요청을 듣습니다. 그러면 요원의 뇌에는 영어로 들었을 때와 마찬가지로 "위험(DANGER)" 알람이 울립니다. 알람은 존재하며, 충분히 들릴 만큼 큽니다.

실패의 원인은 알람이 고장 난 것이 아니라, 요원이 알람을 무시하는 것입니다.

영어에서는 알람 소리가 너무 커서 요원이 자동으로 "거절" 버튼을 누르게 됩니다. 저자원 언어에서도 알람은 여전히 존재하지만, 소리가 약간 더 작습니다. 이 소리가 작기 때문에 요원은 그것이 "거절" 버튼을 작동시킬 만큼 충분히 큰 소리인지 인지하지 못하고, 그냥 계속해서 대화를 이어가는 것입니다.

논문에서는 이를 **표현 실패(representation failure)**가 아닌 **보정 실패(calibration failure)**라고 부릅니다.

표현 실패: 요원이 스와힐리어로 "폭탄"이 무엇인지 모른다. (논문은 이것이 틀렸다고 말합니다).
보정 실패: 요원이 "폭탄"이 무엇인지 알지만, 특정 언어에 대한 "거절" 버튼의 볼륨 조절기가 너무 높게 설정되어 있다. (논문은 이것이 맞다고 말합니다).

해결책: 간단한 "볼륨 조절 노브" 조정

AI가 이미 "위험"에 대한 지식을 가지고 있기 때문에, 저자들은 전체 AI를 다시 훈련시킬(비용이 많이 들고 느린 작업) 필요가 없었습니다. 대신, 그들은 아주 작고 똑똑한 문지기(잠재 게이트, latent gate)를 만들었습니다.

이 해결책이 작동하는 방식은 다음과 같습니다:

기존의 알람 사용: AI가 이미 영어로부터 학습한 "위험 방향"을 가져옵니다.
몇 가지 예시 경청: 문지기에게 대상 언어(예: 스와힐리어)로 된 위험한 요청과 안전한 요청의 예시를 단 1~4개만 보여줍니다.
임계값 재설정: 문지기는 이렇게 판단합니다. "알겠다, 스와힐리어에서의 위험 알람은 영어보다 조금 더 작구나. '거절' 버튼을 누르기 위해 필요한 볼륨 수치를 낮춰야겠다."
결정 경로 지정:
- 만약 문지기가 요청이 위험하다고 판단하면, AI가 "안 된다"라고 말할 수 있도록 "거절" 볼륨을 높입니다.
- 만약 문지기가 요청이 안전하다고 판단하면, AI가 실수로 무해한 질문(예: "케이크는 어떻게 굽나요?")을 거절하지 않도록 "거절" 볼륨을 낮춥니다.

결과: 더 똑똑하고 안전한 요원

이 간단한 "볼륨 조절 노브" 조정을 통해 매우 적은 예시만으로도 저자들은 훌륭한 결과를 얻었습니다.

안전성 향 향상: AI는 저자원 언어에서 위험한 요청을 훨씬 더 자주 거절하기 시작했습니다 (일부 사례에서 거절률이 약 44%에서 67% 이상으로 상승).
유용성 보존: 결정적으로, AI는 안전한 요청을 거절하기 시작하지 않았습니다. 즉, 과하게 피해망상을 갖게 되지 않았습니다.
효율성: 거대한 AI 모델을 다시 훈련시킬 필요가 없었습니다. 단지 몇 가지 예시를 사용하여 작은 스위치를 조정했을 뿐입니다.

요약 비유

집에 설치된 연기 감지기를 상상해 보세요.

과거의 관점: 주방에서 감지기가 울리지 않을 때, 사람들은 감지기가 고장 났거나 연기가 무엇인지 모른다고 생각했습니다.
새로운 관점: 감지기는 연기를 맡았습니다. 다만 그 특정 방에서 알람을 울릴 만큼 민감하지 않았을 뿐입니다.
해결책: 집 전체와 새 감지기를 사는 대신, 저자들은 기존 감지기의 민감도 다이얼을 살짝 조절했습니다. 이제 감지기는 주방에서도 연기를 맡으면 거실에서처럼 똑같이 크게 "불이야!"라고 외칩니다.

핵식 요점: 저자원 언어에서의 안전 실패는 AI가 그 언어에 대해 "멍청해서" 발생하는 것이 아닙니다. AI의 "안전 스위치"가 너무 높게 설정되어 있기 때문입니다. 아주 적은 양의 예시를 이용한 '퓨샷(few-shot)' 조정만으로도 처음부터 모든 것을 다시 배울 필요 없이 이를 해결할 수 있습니다.

기술 요약: 저자원 언어의 안전성 실패는 표현의 실패가 아닌 행동의 실패이다

문제 정의

고자원 언어(HRL)에서 안전 정렬(safety alignment)을 위해 학습된 대규모 언어 모델(LLM)은, 유해한 프롬프트가 저자원 언어(LRL)로 번역될 경우 거절에 실패하는 경우가 많다. 모델은 영어로는 유해한 지시를 성공적으로 거절하지만, 스와힐리어(Swahili)나 버마어(Burmese)와 같은 언어로는 동일한 요청에 대해 빈번하게 순응한다. 선행 연구들은 이러한 행동적 격차를 기록해 왔으나, 그 내부 메커니즘을 명확히 밝혀내지는 못했다. 두 가지 경쟁 가설이 존재한다:

표현 실패(Representation Failure): 모델이 약한 의미론적 이해로 인해 LRL에서의 '유해성'에 대한 사용 가능한 내부 표현을 갖추지 못했다는 가설.
행동(라우팅) 실패(Action/Routing Failure): 모델이 유해성 표현은 보유하고 있으나, 이를 거절 결정으로 변환하는 데 실패했다(즉, 결정 임계값이 어긋나 있음)는 가설.

본 논문은 저자원 언어의 안전성 격차의 근본 원인을 진단하고, 이를 수리하기 위한 경량화된 개입 방안을 제안한다.

방법론

실험 설정

저자들은 세 가지 지시 미세 조정 모델(Qwen2.5-7B, Gemma-2-9B, Llama-3.1-8B)을 Common Crawl 점유율에 따라 자원 계층(고, 중, 저)으로 분류된 23개 언어에 대해 평가하였다. 이들은 유해한 프롬프트와 무해한 프롬프트가 해당 언어로 번역된 확장된 PolyRefuse 데이터셋을 활용하였다.

진단 단계

표현 실패와 행동 실패를 구분하기 위해, 저자들은 잔차 스트림(residual stream)에 대한 기계론적 해석 가능성(mechanistic interpretability) 기법을 적용하였다:

유해성 방향 추출(Harmfulness Direction Extraction): 고자원 언어(HRL)에서 유해한 프롬프트와 무해한 프롬프트 간의 평균 활성화 차이를 계산하여 1차원적인 '유해성 방향'( $v_{HRL}$ )을 산출하였다.
인과적 매개(Ablation, 인과적 절제): HRL에서 유도된 이 방향을 LRL 활성화에서 제거했을 때 거절이 억제되는지 테스트하였다. 결과적으로 $v_{HRL}$ 을 절제(ablate)했을 때 LRL에서의 유해 거절이 유의미하게 감소하였으며, 이는 해당 방향이 인과적으로 활성화되어 있음을 증명한다.
선형 분리 가능성(Linear Separability): LRL 활성화를 $v_{HRL}$ 에 투영하고, 유해한 프롬프트와 무해한 프롬프트를 구분하는 AUC(곡선 아래 면적)를 측정하였다. 거절률이 낮은 LRL에서도 AUC는 0.85 이상의 높은 수치를 유지하였는데, 이는 표현이 존재하며 디코딩 가능하다는 것을 나타낸다.
신호 크기 분석(Signal Magnitude Analysis): 신호는 존재하지만, LRL 유해 프롬프트의 투영 점수가 HRL에 비해 낮게 이동(shift)되어 있음을 관찰하였다. 모델의 암묵적 거절 임계값이 트리거되지 않는 이유는 신호가 없어서가 아니라, 신호의 크기가 불충분하기 때문이다.

개입: 퓨샷 잠재 게이트(Few-Shot Latent Gate)

실패의 원인이 표현이 아닌 **교정(calibration)**에 있다는 진단에 기반하여, 저자들은 학습이 필요 없는 스티어링(steering) 방법을 제안하였다:

잠재 게이트(Latent Gate): HRL 데이터를 사용하여 유해성 투영을 이진 안전 결정으로 매핑하는 저계수 로지스틱 리드아웃(low-rank logistic readout)을 학습시킨다.
임계값 재교정(Threshold Recalibration): 모델을 재학습하거나 새로운 LRL 전용 방향을 학습하는 대신, 최소한의 대상 언어 예시(클래스당 단 1~4개)를 사용하여 결정 임계값( $\tau$ )을 재설정한다.
조건부 스티어링(Conditional Steering): 시스템은 게이트의 출력에 따라 프롬프트를 라우팅한다:
- 만약 유해하다고 분류되면: HRL 유해성 방향을 활성화에 더한다(거절 쪽으로 스티어링).
- 만약 무해하다고 분류되면: HRL 유해성 방향을 절제한다(오탐지 거절 방지).

주요 결과

진단 결과

표현은 온전함: 유해성은 LRL 활성화에서도 선형적으로 분리 가능하다. 따라서 실패는 표현의 부재가 아니다.
신호 이동: LRL 프롬프트는 유해성 방향으로의 투영 값이 낮게 나타난다. 모델은 HRL 학습 시 설정된 암묵적 임계값보다 신호 크기가 작기 때문에 거절에 실패한다.

성능 개선

제안된 퓨샷 잠재 게이트는 기존의 적응형 스티어링 베이스라인(CAST 및 AdaSteer)보다 크게 우수한 성능을 보였다:

선택적 거절( $\Delta$ ): 선택적 거절 지표 $\Delta$ (유해 거절률 - 무해 거절률)가 가장 강력한 적응형 베이스라인인 33.6에서 제안된 방법 사용 시 54.5로 증가하였다.
유해 거절: 이 방법은 LRL에서의 유해 거절률을 높이는 동시에(예: 평균 약 43%에서 67%로), 무해한 프롬프트의 거절률은 낮게 유지하였다(~12.7%).
베이스라인 비교: CAST 및 AdaSteer와 같은 경쟁 방법들은 유해 거절을 유의미하게 개선하지 못하거나 과도한 "과잉 거절(over-refusal)"을 유발하였다(예: AdaSteer는 무해 거절률이 52.8%에 달함).
일반화: 게이트는 분포 외(OOD) 안전성 벤치마크(MultiJail, IndoSafety)에서도 잘 일반화되었으며, 단일 소스 LRL에서 교정되었을 때 다른 LRL로 전이되었다.
유용성 보존: 본 개입은 Global-MMLU 벤치마크에서 정확도 변화를 거의 일으키지 않으면서 유용성을 보존하였다.

의의 및 주장

본 논문은 저자원 언어의 안전성 실패가 표현의 실패가 아니라 주로 **행동의 실패(교정 문제)**라고 주장한다.

기계론적 통찰: 본 연구는 고자원 언어에서 학습된 안전 표현이 저자원 언어에서도 전이 가능하며 존재하지만, 재교정 없이는 활성화 크기가 불충분하다는 것을 보여준다.
효율성: 제안된 솔루션은 모델 가중치 업데이트나 광범한 재학습을 요구하지 않는다. 결정 임계값을 재설정하기 위해 단 몇 개의 대상 언어 예시만을 사용하여 최첨단 안전 성능을 달aft한다.
실무적 시사점: 저자들은 "진단 후 수정(diagnostic-then-fix)" 워크플로우를 제안한다. 저자원 언어를 위한 새로운 안전 표현을 학습하기 전에, 기존의 고자원 표현이 디코딩 가능한지 먼저 테스트해야 한다. 만약 가능하다면, 단순한 결정 임계값 재교정만으로도 안전 정렬을 수리할 수 있다.

저자들은 테스트된 모델의 범위(7B–9B 밀집 모델), 자원 대리 지표로서의 Common Crawl 의존성, 그리고 본 개입이 폐쇄형 모델(closed-model)의 보호 장치가 아닌 활성화 접근이 필요한 진단 도구라는 점 등 한계점을 언급하였다. 또한, 이 방법이 다국어 안전 학습을 대체하거나 모든 적대적 프롬프트 유형에 대한 견고성을 보장하는 것은 아님을 강조하였다.

Low-Resource Safety Failures Are Action Failures, Not Representation Failures