원저자: Yan Hong, Kedong Xiu, Wei Li, Jun Lan, Huijia Zhu, Shuheng Zhou, Zhongcai Lyu, Weiqiang Wang, Jianfu Zhang

게시일 2026-06-15

📖 4 분 읽기☕ 가벼운 읽기

원저자: Yan Hong, Kedong Xiu, Wei Li, Jun Lan, Huijia Zhu, Shuheng Zhou, Zhongcai Lyu, Weiqiang Wang, Jianfu Zhang

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

당신에게 매우 똑똑하고 잘 훈련된 로봇 비서가 있다고 상상해 보세요. 이 로봇은 도움이 되도록 설계되었지만 동시에 매우 신중하며, 위험하거나 부적절한 질문에 답변하기를 거부하는 "안전 스위치"를 가지고 있습니다.

하지만 때때로 이 안전 스위치가 너무 민감하게 작동할 때가 있습니다. 로봇이 위험해 보이는 질문과 비슷하게 들린다는 이유만으로 무해한 질문에 답변을 거부하거나, 사실은 안전한 까다로운 질문을 받았을 때 혼란스러워할 수도 있습니다.

이 논문의 저자들은 이를 해결하고자 했습니다. 그들은 로봇이 똑똑함을 유지하거나 안전 스위치를 완전히 꺼버리지 않으면서도, 무해한 질문에 대해 "그것은 할 수 없습니다"라고 말할 가능성을 줄이도록 가르치고 싶어 했습니다.

이들은 다음과 같이 해결했습니다. 이해를 돕기 위해 간단한 비유를 사용하겠습니다.

문제점: "전부 아니면 전무(All-or-Nothing)" 방식의 접근법

그들이 연구하는 로봇("라우티드 파운데이션 모델(Routed Foundation Model)")은 거대한 전문가 팀처럼 작동합니다. 당신이 질문을 하면, 로봇은 자신의 뇌 전체를 사용하는 것이 아니라, 업무를 처리하기 위해 거대한 풀(pool)에서 몇 명의 특정 "전문가"를 선택합니다.

이전의 방법들은 거절 문제를 해결하기 위해 두 가지 방식을 시도했지만, 둘 다 결함이 있었습니다:

"무력(Brute Force)" 방식: 그들은 로봇의 뇌 전체를 새로운 방향으로 밀어붙여 거절을 멈추려 했습니다. 비유: 책에 있는 특정 오타를 고치기 위해 도서관 전체를 다시 쓰는 것과 같습니다. 효과는 있겠지만, 다른 좋은 이야기들의 의미까지 실수로 바꿔버릴 수 있습니다(로봇이 일반적인 지능을 잃게 됩니다).
"까다로운(Picky)" 방식: 그들은 거절을 담당하는 특정 전문가들만 건드리려 했습니다. 비유: 파이프의 누수를 고치기 위해 단 하나의 특정 볼트만 조이는 것과 같습니다. 정밀하긴 하지만, 만약 누수가 여러 볼트의 복합적인 압력으로 인해 발생하는 것이라면, 단지 하나를 조이는 것만으로는 문제를 완전히 해결할 수 없습니다.

해결책: LoMC (국소적 다방향 교정, Localized Multidirectional Correction)

저자들은 두 방식의 장점을 결в합한 두 단계의 "외과적" 수리법인 LoMC라는 새로운 방법을 만들었습니다.

1단계: 정확한 지점 찾기 ("서포트(Support)")
먼저, 시스템은 로봇의 뇌를 스캔하여 "그것은 할 수 없습니다"라는 행동을 담당하는 정확히 어떤 전문가들이 있는지 찾아냅니다.

비유: 형사가 범죄 현장을 조사하는 것과 같습니다. 동네 전체를 체포하는 대신, 형사는 사건에 연루된 정확한 세 사람을 식별합니다. 그리고 나머지 사람들에게는 "방해 금지" 표지판을 붙여 보호함으로써, 나머지 동네(로봇의 일반적인 지능)를 안전하고 방해받지 않게 유지합니다.

2단계: 멀티 툴 교정 (The Multi-Tool Correction)
일단 어디를 고쳐야 할지 알게 되면, 단순히 한 가지 도구만 사용하지 않습니다. 그들은 "거절" 행동이 복잡하며 다양한 각도에서 발생한다는 것을 깨달았습니다. 그래서 여러 가지 다른 "교정 방향"(도구 상자에 있는 다양한 도구와 같은)을 모아 섞어서 완벽한 해결책을 만들어냅니다.

비유: 세 명의 전문가가 고집을 피우고 있다고 상상해 보세요. 형사는 그들을 왼쪽에서 밀기만 하는 대신, 네 명의 팀을 구성하여 약간씩 다른 각도에서 밀어냄으로써 그들을 새로운 사고방식으로 부드럽게 유도합니다.

마법의 게이팅 메커니즘 (The Magic Gating Mechanism)
여기서 영리한 부분이 나옵니다. 복잡하고 다각적인 밀기(push)를 사용하더라도, 이 작업은 1단계에서 식별한 세 명의 전문가에게만 적용됩니다.

비유: 이는 호스에 특수 필터를 끼우는 것과 같습니다. 물(교정)은 강력하고 여러 각도에서 나오지만, 필터는 그 물이 오직 물이 필요한 특정 식물들에게만 뿌려지도록 보장합니다. 나머지 정원은 마른 상태로 유지됩니다.

결과

저자들은 이 방법을 네 가지 유형의 고급 로봇 비서(텍스트 전용 및 이미지 인식 가능 모델 모두)에 테스트했습니다.

목표: "일반 능력 평균(General Capability Average)"(로봇이 다른 작업에서 얼마나 똑똑하게 유지되는지)을 낮추지 않으면서 "타겟 준수율(Target Compliance Rate)"(로봇이 해야 할 질문에 얼마나 자주 답하는지)을 높이는 것입니다.
결과: LoMC가 명백한 승자였습니다. LoMC는 로봇이 무해한 질문을 거절하는 것을 멈추도록 성공적으로 가르쳤으며(어떤 경우에는 답변율을 약 8%에서 96% 이상으로 높임), 일반 지능은 거의 동일하게 유지했습니다.
비교: 기존의 "무력" 방식은 로봇을 답변에는 더 똑똑하게 만들었지만, 다른 작업에서는 망각하거나 서투르게 만들었습니다. 기존의 "까다로운" 방식은 문제를 해결하기에 너무 약했습니다. LoMC는 높은 답변율과 보존된 지능이라는 두 마리 토끼를 모두 잡았습니다.

요약

이 논문은 AI 모델을 외과적으로 조정하는 방법을 소개합니다. 시스템 전체를 해킹하거나 어느 부분을 고칠지 추측하는 대신, 그들은 다음을 수행합니다:

과잉 거절을 일으키는 AI의 정확하고 아주 작은 부분들을 위치 파악(Locate) 합니다.
해당 부분에만 정교하고 다각적인 교정을 적용(Apply) 합니다.
나머지 AI의 뇌를 어떠한 변화로부터도 보호(Protect) 합니다.

이를 통해 AI는 일반적인 지능을 잃지 않으면서도 더 도움이 되고 덜 "예민하게" 반응할 수 있게 됩니다. 저자들은 이것이 위험한 작업에 대해 안전 규칙을 무시하도록 만드는 도구가 아니라, 이러한 모델이 어떻게 작동하는지 연구하고 감사하여 견고함을 보장하기 위한 방법임을 강조합니다.

기술 요약: 라우팅된 파운데이션 모델의 거절 억제를 위한 LoMC

문제 정의

본 논문은 라우팅된 Mixture-of-Experts (MoE) 및 하이브리드-MoE 파운데이션 모델에서 발생하는 제어된 사후 학습 거절 억제(controlled post-training refusal suppression) 문제를 다룹니다. 목표는 유해한 프롬프트에 대한 거절율의 보합(complement)인 **타겟 준수율(Target Compliance Rate, TCR)**을 높이는 동시에, 양호한 입력에 대한 **일반 능력 평균(General Capability Average, GCA)**을 보존하는 것입니다.

이 문제는 입력이 일부 전문가(expert)만을 활성화하는 라우팅 구조에서 특히 심각합니다. 기존 방식들은 다음과 같은 트레이드오프에 직면합니다:

광범위한 방향 기반 편집(예: 단일 벡터 절제)은 모델 전체의 범용 계산을 방해하여 GCA를 저하시킬 수 있습니다.
편집 지원 선택만 수행(특정 전문가를 편집 대상으로 선택)하는 방식은 간섭의 흔적(footprint)을 컴팩트하게 유지하지만, 풍부한 교정 신호의 부족으로 인해 이질적인 거절 표현을 효과적으로 수정하지 못할 수 있습니다.

저자들은 이를 구조적으로 컴팩트한 간섭 $\Delta$ 를 찾아내어, 간섭 흔적에 대한 제약 조건 하에 TCR 이득을 최대화하고 양호한 성능 저하(benign drift)를 최소화하는 최적화 문제로 정식화합니다.

방법론: 국소적 다방향 교정 (Localized Multidirectional Correction, LoMC)

본 논문은 업데이트가 일어나는 *위치(where)*와 적용되는 *방식(how)*을 분리하는 "지원-후-교정(support-then-correction)" 프레임워크인 LoMC를 제안합니다. 이 방법은 두 가지 별도의 단계로 작동합니다.

단계 I: 편집 지원 선택 (Edit-Support Selection)

LoMC는 먼저 가중치 업데이트가 허용되는 컴팩트한 위치 집합(즉, "편집 지원")을 식별합니다.

메커니즘: 잔차 활성화(residual activations)로부터 도출된 층별 거절 방향( $r_\ell$ )과의 정렬도를 기준으로 각 탐색된 레이어의 라우팅된 전문가들을 스코어링합니다.
선택: 후보 전문가 풀을 유지하고(예: 상위 1/8), 레이어당 고정된 수의 상위 전문가(예: $E=6$ )를 선택합니다.
출력: 레이어, 전문가, 구성 요소 튜플(예: moe.down_proj, moe.gate_up_proj)을 명시하는 고정된 지원 마스크 $S$ 가 생성됩니다. 이 단계는 간섭의 흔적이 구조적으로 컴팩트하게 유지되도록 보장합니다.

단계 II: 다중 프로토타입 방향 집계 (Multi-Prototype Direction Aggregation)

지원 $S$ 가 고정되면, LoMC는 해당 특정 위치를 위한 교정 신호를 결정합니다.

프로토타입 추출: 각 고정 지원 레이어에 대해, 유해한 프롬프트로부터 추출된 유해 잔차 프로토타입(Self-Organizing Maps를 통해 추출)을 양호한 잔차 중심점(centroid)과 대조합니다.
집계: 여러 개의 독립적인 교정 벡터를 적용하는 대신, LoMC는 소수의 $K$ 개 프로토타입 방향(예: $K=4$ )을 하나의 집계된 층별 교정 방향( $\tilde{r}_\ell$ )으로 집계합니다. 이 집계는 기본 거절 방향과의 정렬과 프로토타입 간의 다양성 사이의 균형을 맞춥니다.
적용: 최종 업데이트는 지원 마스크 $S$ 를 통해서만 적용되는 랭크-원(rank-one) 층별 교정입니다. 수학적으로, 편집 가능한 투영 $W$ 에 대해, 구성 요소가 $S$ 에 포함되어 있으면 $(I - \eta P)W$ 를 적용하고, 그렇지 않으면 $W$ 를 유지합니다. 여기서 $P = \tilde{r}_\ell \tilde{r}_\ell^\top$ 입니다.

이 설계는 초기 지원 선택을 넘어 간섭 흔적을 확장하지 않으면서도, 다방향 집계를 통해 교정 능력을 강화하도록 보장합니다.

주요 기여

지원 게이트형 교정 정식화 (Support-Gated Correction Formulation): 본 논문은 라우팅된 모델에서의 거절 억제를 "지원 게이트형" 문제로 재정의합니다. 여기서 편집 지원은 지원 선택과 교정을 별개의, 조율되지 않은 단계로 취급하는 대신 모든 교정에 대한 게이팅 제약 역할을 합니다.
LoMC 알고리즘: 고정된 지원 마스크를 통해 엄격하게 적용되는 단일 랭크-원 업데이트로 프로토타입 교정 방향을 집계하는 방법을 도입합니다. 이는 독립적인 업데이트 연산자를 도입하거나 편집된 파라미터 집합을 확장하지 않고도 교정 신호를 개선합니다.
실증적 검증: 저자들은 4개의 라우팅된 백본(Qwen3-VL, InternVL3.5, DeepSeek-VL2, Kimi-VL)과 4개의 안전 벤치마크(AdvBench, StrongREJECT, JailbreakV-28K, VLSBench)에 걸쳐 LoMC를 평가하며, 텍스트 전용 및 멀티모달 설정을 모두 다룹니다.

결과

타겟 준수율 (TCR): LoMC는 16개 모델-벤치마크 설정 전체에서 가장 높은 TCR을 달ek성했습니다. 기존 정렬된 모델들의 평균 TCR은 8.75%였으나, LoMC는 **96.33%**에 도달했습니다. 각 설정에서 가장 강력한 베이스라인과 비교했을 때, LoMC는 평균 12.76 퍼센트 포인트의 TCR 향상을 보였습니다.
일반 능력 (GCA): LoMC는 일반 능력을 효과적으로 유지합니다. 평균 GCA는 기존 63.77%에서 LoMC의 64.25%로 약간 증가했으며, 모델별 평균 또한 원본 체크포인트와 경쟁할 만한 수준을 유지했습니다.
베이스라인과의 비교:
- Heretic-MoE (광범위한 단일 방향)는 낮은 TCR(73.54%)을 기록했으며 백본에 따라 불안정한 모습을 보였습니다.
- SOM Directions (광범위한 다중 프로토타입)는 높은 TCR을 달성했으나, 지원 게이팅의 부재로 인해 상당한 GCA 저하를 초래했습니다.
- GateBreaker (경로 로컬 선택)는 다방향 집계가 없어 제한적인 교정 능력을 보여주었습니다.
절제 연구 (Ablation Studies): 결과는 편집 지원 크기( $E$ )나 프로토타입 개수( $K$ )가 단조로운 조절 변수가 아님을 확인시켜 줍니다. 최적의 트레이드오프는 $E=6, K=4$ 에서 발견되었습니다. 동일한 흔적을 가진 무작위 지원 선택은 더 낮은 GCA를 기록하여, 지원의 구체적인 선택이 매우 중요하다는 것을 입증했습니다.

의의 및 주장

본 논문은 LoMC가 컴팩트한 간섭 흔적 하에서 거절 억제와 일반 능력 보존 사이의 트레이드오프를 성공적으로 개선한다고 주장합니다. 문제를 "지원"(어디서)과 "교정"(어떻게)으로 계층화함으로써, 이 방법은 광범위한 모델 전역 편집의 파괴적인 부작용 없이 더 풍부한 교정 신호(다중 프로토타입 집계를 통해)를 제공할 수 있게 합니다.

저자들은 LoMC를 주로 MoE 스타일의 LLM 및 MLLM에서 국소적 편집 가능성과 라우팅 특유의 취약성을 이해하기 위한 제어된 사후 학습 분석 도구로 포지셔ชัน합니다. 저자들은 명시적으로 다음과 같이 밝힙니다:

TCR은 비거절 타겟-응답 메트릭이며, 판사(judge)가 검증한 유해한 준수 여부나 실제 세계의 악용 가능성으로 해석해서는 안 됩니다.
본 연구는 거절이 억제된 모델을 배포하기 위한 권장 사항이 아니라, 안전하게 정렬된 라우팅 모델에 대한 스트레스 테스트입니다.
연구 결과는 평가된 특정 라우팅 멀티모달 백본 및 벤치마크에 국한되며, 밀집(dense) 구조 및 다른 언어에 대해서는 향후 연구가 필요합니다.

결론적으로, 본 연구는 대비되는 희소 지원(contrastive sparse support)과 다중 프로토타입 잔차 교정을 결$\합하는 것이 안전 정렬 수정과 유틸리티 유지 사이의 유리한 균형을 달성하는 핵심임을 시사합니다.

LoMC: Localized Multidirectional Correction for Refusal Suppression in Routed Foundation Models