No More, No Less: Least-Privilege Language Models

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"최소 권한 원칙 (Least Privilege)"**이라는 컴퓨터 보안 개념을 인공지능 (AI) 언어 모델에 적용하려는 획기적인 아이디어를 제시합니다.

기존의 AI 는 모든 사용자에게 **똑같은 '만능 열쇠'**를 쥐어줍니다. 하지만 이 논문은 **"사용자의 요청에 따라 AI 가 사용할 수 있는 지식과 능력의 범위를 실시간으로 조절하자"**고 주장합니다.

이 복잡한 개념을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 문제: "모든 열쇠를 가진 경비원"

지금까지 우리가 사용하는 AI 는 마치 모든 방의 열쇠를 한 자루에 달고 다니는 경비원과 같습니다.

상황: 당신이 "오늘 날씨 어때?"라고 물으면, 이 경비원은 창문 열쇠, 금고 열쇠, 심지어 위험한 화학 실험실 열쇠까지 모두 들고 있습니다.
위험: 경비원이 실수하거나 악의적인 사람이 "화학 실험실 열쇠로 문을 열어줘"라고 속여 말하면, 경비원은 그 열쇠를 꺼내 문을 열어줍니다.
현실: AI 는 위험한 정보 (예: 생물무기 제조법) 를 알고 있으면서도, "안 돼요, 저는 그런 거 알려드릴 수 없어요"라고 거절하는 표면적인 차단만 할 뿐입니다. 실제로는 그 지식이 AI 뇌 속에 여전히 살아있고, 조금만 꼬아서 물어보면 다시 꺼낼 수 있습니다.

2. 해결책: "상황에 맞는 열쇠만 주는 시스템"

이 논문이 제안하는 **'최소 권한 언어 모델 (Least-Privilege Language Models)'**은 다음과 같이 작동합니다.

비유: "요청에 따라 열쇠를 교체하는 스마트 경비실"

이 시스템은 AI 가 답변을 생성하는 중간 과정에서 "지금 이 질문에는 어떤 열쇠가 필요한가?"를 판단합니다.

일반적인 질문 (날씨): 경비원은 창문 열쇠만 꺼냅니다. 금고나 실험실 열쇠는 아예 보이지도, 만지지도 못합니다.
복잡한 질문 (수학 문제): 경비원은 계산실 열쇠를 추가로 꺼냅니다.
위험한 질문 (화학 무기): 경비원은 실험실 열쇠를 아예 꺼내지 않습니다. 그 열쇠가 있는 곳 자체가 AI 의 뇌에서 '접근 불가' 구역으로 변해버립니다.

즉, AI 가 **무엇을 할 수 있는지 (계산 능력)**를 실시간으로 줄여버리는 것입니다.

3. 어떻게 가능할까? "주름진 천을 접는 기술"

그렇다면 AI 의 두뇌 (모델) 를 매번 다시 훈련시키지 않고, 실시간으로 능력을 줄일 수 있을까요? 논문은 이를 위해 **NLPN(중첩 최소 권한 네트워크)**이라는 기술을 소개합니다.

비유: "접을 수 있는 천 (주름)"

기존 AI 는 고정된 거대한 천처럼 생겼습니다. 천을 자르거나 다시 짜야만 모양이 바뀝니다.
이 논문이 만든 AI 는 접을 수 있는 주름이 있는 천입니다.
- 권한이 높을 때: 천을 펴서 모든 무늬 (지식) 가 보입니다.
- 권한이 낮을 때: 천을 접어서 특정 무늬만 가립니다. 접힌 부분의 무늬는 아예 보이지도, 손으로 만져지지도 않습니다.
- 중요한 점: 천을 접는다고 해서 천 자체가 사라지는 게 아닙니다. 필요하면 다시 펴면 원래대로 돌아옵니다. 하지만 접혀 있는 동안은 그 무늬를 볼 수 없습니다.

이 기술은 AI 가 답변을 만들어가는 순간순간에 "이 단계에서는 이만큼만 계산해"라고 지시하여, AI 가 위험한 지식을 떠올릴 수 있는 계산 경로 자체를 차단합니다.

4. 왜 이것이 중요한가?

진짜 안전: 단순히 "거부"하는 게 아니라, 생각할 수 있는 능력 자체를 제한합니다. 악의적인 사람이 "조금만 알려줘"라고 여러 번 물어봐도, 그 지식을 계산할 수 있는 경로가 없으므로 답을 낼 수 없습니다.
유연한 통제: 같은 AI 모델을 쓰면서도, 일반 사용자에게는 '일반 모드'를, 연구자에게는 '전문가 모드'를 켤 수 있습니다.
비용 절감: 모든 질문에 최고 성능 (최대 권한) 을 쓸 필요 없이, 쉬운 질문에는 간단한 계산만 쓰게 하여 에너지를 아낄 수도 있습니다.

5. 결론: "No More, No Less (더도 말고, 덜도 말고)"

이 논문의 핵심 메시지는 **"AI 에게 필요한 만큼만 권한을 주고, 나머지는 아예 접근하지 못하게 하라"**는 것입니다.

과거: AI 는 모든 것을 알고 있고, 우리는 말로만 "안 돼"라고 막았습니다. (거짓된 안전)
미래 (이 논문): AI 는 요청할 때 필요한 능력만 켜고, 나머지는 아예 꺼져 있습니다. (실질적인 안전)

마치 병원에서 일반 환자에게는 '일반 진료실'만 열어주고, '수술실'이나 '화학 물질 보관실'의 문은 잠가두는 것과 같습니다. 이것이 바로 이 논문이 꿈꾸는, 더 안전하고 통제 가능한 AI 의 새로운 세상입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

현재의 위험: 현재 배포된 LLM 은 모든 사용자에게 동일한 API 엔드포인트를 통해 전체적인 능력을 노출합니다. 이는 유해한 정보 (예: 생물학적 무기 제조법) 를 악의적인 사용자에게 제공할 수 있는 위험을 내포합니다.
기존 접근법의 한계:
- 학습/정렬 (Alignment): RLHF 나 안전성 미세 조정 등은 모델의 출력을 제어하지만, 모델의 **내부 가중치 (Underlying Capabilities)**는 여전히 위험한 정보를 포함하고 있으며, 특정 프롬프트나 샘플링을 통해 다시 활성화될 수 있습니다.
- 출력 필터링 (Output Filtering): 생성된 텍스트를 사후에 필터링하거나 거부하는 방식은 모델이 내부적으로 유해한 계산을 수행하는 것을 막지 못합니다.
- 활성화 조종 (Activation Steering): 고정된 편향을 주입하는 방식은 역전파나 적응형 프롬프트에 의해 우회될 수 있습니다.
핵심 과제: 모델의 가중치를 변경하지 않으면서, 사용자별 요청 (Request) 에 따라 모델이 수행할 수 있는 내부 계산의 범위 (Capability) 를 동적으로 제한할 수 있는 메커니즘이 필요합니다.

2. 방법론 (Methodology)

2.1. 최소 권한 언어 모델 (Least-Privilege Language Models)

저자들은 '권한 (Privilege)'을 모델이 특정 요청을 처리할 때 접근할 수 있는 **내부 계산의 범위 (Reachable Internal Computation)**로 정의합니다.

개념: 권한을 낮추는 것은 모델이 수행할 수 있는 함수 클래스 (Function Class) 를 축소하는 것을 의미합니다. 이는 단순히 출력을 차단하는 것이 아니라, 모델이 유해한 정보를 계산할 수 있는 능력 자체를 제한합니다.
아키텍처 (Monitor-Allocator-Enforcer Stack):
1. 모니터 (Monitor): 요청 시점의 신호 (프롬프트, 위험도, 불확실성 등) 를 수집합니다.
2. 할당자 (Allocator): 수집된 신호를 기반으로 각 요청에 필요한 권한 수준 $g$ 를 결정합니다.
3. 집행자 (Enforcer): 결정된 권한 수준 $g$ 에 따라 모델의 내부 계산을 제한하는 연산자 $T_g$ 를 적용합니다.

2.2. 중첩 최소 권한 네트워크 (Nested Least-Privilege Networks, NLPNs)

권한을 제어하기 위한 구체적인 메커니즘으로 NLPN을 제안합니다.

구조: 트랜스포머의 선형 계층 (Linear Layers) 을 저랭크 행렬의 곱 ( $W \approx BA$ ) 으로 재파라미터화합니다.
제어 메커니즘: 권한 수준 $g$ $g$ 는 행렬의 **랭크 (Rank)**를 결정합니다.
- $W(g) = B_{(:, 1:g)} A_{(1:g, :)}$
- 권한 $g$ 를 낮추면, 행렬의 랭크가 축소되어 모델이 접근할 수 있는 부분 공간 (Subspace) 이 줄어듭니다.
특징:
- 모양 보존 (Shape-preserving): 텐서의 크기와 모양은 변하지 않아 기존 모델과 호환됩니다.
- 가역성 (Reversible): 권한을 $g_{max}$ 로 설정하면 원래의 모델 성능을 완전히 복원할 수 있습니다.
- 단조성 (Monotone): 권한이 낮아질수록 접근 가능한 계산 공간이 축소됩니다.

2.3. 학습 전략 (Post-hoc Training)

단순히 SVD(특이값 분해) 로 랭크를 잘라내면 성능이 급격히 떨어지므로, **NLPN 인자 (Factors) 를 미세 조정 (Fine-tuning)**합니다.

목표: 높은 권한 ( $g_{max}$ ) 과 샘플링된 낮은 권한 ( $g < g_{max}$ ) 모두에서 안정적인 성능을 유지하도록 학습합니다.
손실 함수: 불확실성 가중치 (Uncertainty-weighted) 를 사용하여 다양한 권한 수준에서의 손실을 균형 있게 최적화합니다.

3. 주요 기여 (Key Contributions)

새로운 배포 패러다임 제안: 기존 출력 제어나 학습 정렬을 넘어, 배포 시점 (Inference-time) 에 모델의 내부 계산 능력을 동적으로 제한하는 '최소 권한 언어 모델' 클래스를 정의했습니다.
구현 메커니즘 (NLPN): 모델의 가중치 모양을 유지하면서 랭크 인덱싱을 통해 권한을 제어할 수 있는 NLPN을 제안하고, 이를 위한 학습 알고리즘을 제시했습니다.
실험적 검증: 다양한 데이터셋과 모델 (Pythia, Qwen, Llama 등) 을 통해 권한 - 성능 (Privilege-Utility) 트레이드오프를 분석하고, 특정 작업의 능력을 선택적으로 억제하면서도 다른 작업의 성능은 유지할 수 있음을 입증했습니다.

4. 실험 결과 (Results)

권한 - 성능 프론티어 (Privilege-Utility Frontier):
- 권한 (랭크) 을 낮추면 성능이 점진적으로 감소하지만, 쉬운 작업은 낮은 권한에서도 높은 성능을 유지하는 반면, 어려운 작업은 급격히 성능이 저하되는 '차등 민감도 (Differential Sensitivity)'를 보입니다.
- 이를 통해 할당자 (Allocator) 는 작업의 난이도나 불확실성에 따라 권한을 동적으로 할당하여, 전체적인 평균 권한 사용량을 줄이면서 목표 성능을 달성할 수 있습니다.
선택적 능력 억제 (Selective Capability Suppression):
- 특정 블록 (Block) 의 랭크를 줄여 화학/생물학 관련 지식은 억제하되, 수학/컴퓨터 과학 관련 성능은 유지하는 것이 가능함을 확인했습니다.
- 이는 권한 제어가 전역적 (Global) 인 성능 저하가 아니라, 국소적 (Local) 인 지식 억제로 작용할 수 있음을 시사합니다.
진정한 용량 억제 (True Capacity Suppression):
- 기존 출력 필터링은 모델이 내부적으로 답을 알고 있으면서 출력만 막는 '가면 (Masking)'일 수 있습니다.
- 그러나 NLPN 을 통한 랭크 감소는 내부 활성화 (Internal Activations) 에서도 관련 정보가 사라지는 것을 확인했습니다. 즉, 모델이 유해한 정보를 계산할 수 있는 계산 능력 (Computational Capacity) 자체가 제거되었습니다.

5. 의의 및 결론 (Significance)

안전성 강화: 모델이 유해한 정보를 생성할 수 있는 '내부 경로'를 차단함으로써, 기존 프롬프트 주입 (Jailbreak) 이나 반복적 샘플링 공격에 더 강건한 안전 장치를 제공합니다.
거버넌스 및 감사: 권한 할당 정책이 명확해지고, 어떤 내부 계산이 허용되었는지 추적 가능해져 AI 거버넌스에 기여합니다.
새로운 연구 방향: 단순한 출력 제어를 넘어, 모델의 내부 계산 구조를 제어하는 새로운 연구 분야를 개척했습니다. 이는 단일 모델 인터페이스를 통해 사용자별, 상황별로 맞춤형 접근 권한을 부여하는 미래의 AI 배포 표준이 될 수 있습니다.

요약하자면, 이 논문은 LLM 의 위험한 능력을 단순히 '가리는' 것이 아니라, 요청의 필요성에 따라 모델이 계산할 수 있는 능력 자체를 동적으로 축소하는 새로운 아키텍처 (NLPN) 와 배포 전략을 제시하여, AI 안전성의 근본적인 문제를 해결하려는 시도입니다.