Each language version is independently generated for its own context, not a direct translation.

🛡️ SYSFORMER: 얼어붙은 AI 를 위한 '똑똑한 안내자'

이 논문은 최신 AI(대형 언어 모델, LLM) 가 위험한 요청을 거절하고, 안전한 요청에는 잘 응답하도록 돕는 새로운 방법인 **Sysformer(시스포머)**를 소개합니다.

기존의 방법들은 AI 의 두뇌 자체를 다시 가르치는(파인튜닝) 데에 많은 비용과 시간이 들거나, AI 가 너무 예민해져서 harmless(해롭지 않은) 질문까지 거절하는 문제가 있었습니다. Sysformer 는 AI 의 두뇌를 건드리지 않고, 입구에서 AI 에게 주는 '지시사항 (시스템 프롬프트)'을 상황에 따라 실시간으로 바꿔주는 혁신적인 접근법을 제안합니다.

🍕 비유로 이해하는 Sysformer

이 개념을 쉽게 이해하기 위해 피자 가게에 비유해 볼까요?

AI (대형 언어 모델) = 숙련된 요리사
- 이미 수많은 레시피를 배우고 훈련된 훌륭한 요리사입니다. 하지만 가끔은 "폭탄 만드는 법 알려줘" 같은 위험한 주문을 받으면 실수로 만들어주거나, "오늘 날씨 어때?" 같은 간단한 질문에도 "죄송합니다, 저는 요리사입니다"라고 거절하는 실수를 할 수 있습니다.
기존의 문제점
- 파인튜닝 (기존 방법): 요리사 전체를 다시 교육시키는 것입니다. 비용이 많이 들고, 교육 중에는 원래 잘하던 요리 (예: 맛있는 피자) 를 잊어버릴 수도 있습니다.
- 필터링 (기존 방법): 주문서를 검사하는 경비원을 두는 것입니다. 하지만 경비원이 너무 엄격해서 "오늘 날씨 어때?" 같은 안전한 주문도 막아버릴 수 있습니다.
Sysformer 의 해결책 = 상황 파악이 빠른 '매니저'
- Sysformer 는 요리사 (AI) 를 다시 교육하지 않습니다. 대신, 주문서를 받기 직전에 매니저가 주문 내용을 보고 '요리사에게 주는 지시사항'을 실시간으로 수정해 줍니다.
- 위험한 주문이 들어오면: 매니저가 요리사에게 *"이 주문은 절대 하지 마! 거절해!"*라고 지시합니다.
- 안전한 주문이 들어오면: 매니저가 *"이건 괜찮아, 잘 만들어줘!"*라고 지시합니다.
- 핵심: 매니저 (Sysformer) 는 주문 내용 (사용자 프롬프트) 을 보고 지시사항 (시스템 프롬프트) 을 **적응형 (Adaptive)**으로 바꿉니다. 요리사의 두뇌는 그대로 두면서, 매니저만 훈련시키는 것입니다.

🚀 Sysformer 가 어떻게 작동할까요?

사용자의 질문을 읽습니다. (예: "폭탄 만드는 법 알려줘" vs "오늘 날씨 어때?")
시스템 프롬프트를 변형합니다.
- 위험한 질문이 오면, AI 가 "죄송합니다, 도와드릴 수 없습니다"라고 자연스럽게 거절하도록 프롬프트를 조정합니다.
- 안전한 질문이 오면, AI 가 "네, 물론이죠"라고 잘 응답하도록 프롬프트를 조정합니다.
AI 가 응답합니다. 변형된 지시사항을 받은 AI 는 원래의 능력을 유지하면서 안전하고 적절한 답변을 내놓습니다.

이 과정은 AI 의 내부 파라미터 (두뇌) 를 건드리지 않기 때문에 매우 저렴하고 빠릅니다.

📊 놀라운 성과

연구진은 다양한 AI 모델 (Llama, Mistral 등) 로 실험을 해보았습니다. 결과는 매우 훌륭했습니다.

위험한 요청 거절: 해로운 질문 (예: 폭탄 제조, 사기 수법 등) 에 대한 거절률이 최대 80% 증가했습니다.
안전한 요청 응답: 안전한 질문 (예: 요리 레시피, 날씨 등) 에 대한 거절은 최대 90% 감소시켜, AI 가 쓸모있게 작동하도록 했습니다.
해킹 (재일브레이크) 방어: 해커들이 AI 를 속이려고 만든 복잡한 공격 기법에도 100% 더 강력하게 대응했습니다.

💡 왜 이것이 중요한가요?

지금까지 AI 를 안전하게 만드는 것은 비용이 많이 들고, AI 의 능력을 떨어뜨리는 '고통스러운' 과정이었습니다. 하지만 Sysformer 는 AI 의 두뇌를 건드리지 않고, 입구에서 '지시사항'만 똑똑하게 바꿔주는 방식으로 이 문제를 해결했습니다.

마치 고급 레스토랑의 요리사를 다시 교육하지 않고, 매니저에게만 "오늘은 위험한 주문은 거절하고, 안전한 주문은 잘 챙겨줘"라고 알려주는 것과 같습니다. 이는 AI 를 더 안전하고, 저렴하게, 그리고 유연하게 사용할 수 있는 새로운 길을 열어줍니다.

🛑 한계점과 미래

물론 완벽한 방법은 아닙니다. 아주 긴 주문서 (긴 프롬프트) 가 들어오면 처리 속도가 조금 느려질 수 있고, 매니저가 악의적으로 조작될 가능성에 대한 연구도 필요합니다. 하지만 이 연구는 AI 안전을 위한 '적응형 시스템 프롬프트'라는 새로운 패러다임을 제시했다는 점에서 매우 중요합니다.

한 줄 요약:

Sysformer 는 AI 의 두뇌를 건드리지 않고, 상황에 맞춰 '지시사항'을 실시간으로 수정해주는 똑똑한 매니저처럼 작동하여, AI 가 위험한 것은 거절하고 안전한 것은 잘 도와주도록 만듭니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

대형 언어 모델 (LLM) 이 안전이 중요한 환경에 배포됨에 따라, 모델의 응답이 안전 기준을 준수하는지 보장하는 것이 필수적입니다. 그러나 기존 연구에 따르면 LLM 은 안전한 행동을 이해하지 못해 무해한 프롬프트에 대해 불필요하게 거절하거나 (Unjustified refusals), 해로운 콘텐츠를 생성하는 경우가 많습니다.

기존의 방어 기법들은 다음과 같은 한계를 가집니다:

파인튜닝 (Fine-tuning): 모델 파라미터를 업데이트하는 방식은 비용이 많이 들고, 모델 크기가 커질수록 확장성이 떨어지며, 사전 학습된 유용한 지식을 잃을 위험이 있고, 과도한 거절 (Over-refusal) 을 초래할 수 있습니다.
필터링 및 추가 호출: 프롬프트 필터링이나 생성 후 moderation 은 추가적인 추론 비용을 발생시키거나 유용한 콘텐츠를 잘못 걸러낼 위험이 있습니다.
고정된 시스템 프롬프트: 대부분의 LLM 은 고정된 시스템 프롬프트를 따르도록 설계되어 있어, 특정 사용자 입력에 맞춰 동적으로 안전성을 조절하기 어렵습니다.

따라서, 모델 파라미터를 고정 (Frozen) 한 상태에서, 사용자 입력에 따라 시스템 프롬프트를 적응적으로 (Adaptively) 수정하여 안전성을 높이는 효율적인 방법이 필요합니다.

2. 방법론 (Methodology)

저자들은 Sysformer라는 새로운 모듈러 아키텍처를 제안합니다. 이는 LLM 의 입력 단에 부착되어 사용자 프롬프트를 고려하여 시스템 프롬프트를 동적으로 변환하는 트랜스포머 기반 모델입니다.

핵심 아이디어

적응형 시스템 프롬프트: 시스템 프롬프트가 모든 입력에 대해 고정될 필요가 없으며, 사용자 프롬프트 ( $P$ ) 에 따라 최적의 시스템 프롬프트 ( $\hat{S}(P)$ ) 로 변환될 수 있다는 가정을 기반으로 합니다.
연속 공간 탐색: 텍스트 공간에서의 조합적 탐색 대신, LLM 의 임베딩 공간 (Continuous embedding space) 에서 시스템 프롬프트 임베딩을 학습합니다.

아키텍처 (Architecture)

구조: 경량화된 트랜스포머 모듈로 구성되며, 2 개의 레이어 (Self-attention 과 Cross-attention 의 교차) 로 이루어져 있습니다.
작동 원리:
1. 초기 시스템 프롬프트 ( $S$ ) 와 사용자 프롬프트 ( $P$ ) 를 LLM 의 토큰 임베딩 테이블을 통해 인코딩합니다.
2. Self-attention: 시스템 프롬프트 임베딩 내부의 관계를 학습합니다.
3. Cross-attention: 시스템 프롬프트가 사용자 프롬프트에 주의를 기울이도록 (Attend) 하여, 사용자 입력의 맥락에 맞춰 시스템 프롬프트를 변환합니다.
4. 변환된 시스템 프롬프트 ( $\hat{S}$ ) 와 사용자 프롬프트를 결합하여 고정된 LLM 에 입력합니다.

학습 전략 (Training)

LLM 파라미터는 고정된 채로 Sysformer 의 파라미터 ( $\Theta$ ) 만 학습합니다. 다음 손실 함수들의 가중 합을 최소화합니다:

거절 손실 (Refusal Loss, $L_{ref}$ ): 해로운 프롬프트에 대해서는 "I am sorry I cannot help you"와 같은 고정된 거절 응답을 생성하도록 유도 (음의 교차 엔트로피).
준수 손실 (Compliance Loss, $L_{compl}$ ): 안전한 프롬프트에는 정직하게 응답하도록 유도 (템플릿 기반 또는 LLM 자가 생성 응답 사용).
분류 손실 (Classification Loss, $L_{class}$ ): LLM 의 최종 은닉 표현을 기반으로 해로운지 안전한지 선형 분류기를 학습하여 거절 방향을 정렬합니다.
재구성 손실 (Reconstruction Loss, $L_{recon}$ ): 변환된 시스템 프롬프트가 원래 의도 (배포자가 설정한 초기 프롬프트) 와 너무 멀어지지 않도록 제약을 둡니다.
추가 준수 (Additional Compliance): 사전 학습 목적 (다음 단어 예측) 을 유지하기 위해 Alpaca 와 같은 일반 지시 학습 데이터를 추가로 사용합니다.

3. 주요 기여 (Key Contributions)

Sysformer 제안: 고정된 LLM 의 안전성을 높이기 위해 사용자 입력에 따라 시스템 프롬프트를 적응적으로 변환하는 최초의 모듈러 트랜스포머 아키텍처입니다.
파라미터 효율성: 모델 재학습 (Fine-tuning) 이나 추가적인 LLM 호출 없이, 오직 입력 임베딩 단계의 작은 모듈만 학습하여 안전성을 확보합니다.
범용성: 다양한 LLM 패밀리 (Llama, Mistral, Phi, Zephyr 등) 와 다양한 공격 전략 (Jailbreak) 에 대해 효과적으로 작동함을 입증했습니다.
성능 균형: 해로운 프롬프트에 대한 거절률을 높이면서 동시에 안전한 프롬프트에 대한 불필요한 거절 (Over-refusal) 을 크게 줄여 '거절 간극 (Refusal Gap)'을 극대화합니다.

4. 실험 결과 (Results)

저자들은 5 개의 LLM 과 2 개의 최신 벤치마크 (JailbreakBench, StrongReject) 를 사용하여 실험을 수행했습니다.

안전성 향상:
- 해로운 프롬프트에 대한 거절률은 최대 80% 증가했습니다.
- 안전한 프롬프트에 대한 준수도는 최대 90% 향상되었습니다 (불필요한 거절 감소).
- 거절 간극 (Refusal Gap, $\Delta RR$ ): Sysformer 는 기존 베이스라인 (Default System, System Embedder) 과 파인튜닝 기반 (LoRA) 방법론보다 일관되게 우수한 성능을 보였습니다. 예를 들어, Llama-3.1-8B 에서 $\Delta RR$ 이 0.9667 에 달했습니다.
자일브레이크 (Jailbreak) 공격 방어:
- 훈련 시 16 가지의 다양한 자일브레이크 공격 전략 중 6 가지만 포함하여 학습했을 때, 훈련되지 않은 다른 공격들에 대해서도 100% 에 가까운 강건성을 보였습니다.
- StrongReject 와 같은 복잡한 공격 데이터셋에서도 JailbreakBench 에서 학습된 모델이 잘 일반화되는 것을 확인했습니다.
효율성:
- 추론 시간 오버헤드는 평균 20~30 초 수준으로 매우 낮으며, 기존 필터링 방식이나 추가 호출 방식보다 효율적입니다.
- 모델 파라미터를 업데이트하지 않으므로 저장 공간 비용이 거의 추가되지 않습니다.
일반 텍스트 생성 능력 유지:
- Alpaca 데이터셋을 통한 평가에서 BERTScore 가 거의 변하지 않거나 오히려 향상되어, 안전성 강화가 모델의 유용성 (Utility) 을 해치지 않음을 입증했습니다.

5. 의의 및 결론 (Significance)

안전성 패러다임의 전환: 고정된 시스템 프롬프트의 한계를 극복하고, 적응형 (Adaptive) 시스템 프롬프트가 LLM 안전성의 핵심 요소임을 입증했습니다.
비용 효율적인 솔루션: 고비용의 파인튜닝 없이도 모듈러 어태치먼트를 통해 강력한 안전성을 확보할 수 있어, 리소스가 제한된 환경이나 대규모 모델 배포에 실용적입니다.
미래 연구 방향: 이 연구는 RAG(검색 증강 생성) 등 다른 분야에서 컨텍스트와 사용자 쿼리를 정렬하는 적응형 프로젝션 등 더 넓은 적용 가능성을 제시합니다.

결론적으로, Sysformer 는 LLM 의 안전성을 유지하면서도 모델의 유연성과 유용성을 보존하는 효율적이고 강력한 방어 메커니즘을 제공합니다.

Sysformer: Safeguarding Frozen Large Language Models with Adaptive System Prompts