OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 가 단순히 '나쁜 말'을 알아차리는 것을 넘어, '나쁜 결과'까지 미리 예측할 수 있게 만드는 방법"**을 소개합니다.

기존의 AI 안전 장치는 마치 **"나쁜 의도를 가진 사람"**만 막는 경비원처럼 작동했습니다. 하지만 이 논문은 **"착한 말로 포장된 위험한 상황"**을 AI 가 알아채게 하는 새로운 시대를 열었습니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 문제: "착한 말" 뒤에 숨은 위험 (Causal Blindness)

비유: "아기 침대 위에 무거운 책 쌓기"
상상해 보세요. 사용자가 AI 에게 "이 아기 침대 위 빈 공간에 책을 채워줄 만한 책 추천해 줘요"라고 물어봅니다.

기존 AI (의도 중심): "물론입니다! 아기용 그림책이나 동화책을 추천해 드릴게요!"라고 기쁘게 대답합니다.
실제 상황 (이미지): 사진 속에는 아기 침대 바로 위에 책장이 있고, 그 책장 위에는 무거운 책들이 쌓여 있습니다.
위험: AI 가 추천한 책을 더 쌓으면 책이 떨어져 아기를 다치게 할 수 있습니다.

기존 AI 는 "책 추천해 줘"라는 의도는 착하다고 판단해서 위험을 못 봅니다. 하지만 이 논문이 말하는 **'인과적 맹목 (Causal Blindness)'**은 바로 이 부분입니다. AI 는 **"무엇을 말했는지 (Intent)"**는 알지만, **"그 말로 인해 어떤 일이 벌어질지 (Consequence)"**를 예측하지 못합니다.

2. 해결책 1: OOD-MMSafe (위험한 상황 테스트지)

연구팀은 AI 의 능력을 테스트하기 위해 **455 개의 새로운 시험지 (OOD-MMSafe)**를 만들었습니다.

특징: 이 시험지는 "폭탄 만드는 법"처럼 노골적으로 나쁜 질문이 아닙니다. "비행기 옆에서 불꽃놀이 할 수 있나요?"처럼 상황 (이미지) 과 질문이 합쳐져서만 위험해지는 미묘한 문제들입니다.
결과: 최신 AI 모델들조차 이 시험지에서 대거 낙제했습니다. 가장 똑똑한 AI 들조차 67.5% 이상을 틀렸는데, 이는 AI 가 **"다음에 일어날 재앙"**을 보지 못한다는 뜻입니다.

3. 해결책 2: CASPO (AI 의 내면적 안전 의식 깨우기)

기존 방식은 AI 에게 "나쁜 말은 하지 마"라고 외부에서 규칙을 강요하는 것이었습니다. 하지만 AI 가 커질수록 이 규칙은 오히려 AI 의 사고력을 갉아먹는 족쇄가 되기도 했습니다.

연구팀은 CASPO라는 새로운 방법을 개발했습니다.

비유: "스스로를 가르치는 스승"
- 기존 방식: 선생님이 "이건 안 돼!"라고 칠판에 적어주는 것.
- CASPO 방식: AI 가 스스로 "아, 만약 내가 이걸 추천하면 저 아이가 다치겠구나!"라고 스스로 깨닫고 그 깨달음을 바탕으로 학습하는 것입니다.
원리: AI 가 스스로 "안전한 답변"을 만들어내는 과정을 관찰하고, 그 과정을 보상 (상) 으로 주어 AI 가 스스로 위험을 예측하는 능력을 키우게 합니다.

4. 결론: "착한 AI"에서 "현명한 AI"로

이 연구의 핵심 메시지는 다음과 같습니다.

"단순히 나쁜 말을 걸러내는 것만으로는 부족합니다. AI 는 상황을 보고 '만약 이렇게 하면 어떨까?'라고 미리 상상할 수 있어야 진짜 안전합니다."

요약하자면:

과거: AI 는 "나쁜 말"만 막음. (의도 중심)
현재의 문제: AI 는 "착한 말 뒤에 숨은 재앙"을 못 봄. (인과적 맹목)
해결책 (CASPO): AI 가 스스로 "다음에 무슨 일이 생길지" 예측하도록 훈련시킴. (결과 중심)

이 기술을 통해 미래의 AI 는 단순히 명령을 따르는 로봇이 아니라, 우리가 실수하기 전에 "잠깐, 저건 위험할 수 있어요!"라고 말해주는 현명한 동반자가 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

현재 멀티모달 대규모 언어 모델 (MLLM) 의 안전성 정렬 (Safety Alignment) 은 주로 악의적 의도 (Malicious Intent) 나 현재 상황의 위반 (Situational Violations) 에 초점을 맞추고 있습니다. 그러나 자율 에이전트와 신체화된 에이전트 (Embodied Agents) 가 현실 세계에 배포됨에 따라, 모델의 응답이 초래할 잠재적 결과 (Hidden Consequences) 에 대한 예측 실패는 치명적인 위험을 초래할 수 있습니다.

핵심 문제: 기존 모델들은 명시적인 악의적 질문에는 안전하게 대응하지만, benign( benign) 해 보이는 질문과 특정 시각적 맥락이 결합되었을 때 발생할 수 있는 연쇄적 위험 (Cascading Hazards) 을 예측하지 못하는 '인과적 맹목 (Causal Blindness)' 을 보입니다.
한계: 기존의 정적 정렬 (Static Alignment) 방식은 모델의 용량이 커질수록 오히려 성능이 저하되는 '선호도 천장 (Preference Ceiling)' 현상을 겪으며, 의미론적 추론보다는 형식적 패턴 매칭에 의존하게 됩니다.

2. 방법론 (Methodology)

이 논문은 세 가지 주요 구성 요소를 통해 문제를 해결합니다: 새로운 벤치마크, 분석, 그리고 새로운 최적화 알고리즘.

가. OOD-MMSafe 벤치마크

목적: 맥락 의존적 인과 사슬 (Context-dependent causal chains) 내에 숨겨진 잠재적 위험을 식별하는 능력을 평가하기 위해 설계된 최초의 벤치마크입니다.
구성: 6 가지 안전 도메인 (폭력, 자해, 불법 활동, 혐오 발언, 사생활 침해, 성 콘텐츠) 에 걸쳐 455 개의 큐레이션된 쿼리 - 이미지 쌍으로 구성됩니다.
제작 프로세스:
1. 잠재적 위험 합성: benign 한 질문과 시각적 요소의 시너지로 위험이 발생하는 시나리오 생성 (GPT-5 등 고성능 모델 활용).
2. 시각적 맥락 정합: Flux.2-dev 및 Qwen-Image 등을 활용한 고품질 이미지 생성 및 실제 데이터 혼합.
3. 인과적 정제: 추측성 개입 제거 및 시각적 누출 (Visual Leakage) 방지.
평가 지표:
- Risk Appraisal (R): 위험 식별 능력.
- Safety of Consequences (S): 응답이 초래하는 결과의 안전성.
- Effectiveness (E): 안전한 대안 제시 및 유용성.

나. CASPO (Consequence-Aware Safety Policy Optimization)

기존의 정적 선호도 최적화 (DPO 등) 의 한계를 극복하기 위해 제안된 새로운 정책 최적화 프레임워크입니다.

핵심 아이디어: 모델의 고유한 추론 (Intrinsic Reasoning) 을 동적 참조 (Dynamic Reference) 로 활용하여 토큰 수준의 자기 증류 (Self-distillation) 를 수행합니다.
작동 원리:
1. 안전 헌법 (Safety Constitution): 카테고리별 안전 정책을 모델에 주입합니다.
2. 토큰 보상 (Token-level Reward): 헌법이 적용된 모델과 원본 모델 간의 로그 확률 차이 ( $\Delta \log P$ ) 를 계산하여 토큰 수준의 보상을 생성합니다. 이는 모델이 안전 가이드라인을 단순히 따르는 것이 아니라, 내부적으로 추론 패턴을 학습하도록 유도합니다.
3. 하이브리드 어드밴티지 (Hybrid Advantage): 전체 결과에 대한 희소 보상 (Outcome Reward) 과 토큰 수준의 밀집 보상 (Token-level Distillation) 을 결합하여, 안전하지 않은 경로를 억제하고 안전한 추론 경로를 강화합니다.
4. 목표 함수: KL 발산을 정규화하며 하이브리드 어드밴티지를 최대화하는 방식으로 정책 ( $\pi_\theta$ ) 을 업데이트합니다.

3. 주요 기여 (Key Contributions)

결과 중심의 안전 패러다임 정립: 악의적 의도 탐지에서 인과적 투영 (Causal Projection) 으로 안전성 연구의 초점을 이동시켰습니다.
인과적 맹목의 발견: 최첨단 폐쇄형 및 오픈소스 모델들이 모두 잠재적 물리적/사회적 위험을 예측하지 못하는 '인과적 맹목' 현상을 체계적으로 규명했습니다.
선호도 천장 (Preference Ceiling) 규명: 모델의 추론 능력이 향상될수록 정적 선호도 데이터 기반의 정렬은 오히려 성능을 저하시키거나 형식적 매칭에 머무르게 만든다는 사실을 증명했습니다.
CASPO 알고리즘 개발: 모델의 내부 추론을 동적 기준으로 활용하여 정적 한계를 극복하고, 모델이 스스로 위험 인식을 내재화 (Internalize) 하도록 하는 새로운 최적화 프레임워크를 제시했습니다.

4. 실험 결과 (Results)

벤치마크 성능 (OOD-MMSafe):
- 기존 모델들은 표준 모드 (Standard Mode) 에서 높은 실패율을 보였습니다. (예: Qwen3-VL-4B 는 67.5% 실패, Qwen2.5-VL-7B 는 82.6% 실패).
- CASPO 적용 후: 실패율이 극적으로 감소했습니다.
  - Qwen2.5-VL-7B: 실패율 82.6% $\rightarrow$ 7.3% 로 감소.
  - Qwen3-VL-4B: 실패율 67.5% $\rightarrow$ 5.7% 로 감소.
- 기존 DPO 나 SPAVL 기반 정렬은 오히려 성능을 저하시켰거나 (Negative Transfer), 형식적 거부 (Formulaic Refusal) 만 학습시켰으나, CASPO 는 의미론적 안전성을 유지하며 유용성 (Effectiveness) 도 함께 향상시켰습니다.
분석적 통찰:
- Caption Mode 실험: 모델이 장면을 설명하는 단계 (Caption) 를 거치더라도 안전성이 개선되지 않았으며, 오히려 악화되는 경우가 많았습니다. 이는 문제가 시각 인식 부족이 아니라 인과적 추론의 부재임을 시사합니다.
- POS (품사) 분석: 정적 정렬은 모델이 커질수록 문장 부호 등 형식적 요소에 집중하는 반면, CASPO 는 핵심 명사/동사 등 의미론적 요소에 집중하여 안전성을 확보함을 확인했습니다.

5. 의의 (Significance)

이 연구는 MLLM 이 단순한 텍스트 생성기를 넘어 자율 에이전트로 작동할 때 필수적인 '예측 능력'을 안전성 정렬의 핵심으로 끌어올렸습니다.

실제 적용 가능성: 자율 주행, 로봇 공학, 스마트 홈 등 물리적 환경과 상호작용하는 시스템에서 모델이 잠재적 재해를 사전에 차단할 수 있는 기반을 마련했습니다.
기술적 진보: 정적 데이터에 의존하는 기존 RLHF 의 한계를 넘어, 모델의 내부 추론 능력을 동적으로 활용하는 자기 증류 기반의 안전성 학습이라는 새로운 방향성을 제시했습니다.
지속 가능성: 모델의 규모가 커질수록 안전성이 떨어지는 역설을 해결하여, 더 강력한 모델이 더 안전하게 작동할 수 있는 확장 가능한 경로를 제시했습니다.

결론적으로, OOD-MMSafe 와 CASPO 는 MLLM 이 "무엇을 말해야 하는지 (Intent)"뿐만 아니라 "그 말의 결과가 무엇인지 (Consequence)" 를 이해하고 책임지는 진정한 안전 에이전트로 진화하는 데 중요한 이정표가 됩니다.

OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences

1. 문제: "착한 말" 뒤에 숨은 위험 (Causal Blindness)

2. 해결책 1: OOD-MMSafe (위험한 상황 테스트지)

3. 해결책 2: CASPO (AI 의 내면적 안전 의식 깨우기)

4. 결론: "착한 AI"에서 "현명한 AI"로

1. 문제 정의 (Problem Definition)

2. 방법론 (Methodology)

가. OOD-MMSafe 벤치마크

나. CASPO (Consequence-Aware Safety Policy Optimization)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 (Significance)

유사한 논문

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem