Dynamic Adversarial Reinforcement Learning for Robust Multimodal Large Language Models

Each language version is independently generated for its own context, not a direct translation.

🧐 문제: AI 는 왜 '눈'이 약할까요?

우리가 생각하는 최신 AI(예: 챗봇이나 이미지 분석 AI) 는 눈이 매우 밝다고 생각하기 쉽습니다. 하지만 이 논문은 **"아니요, 그 AI 는 아주 사소한 방해물만 있어도 속아 넘어갑니다"**라고 말합니다.

상황: 책상 위에 '휴대폰'이 있고 그 옆에 '병'이 있습니다.
질문: "휴대폰은 병의 어디에 있나요?"
정답: "왼쪽에 있습니다."

이건 쉬운 문제죠. 하지만 AI 가 이 문제를 풀 때, 책상 구석에 의도치 않게 '캔' 하나를 더 그려 넣는다면?
그 순간 AI 는 당황합니다. "아, 저 캔이 방해하네? 그럼 휴대폰은 오른쪽에 있겠지?"라고 틀린 답을 내놓습니다.

이처럼 AI 는 **시각적 방해물 (Distractor)**에 매우 취약합니다. 마치 사람이 길을 가다가 갑자기 누군가 "저기 저기!" 하고 손가락을 가리키면, 진짜 방향을 잊어버리고 그 손가락을 따라가는 것과 비슷합니다.

🛡️ 해결책: "스스로를 괴롭히는 훈련" (Adversarial Opponent Training)

이 문제를 해결하기 위해 연구팀은 AI 가 스스로를 훈련시키는 '자신과의 대결 (Self-Play)' 방식을 도입했습니다. 마치 격투기 선수가 스스로를 괴롭히는 훈련 파트너를 만들어내는 것과 같습니다.

이 훈련에는 두 명의 AI 가 등장합니다.

1. 공격자 (Attacker) = "악당 AI"

역할: 방어하는 AI 를 속이기 위해 이미지를 변조합니다.
행동: "휴대폰이 왼쪽에 있네? 그럼 여기에 이상한 물건을 하나 더 넣어서 혼란스럽게 만들어볼까?"라고 생각하며, 사진 속에 **의도적인 방해물 (예: 낯선 캔, 다른 사물)**을 자연스럽게 추가하거나 제거합니다.
목표: 방어 AI 가 "어? 이게 뭐지?" 하며 틀린 답을 내게 만드는 것입니다.

2. 방어자 (Defender) = "수호자 AI"

역할: 공격자가 만든 헷갈리는 이미지를 보고 정답을 찾아냅니다.
행동: "아, 저 캔은 방해물일 뿐이야. 진짜 휴대폰은 병 왼쪽에 있구나!"라고 진짜 핵심을 파악하려 노력합니다.
목표: 어떤 방해물이 있어도 정확한 답을 내는 것입니다.

🔄 훈련 과정: "나비 효과"처럼 성장하다

이 두 AI 는 끊임없이 싸우며 성장합니다.

초기: 공격자는 아직 서툴러서 단순히 물건을 뚝딱 추가합니다. 방어자는 쉽게 속습니다.
중반: 공격자가 방어자를 속이는 데 성공하면, 공격자는 더 똑똑해집니다. "아, 단순히 물건을 넣는 게 아니라, 색을 바꾸거나 위치를 살짝 비틀어야 속일 수 있구나!"라고 배웁니다.
후반: 공격자가 점점 더 교묘해지면, 방어자는 "이 정도는 속지 않아!"라며 더 날카로운 눈을 갖게 됩니다.

이 과정을 수십 번 반복하면, 방어자는 **어떤 복잡한 상황에서도 속지 않는 '철벽 같은 시력'**을 갖게 됩니다. 마치 격투기 선수가 다양한 상대와 싸우며 실력을 키워 챔피언이 되는 것과 같습니다.

🌟 이 방법의 핵심 장점

인간이 일일이 데이터를 만들 필요 없음: 기존에는 사람이 수천 장의 '속임수 이미지'를 만들어 AI 에게 가르쳤습니다. 하지만 이 방법은 AI 가 스스로 새로운 속임수를 만들어냅니다. 인간이 할 수 없는 복잡한 변형도 AI 가 찾아냅니다.
할루시네이션 (환각) 감소: AI 가 엉뚱한 것을 본 척하는 '환각' 현상이 줄어듭니다. 왜냐하면 훈련 과정에서 정확한 시각적 증거를 찾아내는 법을 배웠기 때문입니다.
유연한 적응력: 정해진 문제집만 풀던 AI 가 아니라, 예상치 못한 새로운 상황에서도 잘 대처할 수 있게 됩니다.

📝 요약

이 논문은 **"AI 가 눈을 감고 있는 것처럼 허술한 시력을 가지고 있다"**는 사실을 지적하고, **"AI 가 스스로를 괴롭히는 악당 AI 를 만들어내어, 그 악당과 싸우면서 시력을 키워가는 훈련법"**을 제안했습니다.

결과적으로 이 훈련을 받은 AI 는 복잡한 현실 세계에서도 속지 않고, 정확한 판단을 내리는 더 튼튼한 AI가 되었습니다. 마치 약한 병사들이 스스로를 괴롭히는 훈련을 통해 최정예 부대로 거듭나는 이야기와 같습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

지각적 취약성 (Perceptual Fragility): 현재 멀티모달 대형 언어 모델 (MLLM) 은 복잡한 시각적 장면에서 미세한 변화나 문맥적 방해 요소 (distractor) 에 의해 쉽게 오인식되거나 환각 (hallucination) 을 일으키는 취약점을 보입니다. 예를 들어, 사물의 상대적 위치를 정확히 파악하던 모델이 주변에 새로운 객체가 추가되면 그 관계를 잘못 판단하는 경우가 많습니다.
유한한 데이터의 한계: 기존 MLLM 의 견고성 향상은 주로 수동으로 주석 달린 유한한 적대적 데이터셋에 의존합니다. 이는 데이터 생성 비용이 매우 높고, 모델이 진화함에 따라 기존 데이터셋이 빠르게 노후화되어 새로운 위협에 대응하지 못하는 '데이터 병목 현상'을 초래합니다.
핵심 과제: 정적 (static) 인 데이터셋에 의존하는 훈련 패러다임을 넘어, 모델 스스로가 지속적으로 진화하는 동적 데이터를 생성하여 견고성을 높이는 새로운 훈련 방식이 필요합니다.

2. 제안 방법론 (Methodology)

저자들은 AOT (Adversarial Opponent Training) 라는 새로운 자기 놀이 (Self-play) 프레임워크를 제안합니다. 이는 이미지 편집 '공격자 (Attacker)'와 '방어자 (Defender)' MLLM 간의 공진화 (Co-evolution) 를 통해 작동합니다.

2.1. AOT-SFT 데이터셋 구축 (Cold Start)

자기 놀이를 시작하기 위해 초기 공격자 모델을 훈련시키기 위한 AOT-SFT라는 대규모 적대적 데이터셋을 생성합니다.

2 단계 파이프라인:
1. 장면 확장 (Scene Extension): 기존 이미지 (VStar 등) 를 외삽 (outpainting) 하여 시각적 복잡성을 높입니다. 이때 Qwen2.5-VL 을 활용해 원본 질문의 핵심 객체와 중복되지 않는 새로운 배경을 생성하고, 구성 (Composition), 중복 (Duplication), 사실성 (Realism) 검사를 통해 품질을 필터링합니다.
2. 적대적 방해 요소 삽입 (Adversarial Implantation): 방어 모델이 정답을 맞춘 깨끗한 이미지에, 질문의 논리를 흐트러뜨릴 수 있는 '의미 있는 방해 객체 (Semantic Distractor)'를 인페인팅 (inpainting) 합니다. 이때 방해 객체가 원본 객체를 가리지 않도록 (IoU 체크) 하며, 방어 모델이 오답을 내도록 유도하는지 검증합니다.

2.2. 공격자 - 방어자 공진화 프레임워크

초기 부트스트래핑 후, 공격자와 방어자가 상호 경쟁하며 동시에 발전하는 반복적 과정을 수행합니다.

공격자 진화 (Attacker Evolution):
- 목표: 현재 방어자를 속일 수 있는 가장 효과적인 이미지 편집을 생성.
- 알고리즘: Flow-GRPO (Flow-based Group Relative Policy Optimization) 사용.
- 보상 함수 ( $R_{atk}$ ):
  1. 의미 무결성 (Semantic Integrity): 원본 질문과 관련된 핵심 객체 영역의 SSIM (Structural Similarity Index Measure) 이 임계값 이상이어야 함 (객체를 지우거나 왜곡하지 않음).
  2. 적대적 유효성 (Adversarial Efficacy): 방어자가 두 번 연속으로 오답을 낼 때만 높은 보상 (1.0) 을 부여.
- 전략: 공격자는 객체 추가뿐만 아니라 교체, 제거, 하이브리드 공격 등 다양한 전략을 자율적으로 학습합니다.
방어자 강화 (Defender Enhancement):
- 목표: 공격자가 생성한 새로운 적대적 예제에 대해 견고한 지각 능력을 학습.
- 알고리즘: DAPO (Direct Alignment from Preference Optimization) 사용.
- 커리큘럼 선별 전략: 공격자가 생성한 모든 예제를 사용하는 것이 아니라, 방어 모델이 3~7 번 (10 회 시도 중) 정답을 맞추는 '가장 학습 가능한 난이도 (Goldilocks zone)'의 예제만 선별하여 훈련에 사용합니다. 이는 너무 쉽거나 너무 어려운 데이터를 배제하여 학습 효율을 극대화합니다.
- 보상 함수: 정답 유무와 출력 형식 (Format) 준수 여부를 기반으로 보상 부여.

3. 주요 기여 (Key Contributions)

AOT-SFT 데이터셋: MLLM 의 지각적 취약성을 분석하고 자기 놀이 프레임워크를 부트스트래핑하기 위한 대규모 구조화된 적대적 데이터셋을 공개합니다.
AOT 프레임워크: 이미지 편집 공격자와 MLLM 방어자의 공진화를 통해 훈련 데이터를 자율적으로 생성하고 모델의 핵심 지각 능력을 강화하는 새로운 자기 놀이 패러다임을 제시합니다.
성능 향상 및 환각 감소: 유한한 적대적 데이터셋을 사용하는 기존 방법보다 월등히 뛰어난 지각적 견고성을 달성하며, 모델의 환각 (Hallucination) 을 유의미하게 줄였습니다.

4. 실험 결과 (Results)

지각적 견고성 (Perceptual Robustness):
- VStar: 베이스 모델 대비 +9.24% 향상 (80.25% 달성).
- HRBench (4K/8K): 고해상도 이미지에서도 큰 성능 개선 (+8.26% 등) 을 보였으며, 초고해상도 (8K) 환경에서도 견고성이 유지됨을 입증했습니다.
- 비교: Liu et al. 의 방해 요소 기반 데이터 증강 방법 등 기존 최강 베이스라인보다 VStar 에서 +4.20 점, HRBench-8K 에서 +4.75 점 더 높은 성능을 기록했습니다.
환각 감소 (Hallucination Reduction):
- POPE: F1-Score 가 +2.88 포인트 향상.
- HallusionBench: 정확도가 +1.68 포인트 향상. 이는 모델이 시각적 증거에 기반한 사실적인 답변을 더 잘 내도록 함을 의미합니다.
일반화 능력 (Generalization):
- 범용 능력 유지: 견고성 훈련이 일반적인 멀티모달 능력 (MMMU, MMStar, RealWorldQA 등) 을 저하시키지 않고 오히려 향상시켰습니다 (예: MMMU 25.33% 달성).
- 모델 간 전이 (Transferability): Qwen2.5-VL(7B) 로 생성된 커리큘럼을 Qwen3-VL(4B/8B) 및 Gemma-3(4B/27B) 등 다른 아키텍처와 규모에 적용했을 때도 일관된 성능 향상을 보였습니다.

5. 의의 및 결론 (Significance)

이 논문은 MLLM 의 취약점이 고정된 훈련 데이터의 한계에서 비롯된다는 점을 지적하고, 이를 해결하기 위해 적대적 자기 놀이 (Adversarial Self-play) 를 도입했습니다.

데이터 생성의 패러다임 전환: 수동 주석에 의존하는 정적 데이터셋에서, 모델이 스스로 위협을 발견하고 대응하는 동적 데이터 생성으로의 전환을 제시했습니다.
지각적 견고성의 본질적 향상: 단순한 데이터 양의 증가가 아닌, 공격자가 지속적으로 진화하는 과정에서 방어자가 세밀한 지각 능력 (Fine-grained perception) 과 논리적 추론을 동시에 강화하게 됩니다.
미래 방향: 현재는 객관적 정답이 있는 VQA 작업에 집중되어 있으나, 이 프레임워크는 오픈 엔디드 생성 작업으로 확장될 수 있는 가능성을 보여주며, 더 신뢰할 수 있고 회복력 있는 MLLM 개발을 위한 중요한 발걸음이 됩니다.

요약하자면, 이 연구는 공격자와 방어자의 지속적인 경쟁 (Co-evolution) 을 통해 MLLM 이 복잡한 시각적 환경에서도 흔들리지 않는 견고한 지각 능력을 스스로 배울 수 있게 하는 혁신적인 훈련 프레임워크를 제시했습니다.