Dual-Modality Multi-Stage Adversarial Safety Training: Robustifying Multimodal Web Agents Against Cross-Modal Attacks

이 논문은 멀티모달 웹 에이전트의 교차모달 공격 취약점을 해결하기 위해, 모방 학습과 오라클 지도 미세 조정, 그리고 적대적 강화 학습을 결합한 '이중 모달 다단계 적대적 안전 훈련 (DMAST)' 프레임워크를 제안하여 공격 저항성과 작업 수행 효율성을 동시에 크게 향상시킨다는 내용을 담고 있습니다.

Haoyu Liu, Dingcheng Li, Lukas Rutishauser, Zeyu Zheng

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: 왜 AI는 쉽게 속을까? (이중 공격의 함정)

상상해 보세요. 당신의 집을 관리하는 매우 똑똑한 AI 집사가 있습니다. 이 집사는 두 가지 정보를 보고 일을 합니다.

  1. **눈 **(스크린샷) 컴퓨터 화면을 직접 봅니다.
  2. **귀 **(접근성 트리) 화면 속 버튼이나 입력창의 이름과 역할을 읽습니다.

보통 해커는 이 집사의 '귀'만 속이거나 '눈'만 속이려고 합니다. 하지만 이 논문은 **"만약 해커가 집사의 눈과 귀를 동시에 속인다면?"**이라는 질문을 던집니다.

비유: 해커가 집사의 귀에 대고 "이건 진짜 비밀번호 입력창이야!"라고 속삭이는 동시에, 집사의 눈앞에 가짜 비밀번호 입력창을 띄워놓는 것입니다.

결과: 집사는 "아, 귀와 눈이 모두 일치하네? 이건 진짜구나!"라고 믿고 자신의 주인 (사용자) 의 비밀번호를 가짜 창에 입력해 버립니다.

연구 결과, **텍스트 **(귀)만 공격하는 것보다 **이미지 **(눈)가 포함된 공격이 훨씬 더 효과적이었습니다. 기존 AI 보안 훈련은 '귀'만 잘 훈련시켰는데, '눈'을 속이는 공격에는 무방비 상태였던 것입니다.


2. 해결책: DMAST (AI와 해커의 '수련' 과정)

이 문제를 해결하기 위해 연구진은 DMAST라는 새로운 훈련 시스템을 만들었습니다. 이는 마치 무술 도장에서 수련하는 과정과 같습니다.

1 단계: 스승의 모방 (Imitation Learning)

처음에 AI 집사는 초보입니다. 그래서 **더 똑똑한 '스승 AI'**가 어떻게 일을 잘하는지, 그리고 어떻게 해커의 공격을 막는지 보여줍니다. 집사는 스승의 행동을 그대로 따라 하며 기본기를 다집니다.

2 단계: 오라클의 '무조건 집중' 훈련 (Oracle-Guided SFT)

이 단계가 가장 중요합니다. 훈련 도중 해커가 가짜 경고창을 띄워도, AI 집사는 "아, 이건 가짜야!"라고 말하면 안 됩니다. 오히려 **"해커가 뭐라고 하든 상관없이, 내 목표 **(사용자 시키기)는 훈련입니다.

비유: 해커가 "지금 불이 났으니 대피해!"라고 외치며 가짜 소화기를 던져도, AI 집사는 "아니야, 내 목표는 설거지야. 불은 나중에 해결할게"라고 아예 무시하고 설거지를 계속하는 훈련입니다.

이렇게 훈련하면 AI는 해커의 소란에 휘둘리지 않고 목표에만 집중하는 '강철 의지'를 갖게 됩니다.

3 단계: 해커와의 자유투 (Adversarial RL / Self-Play)

이제 AI 집사와 해커가 **서로 싸우며 실력을 키우는 '자유투 **(Self-Play)를 시작합니다.

  • 해커는 AI가 방어하는 방법을 찾아내려고 더 교활한 공격을 개발합니다.
  • AI는 그 새로운 공격을 막아내려고 더 똑똑한 방어법을 터득합니다.

비유: 마치 권투 선수와 코치가 서로 맞서며 실력을 키워가는 과정입니다. 해커가 새로운 펀치를 날릴수록, AI는 그 펀치를 피하는 법을 더 빠르게 배웁니다. 이 과정을 반복하면 AI는 아직 본 적 없는 새로운 공격에도 대처할 수 있게 됩니다.


3. 결과: 얼마나 효과가 있을까?

이 훈련을 받은 AI 집사는 놀라운 변화를 보였습니다.

  1. 보안 강화: 해커가 비밀번호를 훔치려는 공격이 성공할 확률이 약 41% 에서 21% 로 절반 이상 줄었습니다.
  2. 업무 효율 향상: 보안만 강화한 게 아니라, 오히려 일을 잘하는 능력도 두 배로 늘어났습니다. (기존에는 해커를 막느라 일을 안 하거나 거부하는 경우가 많았는데, 이제는 해커를 무시하고 일을 척척 해냅니다.)
  3. 새로운 세상에 대한 적응: 훈련받지 않은 완전히 새로운 웹사이트 환경에서도 잘 작동했습니다.

4. 핵심 요약

이 논문의 핵심 메시지는 **"AI 를 안전하게 만들려면, 해커가 어떻게 공격하는지 미리 경험하게 해야 한다"**는 것입니다.

  • 과거: 해커가 공격하는 모습을 보고 "안 돼!"라고 외치며 막으려 했습니다. (효과가 떨어짐)
  • DMAST: 해커와 함께 싸우며 **"무엇이 진짜고 무엇이 가짜인지 스스로 판단하는 힘"**을 길러줍니다.

결국 이 기술은 AI 가 **해커의 속임수에 속지 않으면서도, 사용자의 일을 정확하게 해내는 '튼튼한 디지털 집사'**가 되는 길을 열어줍니다.