Partially Recentralization Softmax Loss for Vision-Language Models Robustness

이 논문은 사전 훈련된 멀티모달 모델의 손실 함수를 수정하여 상위 K 개의 소프트맥스 출력을 제한하는 '부분적 재중앙화 소프트맥스 손실'을 제안함으로써, 다양한 적대적 공격에 대한 강인성을 크게 향상시킬 수 있음을 실험을 통해 입증합니다.

Hao Wang, Jinzhe Jiang, Xin Zhang, Chen Li

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 '눈과 귀를 함께 가진 AI(멀티모달 모델)'가 속임수에 얼마나 잘 속는지, 그리고 어떻게 더 똑똑하고 튼튼하게 만들 수 있는지에 대한 연구입니다.

복잡한 전문 용어 대신, 일상적인 비유로 쉽게 설명해 드릴게요.

1. 배경: 눈과 귀를 가진 AI 의 약점

요즘 AI 는 글을 읽고 (언어) 이미지를 보고 (시각) 이해하는 능력을 갖췄습니다. 마치 눈과 귀를 모두 가진 슈퍼 히어로 같은 존재죠. 하지만 이 슈퍼 히어로도 약점이 있습니다.

  • 상황: 누군가 이미지에 아주 미세하게, 사람의 눈에는 보이지 않는 '소금 한 알' 같은 변화를 줍니다.
  • 결과: AI 는 그 작은 변화에 놀라서 완전히 엉뚱한 말을 합니다. (예: "고양이"라고 찍혀 있는 사진을 살짝 건드리면, AI 는 "자동차"라고 확신하며 말합니다.)
  • 문제: 이런 '속임수 공격'에 AI 가 너무 쉽게 넘어가는 것이 문제입니다.

2. 해결책: "Partial Recentralization Softmax Loss"라는 새로운 규칙

연구자들은 이 문제를 해결하기 위해 AI 가 학습하는 '시험 규칙 (손실 함수)'을 살짝 바꿨습니다.

이를 비유하자면 다음과 같습니다.

  • 기존의 AI (규칙이 없는 학생):
    시험에서 정답을 고를 때, "아, 이거 90% 확률로 정답이야! 나머지 10% 는 뭐든 될 수 있어!"라고 생각하며 가장 확률이 높은 답 하나만 맹신합니다. 그래서 속임수 공격이 들어오면 그 하나만 믿다가 바로 틀립니다.

  • 이 논문이 제안한 AI (새로운 규칙을 가진 학생):
    연구자들은 AI 에게 **"정답을 고를 때, 확률이 가장 높은 '상위 3 개'의 답만 집중해서 생각해보라"**고 규칙을 바꿨습니다.

    • 마치 주사위를 굴릴 때, 1 등만 노리는 게 아니라 1 등부터 3 등까지의 가능성을 모두 고려해서 판단하는 것과 같습니다.
    • 이렇게 하면, 공격자가 "정답은 1 등이다!"라고 속여도, AI 는 "아니야, 2 등이나 3 등도 충분히 가능성이 있어. 너무 빨리 결론 내리지 말자"라고 생각하게 됩니다.

이 규칙을 적용한 학습 방법의 이름을 논문 제목처럼 **'부분적 재중앙화 (Partial Recentralization)'**라고 부릅니다. 쉽게 말해, **"답을 너무 한곳에만 쏠리게 하지 않고, 상위 몇 개에 균형을 맞춰서 생각하게 만드는 기술"**입니다.

3. 연구 결과: 얼마나 효과적일까?

연구자들은 이 새로운 규칙으로 AI 를 다시 훈련시켰습니다. (이를 '파인튜닝'이라고 합니다.)

  • 결과: 기존에 약했던 AI 가 속임수 공격에 훨씬 잘 견디게 되었습니다.
  • 의미: 마치 약한 슈퍼 히어로가 새로운 방어 기술을 배워서, 적의 속임수 공격에도 여전히 제 역할을 하게 된 것과 같습니다.

4. 앞으로의 과제

물론 아직 완벽하지는 않습니다. 연구자들은 다음과 같은 것들을 더 연구해야 한다고 말합니다.

  • 다양성: AI 가 너무 경직되지 않고 다양한 답을 내놓을 수 있을까?
  • 일반화: 새로운 상황에서도 잘 작동할까?
  • 트레이드오프: "방어는 잘하지만, 원래 성능 (정확도) 이 떨어지지는 않을까?" 하는 균형 문제.

요약

이 논문은 **"AI 가 속임수에 넘어가지 않도록, 정답을 고를 때 '하나만 믿지 말고 상위 몇 개를 함께 고려하라'는 새로운 학습 규칙을 만들어냈다"**는 내용입니다. 이 규칙 덕분에 AI 는 더 튼튼해졌으며, 앞으로는 이 기술이 더 발전하여 실생활에서도 안전하게 쓰이기를 기대하고 있습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →