Each language version is independently generated for its own context, not a direct translation.

FORCE: AI 를 속이는 '보이지 않는 그림'을 만드는 새로운 방법

이 논문은 **멀티모달 대형 언어 모델 (MLLM)**이라는 똑똑한 AI 들을 어떻게 하면 더 안전하게 만들 수 있는지, 그리고 반대로 그 AI 들의 약점을 어떻게 찾아낼 수 있는지 연구한 내용입니다.

핵심 주제는 **"AI 를 속이는 '보이지 않는 그림' (시각적 해킹) 이 다른 AI 모델에게도 통할까?"**라는 질문에서 시작합니다.

1. 문제 상황: "내 친구는 속였는데, 너는 안 속아?"

상상해 보세요. 어떤 AI 가 "폭탄 만드는 법"을 알려달라는 나쁜 질문을 받으면, 보통은 "안 됩니다"라고 거절합니다. 하지만 연구자들은 아주 미세하게 픽셀을 바꾼 **보이지 않는 그림 (교란 이미지)**을 함께 보여주면, AI 가 "네, 여기 단계별로 알려드릴게요"라고 나쁜 답변을 해버린다는 걸 발견했습니다.

하지만 여기서 큰 문제가 생겼습니다.

A 모델을 속이는 그림을 만들면, B 모델이나 C 모델에게는 전혀 통하지 않습니다.
마치 A 친구에게는 통하는 농담이 B 친구에게는 전혀 웃기지 않는 것과 같습니다.

이론적으로는 "AI 를 해킹하는 방법"을 찾아내야 하지만, 현재 기술로는 한 AI 만 속일 수 있고, 다른 AI 에게는 효과가 없어 실제 위험을 평가하는 데 한계가 있었습니다.

2. 왜 그럴까? (원인 분석)

연구자들은 왜 그런지 파헤쳐 보니, 두 가지 놀라운 사실을 발견했습니다.

① 너무 좁은 길만 걷고 있었어요 (레이어 의존성)

AI 는 그림을 볼 때 여러 단계 (레이어) 를 거쳐 이해합니다.

초기 단계: AI 는 그림의 아주 세부적인 부분 (모델만의 고유한 특징) 에 너무 집착합니다. 마치 어떤 특정 사람만 아는 암호를 외운 것처럼요.
후기 단계: AI 는 그림의 큰 의미 (사실, 내용) 를 이해합니다.
문제점: 기존 해킹 방법은 **초기 단계의 '모델 전용 암호'**만 이용했습니다. 그래서 그 암호를 가진 AI 는 속지만, 다른 AI 는 그 암호를 몰라서 속지 않는 것입니다.

② 소음에 너무 민감했어요 (주파수 의존성)

그림을 주파수 (고주파/저주파) 로 분석해 보니, 해킹된 그림은 의미 없는 고주파 노이즈에 너무 의존하고 있었습니다.

저주파: 그림의 실제 내용 (예: 폭탄, 사람, 배경) 을 담고 있습니다.
고주파: 아주 미세한 점이나 잡음입니다.
문제점: 해킹된 그림은 의미 없는 잡음을 너무 많이 섞어서 AI 를 혼란스럽게 만들었습니다. 이 잡음은 AI 모델마다 반응이 달라서, 다른 모델로 옮기면 효과가 사라집니다.

3. 해결책: FORCE (과도한 의존성 교정)

이 문제를 해결하기 위해 연구팀은 FORCE라는 새로운 방법을 제안했습니다. 이름 그대로 "과도한 의존성을 바로잡는다"는 뜻입니다.

🛠️ FORCE 의 두 가지 전략

넓은 길로 안내하기 (레이어 교정)
- 비유: 좁은 골목길 (모델 전용 암호) 을 걷지 말고, 넓은 대로를 걷게 하는 것입니다.
- 방법: AI 가 그림을 볼 때, 초기 단계에서도 세부적인 암호보다는 의미 있는 넓은 영역을 보도록 훈련시킵니다. 그래야 다른 AI 모델에게도 그 그림이 "위험하다"는 신호로 전달됩니다.
잡음 줄이기 (주파수 교정)
- 비유: 노래를 들을 때, **가사 (의미)**를 잘 들을 수 있도록 **잡음 (고주파)**을 줄여주는 것입니다.
- 방법: 해킹된 그림에서 의미 없는 고주파 잡음의 영향을 줄이고, **실제 내용 (저주파)**이 더 중요하게 작용하도록 조절합니다. 이렇게 하면 AI 모델이 "그림의 내용" 자체에 반응하게 되어, 어떤 모델이든 같은 반응을 보이게 됩니다.

4. 결과: 이제 모든 AI 를 한 번에 테스트할 수 있어요!

이 FORCE 방법을 적용한 결과:

전달성 향상: 한 AI 모델에서 만든 해킹 그림이 다른 AI 모델 (심지어 상용 모델인 GPT-5, Claude 등) 에도 효과적으로 통하게 되었습니다.
실제 적용: 이제 연구자들은 하나의 해킹 그림으로 다양한 AI 의 안전 장치를 테스트할 수 있게 되어, 더 안전한 AI 를 만드는 데 큰 도움을 줄 수 있게 되었습니다.

📝 한 줄 요약

기존의 AI 해킹 그림은 "특정 모델만의 암호"를 너무 많이 써서 다른 모델에게 통하지 않았는데, FORCE 는 그 암호를 버리고 "모든 AI 가 이해할 수 있는 의미 있는 내용"에 집중하게 만들어, 한 번의 해킹으로 모든 AI 의 약점을 찾아낼 수 있게 했습니다.

이 연구는 AI 가 얼마나 안전한지, 그리고 우리가 얼마나 위험에 노출되어 있는지를 더 정확하게 평가하는 새로운 기준을 제시했다는 점에서 매우 중요합니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경:
멀티모달 대규모 언어 모델 (MLLM) 은 텍스트뿐만 아니라 이미지 등 새로운 모달리티를 통합하여 성능을 향상시켰으나, 이로 인해 새로운 취약점이 발생했습니다. 특히, 텍스트 기반의 정교한 공격 (Jailbreaking) 에 비해 단순한 시각적 공격 (Visual Jailbreaking) 이 오픈소스 MLLM 을 우회하는 데 더 효과적임이 밝혀졌습니다.

핵심 문제:
기존의 최적화 기반 시각적 공격 (예: PGD) 은 소스 모델 (Source Model) 에서는 높은 성공률을 보이지만, 타겟 모델 (Target Model) 로의 전이성 (Transferability) 이 극도로 낮습니다.

현상: 소스 모델에서 생성된 공격 이미지는 다른 모델 (특히 상용 폐쇄형 모델) 에서는 거의 작동하지 않습니다.
원인: 기존 연구는 이를 설명하지 못했습니다. 본 논문은 이 현상의 근본 원인을 손실 지형 (Loss Landscape) 의 높은 날카로움 (High Sharpness) 과 모델 특이적 특징 (Model-specific Features) 에 대한 과도한 의존 에서 찾았습니다.

2. 방법론 (Methodology)

저자들은 시각적 잭브레이킹 공격이 왜 전이성이 낮은지 분석하고, 이를 해결하기 위해 FORCE (Feature Over-Reliance CorrEction) 라는 새로운 방법을 제안했습니다.

A. 원인 분석 (Analysis)

손실 지형의 날카로움 (Sharpness):
- 생성된 공격은 소스 모델의 손실 함수에서 매우 날카로운 지역 (High-sharpness region) 에 위치합니다.
- 이는 모델 파라미터가 미세하게 변하거나 (모델 간 차이), 입력에 작은 노이즈가 추가되어도 공격이 실패하게 만듭니다.
레이어별 특징 의존성 (Layer-wise Dependency):
- 초기 레이어 (Early Layers): 공격이 모델의 특정 특징에 과도하게 의존하여, 특징 공간에서의 유효 영역 (Feasible Region) 이 매우 좁고 파편화되어 있습니다.
- 후기 레이어 (Later Layers): 상대적으로 넓은 유효 영역을 보이지만, 초기 레이어의 취약한 의존성이 전체 공격의 전이성을 제한합니다.
주파수 영역 의존성 (Spectral Dependency):
- 최적화 과정에서 공격은 의미 있는 저주파 성분 (Low-frequency) 보다 의미가 없는 고주파 성분 (High-frequency) 에 과도하게 의존하게 됩니다.
- 고주파 성분은 모델에 특화된 패턴일 뿐 일반화되지 못하므로, 다른 모델로 전이 시 공격 효과가 급격히 떨어집니다.

B. FORCE 방법론 (Proposed Method)

위와 같은 "과도한 의존 (Over-Reliance)"을 교정하기 위해 두 가지 핵심 기법을 결합합니다.

레이어 인식 정규화 (Layer-aware Regularization):
- 목적: 초기 레이어의 특징 의존성을 줄이고, 공격이 모델 전체에 걸쳐 더 넓은 유효 영역을 탐색하도록 유도합니다.
- 구현: 시각적 공격 이미지의 주변에 무작위 노이즈를 추가한 참조 샘플 (Reference samples) 을 생성합니다.
- 손실 함수: 참조 샘플과 원본 공격 이미지 사이의 레이어별 특징 (Feature) 거리를 최대화하면서, 동시에 참조 샘플도 성공적인 잭브레이킹을 하도록 손실을 최소화합니다.
- 전략: 초기 레이어일수록 정규화 강도 ( $\lambda_l$ ) 를 높여, 초기 레이어의 모델 특이적 의존을 강력하게 억제합니다.
주파수 재스케일링 (Spectral Rescaling):
- 목적: 의미 없는 고주파 성분의 과도한 영향을 억제하고, 자연스러운 이미지 분포 (저주파 중심) 로 되돌립니다.
- 구현: 푸리에 변환 (Fourier Transform) 을 통해 이미지를 주파수 대역으로 분할합니다.
- 전략: 고주파 대역의 영향력이 인접한 저주파 대역보다 과도하게 커지면, 해당 고주파 성분의 가중치를 축소 ( $\beta$ ) 합니다. 이는 공격이 의미 있는 콘텐츠에 기반하도록 강제합니다.

알고리즘 흐름:
기존 PGD (Projected Gradient Descent) 알고리즘에 위 두 가지 요소를 통합합니다. 먼저 주파수 재스케일링을 적용한 후, 레이어 인식 정규화를 통해 그래디언드를 업데이트하여 더 평탄한 (Flatter) 손실 지형을 가진 공격을 생성합니다.

3. 주요 기여 (Key Contributions)

현상 규명: 시각적 잭브레이킹 공격이 모델 특이적 특징 (초기 레이어 및 고주파 성분) 에 의존하여 날카로운 손실 지형에 갇히기 때문에 전이성이 낮다는 것을 이론적, 실험적으로 증명했습니다.
새로운 방법론 제안 (FORCE): 레이어 공간과 주파수 영역의 잘못된 의존성을 교정하여, 모델 간 전이성이 향상된 평탄한 손실 지형을 탐색하는 방법을 최초로 제안했습니다.
광범위한 실험 검증: 다양한 아키텍처 (Adapter-based, Early-fusion) 와 상용 폐쇄형 모델 (Claude, Gemini, GPT-5 등) 에 대한 실험을 통해, 제안된 방법이 기존 방법 대비 공격 성공률 (ASR) 을 크게 향상시키고 쿼리 비용을 줄였음을 입증했습니다.

4. 실험 결과 (Results)

전이성 향상:
- Adapter-based MLLM: 평균 ASR(공격 성공률) 이 약 12% 향상되었고, 공격 성공에 필요한 쿼리 수는 15% 이상 감소했습니다.
- Early-fusion MLLM: 기존 PGD 는 93% 실패율을 보였으나, FORCE 는 ASR 을 약 100% 향상시켰습니다.
- 상용 모델 (Commercial MLLMs): Claude-Sonnet-4, Gemini-2.5-Pro, GPT-5 등 최신 상용 모델에서도 일관된 성능 향상을 보였습니다 (평균 70% 상대적 개선).
제로샷 (Zero-shot) 및 단일 쿼리 성능:
- 추가적인 쿼리 없이 한 번의 공격으로 타겟 모델을 우회하는 능력 (Zero-shot transferability) 에서도 기존 방법 대비 월등히 우수한 성능을 기록했습니다.
컴포넌트 분석 (Ablation Study):
- 레이어 정규화와 주파수 재스케일링 각각이 전이성을 개선하는 데 기여하며, 두 기법을 결합했을 때 시너지 효과가 발생하여 전체 성능이 20.6% 향상됨을 확인했습니다.
생성 비용:
- 추가적인 메모리 오버헤드는 미미하며, 병렬 처리가 가능하여 계산 비용이 크게 증가하지 않습니다.

5. 의의 및 결론 (Significance)

실용적인 레드팀 평가: 이 연구는 폐쇄형 상용 MLLM 의 취약점을 평가하는 데 있어, 단일 모델에서 생성된 공격을 다른 모델에 적용할 수 있는 실용적인 시각적 레드팀 (Visual Red-teaming) 도구 를 제공합니다.
안전성 강화: MLLM 이 시각적 모달리티를 통해 우회될 수 있는 새로운 취약점을 규명함으로써, 향후 더 강력한 안전 장치 (Alignment) 개발의 필요성을 강조합니다.
이론적 통찰: 최적화 기반 공격이 왜 전이성이 낮은지에 대한 근본적인 원인 (특징 의존성과 손실 지형의 날카로움) 을 규명하여, 향후 적대적 공격 및 방어 연구에 중요한 기초를 마련했습니다.

요약하자면, FORCE는 시각적 공격이 특정 모델의 세부적인 특징에 의존하지 않고, 보다 일반화되고 의미 있는 특징에 기반하도록 유도함으로써, 다양한 MLLM 에 걸쳐 효과적인 잭브레이킹 공격을 가능하게 하는 획기적인 방법론입니다.

FORCE: Transferable Visual Jailbreaking Attacks via Feature Over-Reliance CorrEction

FORCE: AI 를 속이는 '보이지 않는 그림'을 만드는 새로운 방법

1. 문제 상황: "내 친구는 속였는데, 너는 안 속아?"

2. 왜 그럴까? (원인 분석)

① 너무 좁은 길만 걷고 있었어요 (레이어 의존성)

② 소음에 너무 민감했어요 (주파수 의존성)

3. 해결책: FORCE (과도한 의존성 교정)

🛠️ FORCE 의 두 가지 전략

4. 결과: 이제 모든 AI 를 한 번에 테스트할 수 있어요!

📝 한 줄 요약

1. 연구 배경 및 문제 정의 (Problem)

2. 방법론 (Methodology)

A. 원인 분석 (Analysis)

B. FORCE 방법론 (Proposed Method)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

A Benchmark of Classical and Deep Learning Models for Agricultural Commodity Price Forecasting on A Novel Bangladeshi Market Price Dataset

Probabilistic Language Tries: A Unified Framework for Compression, Decision Policies, and Execution Reuse

FLeX: Fourier-based Low-rank EXpansion for multilingual transfer

Spectral Edge Dynamics Reveal Functional Modes of Learning

S3S^3S3: Stratified Scaling Search for Test-Time in Diffusion Language Models

$S^3$ : Stratified Scaling Search for Test-Time in Diffusion Language Models