Each language version is independently generated for its own context, not a direct translation.

🎬 비디오 LLM 을 마비시키는 '비디오 도스 (VidDoS)' 공격 설명

이 논문은 최신 기술인 **'비디오 기반 인공지능 (Video-LLM)'**을 속여서 계산 자원을 고갈시키고 반응을 멈추게 만드는 새로운 해킹 방법을 소개합니다. 마치 고속도로를 달리는 자율주행차의 뇌를 혼란스럽게 만들어, 긴급 상황에서 멈추게 만드는 것과 같습니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 배경: 인공지능의 '뇌'가 너무 바빠요

최근 자율주행차나 보안 시스템은 카메라로 보는 영상을 실시간으로 분석하고, "앞에 차가 있니?"라고 물으면 "있어요"라고 짧고 빠르게 대답하는 인공지능 (Video-LLM) 을 사용합니다.

하지만 문제는 이 인공지능이 너무 많은 정보를 처리하려다 지쳐버릴 수 있다는 점입니다.

2. 기존 해킹의 실패: "물방울을 쏟아부어도 소용없어요"

과거에는 정지된 사진 (이미지) 에 아주 미세한 노이즈를 섞어 인공지능을 혼란스럽게 만드는 방법이 있었습니다. 하지만 동영상에는 통하지 않았습니다.

비유: 만약 당신이 강물 (동영상) 에 물방울 (노이즈) 하나를 떨어뜨린다면? 강물은 그 물방울을 순식간에 희석시켜버립니다.
이유: 비디오 AI 는 영상을 볼 때 프레임 (장면) 을 빠르게 넘겨가며 핵심 내용만 추려냅니다. 한 장의 사진에 넣은 해킹 신호는 이 과정에서 사라져버려 효과가 없습니다.

3. 새로운 해킹: VidDoS (비디오 도스) 의 등장

연구진은 **"물방울"이 아니라 "강력한 빨간색 스티커"**를 붙이는 방식을 고안했습니다. 이것이 바로 VidDoS입니다.

🎯 핵심 전략 1: '보이지 않는 스티커' (Universal Patch)

비유: 동영상 화면의 구석 (예: 오른쪽 하단) 에 사람 눈에는 잘 안 보이지만, AI 에게는 아주 눈에 띄는 특수 스티커를 붙입니다.
효과: 이 스티커는 영상 내용이 무엇이든 (도로, 숲, 도시) 상관없이 붙일 수 있습니다. 마치 모든 차에 붙일 수 있는 '범용 스티커'처럼요. AI 는 이 스티커를 보고 "아! 이걸 봐야 해!"라고 집중하게 됩니다.

🎯 핵심 전략 2: "답변을 멈추지 마!" (강제 연설)

AI 는 보통 "네/아니오"처럼 짧게 대답하도록 훈련되어 있습니다. 하지만 VidDoS 는 AI 의 뇌를 속여 다음과 같이 만듭니다.

강제 시작: "이건 네가 답해야 해!"라고 강요합니다.
멈춤 금지: "아니, 대답 끝났어!"라고 말하려 하면 AI 가 "아니야, 아직 더 말할 게 있어!"라고 계속 말하게 만듭니다.
결과: AI 는 "네, 아니오" 대신 **수천 마디의 쓸모없는 말 (할루시네이션)**을 쏟아냅니다.

4. 어떤 일이 벌어질까요? (실제 피해)

이 공격이 성공하면 다음과 같은 일이 발생합니다.

말의 폭주: AI 가 보통 2 초 만에 "차 있어요"라고 대답해야 하는데, 30 분 동안 "차 있어요... 차가 있어요... 차가 있네요..."라고 계속 반복하며 말을 늘어놓습니다.
자원 고갈: AI 가 말을 멈출 수 없게 되니, 컴퓨터의 메모리와 전력을 다 써버립니다.
치명적 지연: 자율주행차가 "앞에 장애물이 있다"고 판단해야 할 때, AI 가 말을 멈추지 못해 대응이 15 배 이상 늦어집니다.
- 비유: 비상 브레이크를 밟아야 할 때, 운전자가 "잠깐, 내일 날씨 어때요? 오늘 점심 뭐 먹지?"라고 10 분간 떠들고 있다면? 충돌이 일어납니다.

5. 실험 결과: 얼마나 무서운가요?

연구진은 LLaVA, Qwen 등 최신 비디오 AI 3 종을 대상으로 실험했습니다.

토큰 (말) 폭증: 평소보다 205 배 이상 많은 말을 생성했습니다.
지연 시간: 응답 시간이 15 배 이상 늘어났습니다.
범용성: 한 번 만든 '스티커'로 다양한 동영상 (자율주행, 일반 영상) 을 모두 마비시킬 수 있었습니다.
방어 불가: AI 가 답변을 무작위로 선택하게 설정해도 (온도 조절), 이 공격은 여전히 통했습니다.

6. 결론: 우리가 알아야 할 점

이 논문은 **"AI 가 너무 똑똑해져서 오히려 약점이 생겼다"**는 것을 보여줍니다.

문제: 우리가 AI 에게 "빠르고 간결하게" 대답하라고 가르쳤는데, 해커는 그 반대로 "계속 말하게" 만들어 시스템을 마비시킵니다.
경고: 자율주행차나 긴급 구조 시스템처럼 생명이 걸린 곳에 AI 를 쓸 때는, 이런 '지연 공격'에 대한 방어책이 반드시 필요합니다.

한 줄 요약:

"비디오 AI 의 구석에 붙인 작은 스티커 하나로, AI 가 멈추지 않고 떠들게 만들어 시스템을 마비시키는 새로운 해킹 방법이 발견되었습니다. 이는 자율주행차 같은 안전 시스템에 치명적인 위협이 될 수 있습니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

비디오 기반 대규모 언어 모델 (Video-LLMs) 은 자율주행, 안전 필수 시스템 등 중요한 분야에서 빠르게 도입되고 있습니다. 그러나 이러한 모델은 **에너지 - 지연 공격 (Energy-Latency Attacks, ELAs)**에 취약합니다.

기존 한계: 기존의 이미지 중심 공격 (예: Verbose Images) 은 비디오 아키텍처의 시간적 집계 (temporal aggregation) 메커니즘 (프레임 간 평균화, 풀링 등) 으로 인해 개별 프레임의 교란 신호가 희석되어 공격이 실패합니다.
실시간 제약: 자율주행과 같은 실시간 환경에서는 매 프레임마다 그래디언트를 계산하는 인스턴스별 최적화 (instance-wise optimization) 가 불가능할 정도로 계산 비용이 높습니다.
목표: 비디오 스트림의 동적인 맥락에서도 작동하며, 추론 시 추가적인 계산 비용 없이도 모델의 자원을 고갈시켜 치명적인 지연을 유발할 수 있는 범용 (Universal) 공격 프레임워크가 필요합니다.

2. 제안 방법론: VidDoS (Methodology)

저자들은 Video-LLMs 을 대상으로 한 최초의 범용 ELA 프레임워크인 VidDoS를 제안합니다. 이 방법은 특정 비디오 콘텐츠에 의존하지 않는 **범용 교란 패치 (Universal Adversarial Trigger)**를 학습하여 실시간 스트림에 주입합니다.

핵심 구성 요소:

공간적으로 집중된 범용 패치 (Spatially Concentrated Universal Patch):
- 전체 프레임에 노이즈를 추가하는 대신, 비디오의 특정 영역 (예: 모서리) 에 **학습 가능한 치환 패치 (replacement patch)**를 삽입합니다.
- 이는 비디오 인코더의 저역 통과 필터 (low-pass filter) 효과를 우회하여 교차 모달 어텐션 (cross-modal attention) 을 강제로 특정 위치로 고정시킵니다.
- 특징: 추론 시 그래디언트 계산이 필요 없으며, 한 번 학습된 패치는 모든 비디오에 즉시 적용 가능합니다 (Train-once, Deploy-anywhere).
최적화 전략 (Joint Optimization Objectives):
VidDoS 는 모델이 간결한 답변 (예: "Yes/No") 을 하려는 선입견을 무너뜨리고, 비정상적으로 긴 생성을 유도하기 위해 세 가지 손실 함수를 결합합니다.
- 마스킹 티처 포싱 (Masked Teacher Forcing): 모델이 계산 비용이 많이 드는 특정 "스폰지 (Sponge)" 시퀀스 (반복적인 긴 텍스트) 를 생성하도록 예측 분포를 유도합니다. 초기 토큰에 높은 가중치를 두어 긴 생성 경로로 진입하게 만듭니다.
- 거부 페널티 (Refusal Penalty): 모델이 "Yes", "No"와 같은 짧은 답변이나 종료 (EOS) 토큰을 생성하는 것을 금지하는 어휘 집합에 대한 확률을 패널티로 부과합니다.
- 초기 종료 억제 (Early-Termination Suppression): 생성 시작 단계부터 EOS 토큰이 출력될 확률을 낮추어 생성이 중단되지 않도록 강제합니다.
학습 과정:
- 대리 데이터셋 (Surrogate Dataset) 에서 위 손실 함수들을 최소화하는 패치 $\delta$ 를 PGD (Projected Gradient Descent) 를 통해 오프라인으로 학습합니다.
- 학습된 패치는 실제 비디오 스트림의 각 프레임에 주입되어 실시간으로 지연을 유발합니다.

3. 주요 기여 (Key Contributions)

Video-LLMs 를 위한 최초의 범용 ELA 프레임워크: 시간적 하위 샘플링과 풀링을 우회할 수 있는 공간적으로 집중된 패치 기반 공격을 제안했습니다.
새로운 최적화 메커니즘: 마스킹 티처 포싱, 거부 페널티, 초기 종료 억제를 결합하여 미세 조정된 모델의 간결성 선입견 (conciseness priors) 을 무력화하고 무제한 생성을 유도합니다.
강력한 일반화 및 전이성: 다양한 비디오 시나리오 (자율주행, 일반 QA) 와 모델 (LLaVA-NeXT, Qwen-VL, Video-LLaVA) 에서 높은 공격 성공률을 보이며, 학습된 패치가 다른 데이터셋과 해상도에서도 효과적으로 전이됨을 입증했습니다.

4. 실험 결과 (Results)

세 가지 주요 비디오 데이터셋 (BDDX, D2-City, VideoSimpleQA) 과 세 가지 최신 Video-LLM 을 대상으로 평가했습니다.

공격 효율성:
- 토큰 확장: 청정 (Clean) 기준 대비 205 배 이상의 토큰 생성 증가를 기록했습니다 (예: Qwen3-VL 에서 2 토큰 → 394 토큰).
- 지연 시간 증가: 추론 지연 시간이 15 배 이상 증가했습니다 (예: 0.16 초 → 197.3 초).
- 기존 이미지 기반 공격 (Verbose Images, NICGSlowDown) 은 비디오 환경에서 거의 효과가 없었으나 (토큰 비율 ~1.0x), VidDoS 는 압도적인 성능을 보였습니다.
자율주행 안전성 시뮬레이션:
- 실시간 자율주행 스트림 시뮬레이션에서 VidDoS 는 누적 지연을 유발하여 **안전 임계값 (2.72 초)**을 초과하게 만들었습니다. 이는 운전자나 시스템이 위험 상황에 적시에 대응하지 못하게 하여 치명적인 안전 위반을 초래할 수 있음을 보여줍니다.
강건성 (Robustness):
- 온도 (Temperature) 변화: 높은 샘플링 온도 (T=1.5) 에서도 공격 효과가 유지되며, 오히려 지연이 약간 증가하는 경향을 보였습니다. 이는 공격이 모델의 확률적 잡음에도 강건함을 의미합니다.
- 교차 데이터셋 전이: 자율주행 데이터셋 (BDDX) 에서 학습된 패치는 다른 자율주행 데이터셋 (D2-City) 에서도 높은 성능을 보였으나, 완전히 다른 도메인 (일반 QA) 으로 전이될 때는 성능이 일부 감소했습니다.

5. 의의 및 결론 (Significance)

보안 공백의 발견: Video-LLMs 이 시간적 집계 메커니즘으로 인해 기존 이미지 공격에 강해 보이지만, 실제로는 범용 공간적 패치를 통해 매우 취약할 수 있음을 최초로 규명했습니다.
실제 위협: 이 공격은 단순한 성능 저하를 넘어, 자율주행과 같은 안전 필수 (Safety-critical) 시스템에서 실시간 응답을 마비시켜 인명 사고로 이어질 수 있는 심각한 위협임을 강조합니다.
대응 필요성: 연구진은 Video-LLMs 의 배포 시 이러한 에너지 - 지연 공격 (ELA) 에 대한 방어 메커니즘 (예: 생성 길이 제한, 어텐션 메커니즘 검증 등) 의 개발이 시급하다고 경고합니다.

요약하자면, VidDoS는 비디오 LLM 의 구조적 취약점을 악용하여, 최소한의 계산 비용으로 최대의 지연을 유발하는 획기적인 DoS 공격 기법이며, 이는 향후 멀티모달 AI 시스템의 보안 설계에 중요한 시사점을 제공합니다.

VidDoS: Universal Denial-of-Service Attack on Video-based Large Language Models