Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection

Each language version is independently generated for its own context, not a direct translation.

🎬 1. 문제: "명품 카메라는 있지만, 낯선 사건을 못 알아보는 경비원"

우리가 감시 카메라를 설치할 때, 보통은 수천 시간의 학습 데이터를 주고 "이건 폭행이야, 저건 절도야"라고 가르쳐야 합니다. 하지만 이 방법은 시간도, 돈도, 데이터도 너무 많이 듭니다.

최근에는 **거대 언어 모델 (MLLM)**이라는 '만능 천재 AI'를 활용하려는 시도가 있었습니다. 이 천재 AI 는 이미 인터넷의 모든 지식을 가지고 태어났기 때문에, 따로 가르치지 않아도 (Fine-tuning 없이) 비디오를 보고 "여기 이상한 게 있네?"라고 말해줄 수 있습니다.

하지만 여기서 큰 문제가 생깁니다.
이 천재 AI 는 **일상적인 것 (평범한 사람, 차, 길)**에 대해 아주 잘 알고 있지만, **드물고 이상한 사건 (폭력, 화재, 사고)**에 대해서는 약합니다.

비유: 이 AI 는 마치 유명 호텔에 근무하는 고급 경비원과 같습니다. 그는 손님의 정중한 인사나 평범한 대화는 완벽하게 이해하지만, 갑자기 누군가 총을 꺼내거나 싸움을 시작하는 '비상 상황'을 보면, "아, 이건 평소와 다른데... 하지만 내가 배운 책에는 없으니 그냥 지나가야지?"라고 생각하며 무시해버립니다.

🧭 2. 해결책: "지도를 다시 그리는 나침반 (SteerVAD)"

저자들은 이 천재 AI 를 다시 가르치는 대신, **AI 의 내부 사고방식을 살짝만 '조정 (Steer)'**하면 된다고 생각했습니다. 이것이 바로 SteerVAD의 핵심 아이디어입니다.

이 방법은 크게 두 단계로 이루어집니다.

1 단계: "천재 경비원 중 누가 '비상'에 가장 민감한가?" (RSA & LAE)

AI 는 수많은 '주목 헤드 (Attention Heads)'라는 작은 뇌 세포들로 이루어져 있습니다. 그중에서 평범한 상황과 비정상적인 상황을 가장 잘 구분해내는 4~5 개의 특정 뇌 세포를 찾아냅니다.

비유: 호텔 경비원 100 명 중, 오직 4 명만 "아, 저 사람은 총을 들고 있군! 위험해!"라고 눈치채는 '특수 요원 (Latent Anomaly Experts, LAE)'을 찾아내는 것입니다. 나머지 96 명은 그냥 평범한 경비원이니 건드리지 않습니다.

2 단계: "특수 요원에게 신호를 보내고 방향을 틀다" (HMC & Manifold Rectification)

찾아낸 특수 요원들에게만 **"지금 비상 상황일 수 있으니, 평소보다 더 예민하게 반응해!"**라고 신호를 보냅니다.

비유: 경비원장 (Hierarchical Meta-Controller) 이 특수 요원 4 명에게 **"지금 상황은 평범한 손님들이 아니라, 위험한 사건일 수 있으니 눈을 크게 뜨고 '폭력'이나 '화재' 같은 키워드에 집중해!"**라고 지시합니다.
이때 AI 의 내부 데이터 구조 (매니폴드) 를 기하학적으로 살짝 늘리고 구부려서, '정상'과 '비정상'이 서로 겹치지 않고 명확하게 떨어지도록 만듭니다. 마치 지도에서 '정상 구역'과 '위험 구역'을 서로 멀리 떨어뜨려서 구별하기 쉽게 만드는 것과 같습니다.

🚀 3. 왜 이 방법이 특별한가요?

데이터가 거의 필요 없습니다: 기존 방법은 AI 를 완전히 다시 가르치려면 수천 장의 사진이 필요했지만, 이 방법은 **학습 데이터의 1% (약 16 개의 비디오)**만 있으면 됩니다.
- 비유: 새로운 경비원을 채용해서 1 년 동안 훈련시키는 대신, 기존에 있는 최고의 경비원 4 명에게 1 시간짜리 짧은 매뉴얼만 주고 바로 투입하는 것과 같습니다.
비용이 거의 들지 않습니다: 거대한 AI 모델의 무게를 그대로 유지하면서, 아주 작은 부분만 수정합니다.
- 비유: 거대한 유람선 (AI 모델) 의 엔진을 갈아끼우는 대신, 나침반의 바늘만 살짝 조정해서 방향을 바꾸는 것과 같습니다.
정확도가 놀랍습니다: 실험 결과, 이 방법은 기존에 많은 데이터를 가지고 훈련시킨 방법들과 거의 비슷하거나 더 좋은 성능을 보여주었습니다.

📝 4. 결론: "AI 를 조종하는 새로운 예술"

이 논문은 **"AI 를 완전히 다시 가르칠 필요는 없다. 다만, AI 가 가진 숨겨진 능력을 찾아내고, 필요한 순간에 그 능력을 '조종 (Steer)'하여 올바른 방향으로 이끌면 된다"**는 것을 증명했습니다.

한 줄 요약:

"거대하고 똑똑하지만 비상 상황에 둔감한 AI 경비원에게, 1% 의 데이터로 '특수 요원'만 골라내어 비상 신호를 보내면, 그 즉시 최고의 감시 시스템이 된다!"

이 기술은 앞으로 스마트 시티, 공장 안전, 자율 주행 등 다양한 분야에서 AI 를 저렴하고 빠르게 적용할 수 있는 새로운 길을 열어줄 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

비디오 이상 탐지 (Video Anomaly Detection, VAD) 는 감시, 산업 품질 관리, 자율 시스템 등 다양한 분야에서 중요한 과제입니다. 기존 VAD 방법론은 다음과 같은 한계를 가지고 있습니다:

고비용 및 데이터 의존성: 기존 supervised 또는 unsupervised 방법들은 대규모 레이블 데이터와 전 모델 학습 (Full Training) 을 필요로 하여 계산 비용과 주석 비용이 매우 높습니다.
기존 MLLM 기반 방법의 한계: 최근 연구들은 파인튜닝 없이 (Tuning-free) 고정된 (Frozen) 멀티모달 대규모 언어 모델 (MLLM) 을 활용하려는 시도를 했습니다. 그러나 이러한 방법들은 수동적 (Passive) 인 접근 방식에 그칩니다.
- 내재적 편향 (Inherent Bias): 웹 규모의 코퍼스로 사전 학습된 MLLM 은 일반적인 (정상적인) 패턴에 최적화되어 있어, 드물거나 미묘한 이상 (Anomaly) 에 대한 민감도가 낮습니다.
- 맥락적 모호성 (Contextual Ambiguity): 시각적으로 유사하지만 의미적으로 다른 사건을 구분하지 못하거나, 국소적 특징에만 의존하여 잘못된 판단을 내립니다.
핵심 문제: MLLM 의 내부 표현 (Representation) 이 정상과 이상 데이터의 매니폴드 (Manifold) 가 서로 겹치거나 얽혀 있어, 단순한 분류기로는 이를 분리하기 어렵다는 점입니다.

2. 방법론 (Methodology: SteerVAD)

저자들은 수동적인 특징 읽기를 넘어, 적극적인 기하학적 개입 (Active Geometric Intervention) 을 통해 고정된 MLLM 내부의 잠재 표현 매니폴드를 조정하고 교정하는 새로운 프레임워크 SteerVAD 를 제안합니다.

2.1 핵심 개념: 표현 매니폴드 (Representation Manifolds)

고차원 MLLM 특징 공간에서 특정 의미 클래스 (정상/이상) 의 표현들은 저차원의 일관된 구조인 '표현 매니폴드'를 형성합니다. SteerVAD 는 이 매니폴드 간의 기하학적 거리를 늘리고, 편향을 억제하여 분리도를 높이는 것을 목표로 합니다.

2.2 주요 구성 요소

표현 분리성 분석 (Representational Separability Analysis, RSA):
- 목적: 고정된 MLLM 내부에서 VAD 작업에 가장 적합한 '잠재 이상 전문가 (Latent Anomaly Experts, LAEs)'를 식별합니다.
- 방식: 그래디언트 없이 (Gradient-free) 각 어텐션 헤드 (Attention Head) 에 대해 Inter-to-Intra Scatter Ratio를 계산합니다. 즉, 클래스 간 거리 (Between-class) 를 최대화하고 클래스 내 밀집도 (Within-class) 를 최소화하는 헤드를 선택합니다.
- 결과: 전체 모델의 일부를 조작하지 않고, 가장 정보량이 풍부한 소수의 어텐션 헤드 (예: Top-K) 만을 대상으로 개입합니다.
계층적 메타 컨트롤러 (Hierarchical Meta-Controller, HMC):
- 역할: 식별된 LAE 들의 특징을 동적으로 조정하는 신호를 생성합니다.
- 글로벌 스크러티니 게이트 (Global Scrutiny Gate, GSG): 전체 장면의 글로벌 컨텍스트 벡터를 입력받아 '의심 점수 (Suspicion Score, $s_{global}$ )'를 출력합니다. 이는 이상 발생 확률이 높을 때 개입 강도를 조절하는 스위치 역할을 합니다.
- 로컬 게이팅 모듈 (Local Gating Module, LGM): 글로벌 컨텍스트를 기반으로 각 LAE 에 대해 고유한 조향 벡터 ( $g_i$ ) 를 생성합니다. 이는 저랭크 (Low-rank) 어댑터를 사용하여 파라미터 효율성을 높입니다.
- 이방성 매니폴드 스케일링 (Anisotropic Manifold Scaling):
  - 최종 수정 공식: $h'_i = h_i \odot (1 + s_{global} \cdot g_i)$
  - 이 연산을 통해 이상과 관련된 차원은 증폭하고, 편향이 있는 차원은 억제하여 매니폴드를 기하학적으로 재구성합니다.
이상 집계 및 스코어링:
- 수정된 특징들을 결합하여 프레임 단위의 이상 확률을 계산하고, 1D 가우시안 컨볼루션을 통해 시간적 노이즈를 제거한 최종 이상 곡선을 생성합니다.
- 필요 시, 이상으로 판별된 프레임에 대해 MLLM 에 텍스트 설명을 생성하도록 하여 해석 가능성 (Explainability) 을 제공합니다.

3. 주요 기여 (Key Contributions)

적극적 기하학적 개입 패러다임: 고정된 MLLM 에서 수동적 해석을 넘어, 잠재 표현 매니폴드를 직접 조향 (Steering) 하고 교정 (Rectifying) 하는 최초의 프레임워크를 제안했습니다.
RSA (Representational Separability Analysis): 그래디언트 기반 학습 없이 MLLM 내부의 VAD 최적 어텐션 헤드를 정밀하게 식별하는 새로운 기하학적 방법을 고안했습니다.
계층적 메타 컨트롤러 (HMC): 맥락을 인지하여 이방성 스케일링을 수행함으로써, 사전 학습 편향과 맥락적 모호성을 극복하고 클래스 표현을 동적으로 분리합니다.
데이터 효율성과 성능: 전체 학습 데이터의 1% 만으로 캘리브레이션 (Calibration) 을 수행하면서도, 파인튜닝 기반 방법들과 경쟁력 있는 성능을 달성했습니다.

4. 실험 결과 (Results)

벤치마크 성능:
- UCF-Crime: AUC 87.15% 달성 (Tuning-free 방법 중 SOTA). Holmes-VAD(전체 학습, AUC 89.51%) 와 매우 근접한 성능을 보였습니다.
- XD-Violence: AP 83.02% 달성 (Tuning-free 방법 중 SOTA).
데이터 효율성:
- 학습 데이터의 1% 만 사용하여 캘리브레이션 시간을 1 분 미만으로 단축했습니다.
- 데이터 양을 100% 로 늘려도 성능 향상은 미미 (+0.27%) 하여, 기하학적 신호가 매우 강건하게 포착됨을 증명했습니다.
시각화 및 분석:
- t-SNE 시각화를 통해 수정 전에는 겹쳐 있던 정상/이상 매니폴드가 수정 후 명확하게 분리됨을 확인했습니다.
- RSA 를 통해 선택된 어텐션 헤드는 랜덤 시드나 데이터 분할에 관계없이 일관되게 동일한 헤드를 선택하여 구조적 안정성을 입증했습니다.
일반화 능력:
- 다른 MLLM 백본 (LLaVA-OV, Qwen2.5-VL 등) 에 적용 시에도 우수한 성능을 보여 모델 독립적인 패러다임임을 증명했습니다.
- 보지 못한 (Unseen) 이상 유형에 대해서도 높은 성능을 유지했습니다.

5. 의의 및 결론 (Significance)

SteerVAD 는 비디오 이상 탐지 분야에서 비용 효율적이고 데이터 효율적인 새로운 방향을 제시합니다.

비용 절감: 대규모 MLLM 의 전 파라미터를 파인튜닝하는 데 드는 막대한 계산 자원과 레이블 데이터를 불필요하게 합니다.
해석 가능성: 단순히 점수만 출력하는 것이 아니라, 이상 발생 시 텍스트 설명을 생성하여 인간의 신뢰를 높입니다.
기술적 통찰: MLLM 의 내부 기하학적 구조 (매니폴드) 를 이해하고, 소수의 핵심 모듈 (LAEs) 만을 대상으로 정밀하게 조정하는 것이 복잡한 시각적 추론 작업에서도 효과적임을 입증했습니다.

결론적으로, 이 연구는 고정된 기초 모델 (Foundation Models) 을 특수한 다운스트림 작업에 적응시키기 위해 적극적이고 동적인 기하학적 개입이 강력한 대안이 될 수 있음을 보여줍니다.