Each language version is independently generated for its own context, not a direct translation.

🎬 "MoD-DPO": 오만 (Omni) AI 가 환각을 보지 않게 만드는 '현실 확인' 방법

이 논문은 최근 등장한 '오만 (Omni) AI(텍스트, 이미지, 소리를 모두 이해하는 초대형 언어 모델) 가 겪는 치명적인 문제, 즉 **'환각 (Hallucination)'**을 해결하는 새로운 방법을 소개합니다.

AI 가 눈을 감고 귀를 막은 채, 마치 무언가를 본 것처럼 엉뚱한 소리를 지르는 상황을 상상해 보세요. 이 논문은 AI 가 "내가 지금 정말로 보고 들은 것만 믿고 말하게" 만드는 지능적인 훈련법인 MoD-DPO를 제안합니다.

🤔 왜 AI 는 환각을 볼까요? (문제 상황)

AI 는 엄청난 양의 텍스트를 공부해서 배웠기 때문에, **언어적 편향 (Language Prior)**에 매우 취약합니다. 마치 "비행기 소리가 들리면 하늘에 새가 날아다닌다고 믿는" 것과 비슷합니다.

상황: 비디오에는 물이 흐르는 소리가 나는데, 화면은 완전히 조용한 거리입니다.
기존 AI 의 반응: "네, 강물이 흐르는 게 보입니다!" (소리를 듣고 화면을 조작해 버림)
원인: AI 가 "물소리 = 물이 보인다"는 잘못된 상관관계를 학습했거나, 텍스트 데이터만 보고 대답을 지어냈기 때문입니다.

💡 MoD-DPO 란 무엇인가요? (해결책)

저자들은 **MoD-DPO (모달리티 분리 선호도 최적화)**라는 새로운 훈련 방법을 고안했습니다. 이를 쉽게 비유하자면, AI 에게 '현실 확인 (Reality Check)'을 시키는 훈련입니다.

1. 🎭 '모달리티 분리' (Modality Decoupling): 각자 역할 맡기

이 훈련의 핵심은 **"소리와 그림을 분리해서 생각하게 만드는 것"**입니다.

비유: 한 학생이 시험을 볼 때, 수학 문제를 풀고 있는데 옆에 있는 음악 CD 소리가 들린다고 칩시다.
- 기존 AI: "음악 CD 가 들리니까 이 수학 문제의 답은 '도레미'겠지!" (엉뚱한 연결)
- MoD-DPO 훈련: "음악 CD 소리를 끄거나 (교란), 수학 문제를 가려도 (교란) 답은 변하지 않아야 해. 하지만 수학 문제 자체를 가리면 답이 확 바뀌어야 해!"
- 결과: AI 는 "내가 지금 보고 있는 것 (문제) 에만 집중하고, 소란스러운 소리 (음악) 는 무시하자"는 것을 배우게 됩니다.

2. 🛡️ 두 가지 핵심 규칙

이 훈련은 AI 에게 두 가지 규칙을 강제로 주입합니다.

무관한 것은 무시하라 (Invariance):
- 질문이 "화면을 보고 답해"라면, 소리를 비틀거나 없애도 AI 의 대답은 똑같아야 합니다. (소리에 흔들리지 않는 단단한 믿음)
중요한 것은 민감하게 반응하라 (Sensitivity):
- 질문이 "화면을 보고 답해"라면, 화면을 비틀거나 없애면 AI 는 당황해서 대답을 바꿔야 합니다. (실제 증거에 민감하게 반응하는 예민함)

3. 🗣️ "텍스트만 믿지 마!" (언어 편향 제거)

AI 는 텍스트 데이터만으로도 대답을 만들어낼 수 있습니다. 하지만 MoD-DPO 는 **"소리나 그림 없이 텍스트만으로 대답하면 점수를 깎겠다"**는 벌칙을 줍니다.

비유: "눈을 감고 귀를 막고, 오직 말만 듣고 문제를 풀면 0 점이다!"라고 하면, AI 는 자연스럽게 눈과 귀 (시각/청각 데이터) 를 열심히 쓰게 됩니다.

🧪 실험 결과: 얼마나 효과가 있을까요?

저자들은 이 방법을 AVHBench와 CMM이라는 AI 환각 테스트 벤치마크에서 검증했습니다.

결과: 기존 방법 (DPO, OmniDPO 등) 보다 정확도가 훨씬 높아졌고, 엉뚱한 환각을 보일 확률은 크게 줄었습니다.
특이사항: 특히 "소리가 들리면 무조건 그림이 보인다"는 식의 잘못된 연결을 끊는 데 탁월한 효과를 보였습니다.

📝 한 줄 요약

MoD-DPO 는 AI 에게 "네가 듣고 본 것 (데이터) 이 진짜야, 네가 상상한 것 (편견) 은 아니야"라고 가르쳐주는, 현실 감각을 되찾아주는 AI 훈련법입니다.

이 기술을 통해 앞으로 우리가 AI 와 대화할 때, AI 가 "없는데 있는 것처럼" 말하거나 "들었는데 안 들은 것처럼" 하는 실수를 훨씬 덜 하게 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

MoD-DPO: 오믹 (Omni) LLM 의 교차 모달 환각 해소를 위한 모달리티 분해 선호도 최적화

이 논문은 오디오, 비디오, 텍스트를 통합적으로 처리하는 **오믹 대규모 언어 모델 (Omni LLM)**이 겪는 교차 모달 환각 (Cross-modal Hallucination) 문제를 해결하기 위해 제안된 MoD-DPO (Modality-Decoupled Direct Preference Optimization) 프레임워크에 대한 기술적 요약입니다.

1. 문제 정의 (Problem)

최근 오믹 LLM 은 오디오 - 비디오 - 언어 이해 분야에서 뛰어난 성능을 보이지만, 여전히 두 가지 주요 원인으로 인해 심각한 환각 현상에 취약합니다.

** spurrious inter-modal correlations (불필요한 모달 간 상관관계):** 모델이 시각적 단서에서 들리지 않는 소리를 듣거나, 청각적 단서에서 존재하지 않는 장면을 보게 되는 등, 실제 입력과 무관한 모달리티 간의 잘못된 연관성을 학습합니다.
언어 사전 지식 (Language Priors) 에 대한 과도한 의존: 모델이 오디오나 비디오 입력을 무시하고, 언어 모델이 가진 강력한 텍스트 기반 사전 지식 (prior) 에만 의존하여 답변을 생성합니다.

기존의 선호도 최적화 (DPO) 기반 방법들은 이러한 문제를 명시적으로 해결하지 못하거나, 모달리티 경로를 분리하지 않아 언어 편향을 완전히 제거하지 못했습니다.

2. 방법론 (Methodology)

저자들은 기존 DPO 프레임워크를 확장하여 MoD-DPO를 제안했습니다. 이 방법은 모델이 관련 없는 모달리티의 변화에는 둔감하고 (Invariance), 관련 있는 모달리티의 변화에는 민감하게 (Sensitivity) 반응하도록 학습시킵니다.

2.1. 모달리티 분해 (Modality Decoupling)

목표는 관련 없는 모달리티가 손상 (corruption) 되어도 출력이 안정적으로 유지되게 하고, 관련 모달리티가 손상되면 출력이 민감하게 변하도록 하는 것입니다. 이를 위해 DPO 목적 함수에 두 가지 KL 정규화 항을 추가합니다.

불변성 (Invariance): 질문과 무관한 모달리티 (예: 시각 질문 시 오디오) 를 손상시켰을 때, 모델의 출력 분포가 변하지 않도록 강제합니다.
민감도 (Sensitivity): 질문과 관련된 모달리티 (예: 시각 질문 시 비디오) 를 손상시켰을 때, 모델의 출력 분포가 크게 변하도록 하여 모델이 해당 정보에 의존하도록 유도합니다.

수식적으로, 최적 정책 $\pi^*_\theta$ 는 다음과 같이 유도됩니다:
$\pi^*_\theta(y | a, v, x) \propto \exp(r(a, v, x, y)) \cdot \pi_{ref}(y|x)^\beta \cdot \pi'_{\theta}(y|x_{corrupt})^{\beta_{inv}} \cdot \pi'_{\theta}(y|x_{corrupt})^{-\beta_{sens}}$
여기서 $\pi'_{\theta}$ 는 손상된 입력에 대한 고정된 타겟 분포로 간주됩니다.

2.2. 언어 사전 지식 편향 제거 (Language-Prior Debiasing, LPD)

모델이 텍스트 입력만으로 답변을 생성하는 것을 방지하기 위해 LPD 패널티를 도입합니다.

텍스트만 입력했을 때의 선택된 응답 (chosen response) 의 로그 확률을 패널티로 부과하여, 모델이 오디오/비디오 정보를 무시하고 텍스트만으로 답변하는 것을 억제합니다.
최종 보상 함수는 $r_{MoD++} = r_{MoD} + \gamma_{LPD} \cdot r_{LPD}$ 형태로 구성됩니다.

2.3. 데이터 생성 파이프라인

학습을 위해 **18,112 개의 자동 생성 선호도 데이터 (10,854 개 고유 비디오)**를 구축했습니다.

Stage 1 (분리): 오디오와 비디오를 분리하여 각각 GPT-4o 와 AudioFlamingo 3 등을 통해 캡션과 태그를 생성합니다.
Stage 2 (QA 생성): 분리된 정보를 바탕으로 객체/사건 존재 여부 (Presence) 및 캡션 생성 태스크에 대한 질문 - 답변 쌍을 생성합니다.
Stage 3 (선호도 쌍 생성):
- 선택된 응답 (Chosen): 관련 모달리티 정보를 기반으로 한 정확한 답변.
- 거부된 응답 (Rejected): 불필요한 모달리티 정보 (예: 시각 질문 시 오디오 정보) 를 포함하여 생성된 '하드 네거티브' 답변. 이는 모델이 잘못된 모달리티에 의존하지 않도록 학습시킵니다.

3. 주요 기여 (Key Contributions)

MoD-DPO 프레임워크 제안: 모달리티 분해 원리를 적용한 새로운 선호도 최적화 기법으로, 교차 모달 환각을 효과적으로 완화합니다.
자동 생성 대규모 선호도 데이터셋: 1 만 개 이상의 고유 비디오를 기반으로 한 18k 개의 자동 생성 선호도 데이터를 구축하여 학습을 지원합니다.
언어 편향 제거 메커니즘: 텍스트 기반 사전 지식에 대한 패널티 (LPD) 를 도입하여, 오디오/비디오 입력을 무시하는 현상을 방지합니다.
성능 입증: 다양한 벤치마크에서 기존 DPO 및 OmniDPO 기법보다 우수한 성능을 보였습니다.

4. 실험 결과 (Results)

저자들은 AVHBench (오디오 - 비디오 환각 벤치마크) 와 CMM (Curse of Multi-Modalities) 벤치마크에서 Qwen 2.5 Omni 및 MiniCPM-O 2.6 모델을 기반으로 실험을 수행했습니다.

AVHBench: MoD-DPO++ 은 기준 모델 (Qwen 2.5 Omni) 대비 88.19% 의 정확도를 기록하여 기존 DPO(84.39%) 및 OmniDPO(85.34%) 를 상회했습니다. 특히 오디오 - 비디오 매칭 (Audiovisual Matching) 태스크에서 약 27% 의 정확도 향상을 보였습니다.
CMM: 언어 지배적 (Language Dominance) 태스크에서 MoD-DPO++ 은 MoD-DPO 대비 유의미한 개선을 보였으며, 이는 LPD 패널티가 언어 편향을 효과적으로 줄였음을 시사합니다.
일반 성능: DailyOmni, MVBench, MMAU 등 일반 오디오/비디오 이해 태스크에서도 일관된 성능 향상을 보였습니다.
주의 집중 분석: MoD-DPO++ 을 적용한 모델은 오디오/비디오 토큰에 대한 주의 집중 (Attention) 비율이 크게 증가하여, 모델이 텍스트가 아닌 멀티모달 입력에 더 집중하게 됨을 확인했습니다.

5. 의의 및 결론 (Significance)

이 논문은 오믹 LLM 의 신뢰성을 높이기 위한 **구조화된 선호도 최적화 (Structured Preference Optimization)**의 중요성을 강조합니다.

모달리티 충실한 정렬 (Modality-faithful Alignment): 모델이 입력된 모달리티의 실제 증거에 기반하여 판단하도록 유도함으로써, 환각 현상을 근본적으로 줄일 수 있음을 입증했습니다.
확장 가능한 접근법: 복잡한 RLHF 과정 없이도 자동 생성 데이터를 통해 효율적으로 학습할 수 있는 확장 가능한 경로를 제시했습니다.
향후 영향: 이 연구는 멀티모달 파운데이션 모델이 더 견고하고 신뢰할 수 있도록 만드는 데 중요한 이정표가 될 것으로 기대됩니다.

요약하자면, MoD-DPO 는 관련 없는 모달리티의 노이즈에 강인하게 만들고, 관련 모달리티의 변화에는 민감하게 반응하도록 하며, 텍스트 편향을 억제함으로써 오믹 LLM 의 교차 모달 환각 문제를 해결하는 효과적인 솔루션입니다.

MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization