We'll Fix it in Post: Improving Text-to-Video Generation with Neuro-Symbolic Feedback

Each language version is independently generated for its own context, not a direct translation.

🎬 핵심 비유: "완벽한 영화 촬영, 하지만 감독은 못 믿고 편집자가 고쳐준다"

상상해 보세요. 당신이 "산책하는 강아지가 공원에 도착해서 멈추고, 그다음에 주인이 간식을 준다"라는 대본을 AI 에게 주었습니다. 그런데 AI 가 만든 영상을 보니, 강아지가 공원에 도착하기 전에 주인이 간식을 주는 어이없는 상황이 벌어졌습니다.

기존의 AI 는 이 실수를 고치려면 다시 처음부터 훈련을 시켜야 하거나, 아예 영상을 다시 만들어야 했습니다. 하지만 이 논문은 **"아니야, 그냥 편집실에서 그 부분만 잘라내고 다시 찍으면 돼!"**라고 말합니다. 이것이 바로 NeuS-E의 핵심 아이디어입니다.

1. 문제점: AI 는 "시간"을 잘 못 이해해요

요즘 AI 는 그림을 그리는 능력은 뛰어나지만, 시간의 순서를 이해하는 데는 약점이 있습니다.

예시: "차량이 멈추고, 보행자가 건너고, 그다음 차가 출발한다."
AI 의 실수: 차가 출발한 다음에 보행자가 건너거나, 아예 보행자가 없는 채로 차가 출발하는 등 논리적 순서가 뒤죽박죽이 됩니다.

2. 해결책: NeuS-E (신경 - 기호학적 피드백)

이 시스템은 AI 가 만든 영상을 수학적인 논리로 분석해서 "어디가 틀렸는지" 찾아낸 뒤, 그 부분만 수술하듯 고칩니다.

🕵️‍♂️ 단계 1: "수사팀"이 영상을 분석하다 (진단)

AI 가 만든 영상을 보고, "강아지가 공원에 도착했는가?", "간식이 주어졌는가?" 같은 작은 사실들 (명제) 을 하나하나 확인합니다.

마치 수사팀이 사건 현장 (영상) 을 돌아다니며 "여기서 강아지가 멈췄어야 하는데 멈추지 않았네?"라고 지적하는 것과 같습니다.
이때 AI 가 가장 많이 실수한 부분 (가장 약한 고리) 을 찾아냅니다.

🎯 단계 2: "수술대"에 올린 영상 (타겟팅)

전체 영상을 다시 찍는 게 아니라, 틀린 부분만 잘라냅니다.

예: "강아지가 공원에 도착하는 장면"이 잘못 나왔다면, 그 장면 바로 앞까지 자르고, 그 부분만 다시 찍어서 이어붙입니다.
이를 통해 불필요한 시간과 비용을 아끼면서도 정확한 순서를 맞춥니다.

🛠️ 단계 3: "지시문"을 주고 다시 찍기 (수정)

잘라낸 부분에 대해 AI 에게 **"이제 강아지가 공원에 도착해서 멈춰라"**라고 구체적인 지시 (프롬프트) 를 다시 줍니다. AI 는 이 지시를 받아 그 부분만 다시 생성합니다.

3. 왜 이것이 획기적인가요? (0 번 훈련)

기존 방식: AI 의 뇌 (모델) 자체를 고치려면 엄청난 컴퓨터 자원과 시간이 걸립니다. (마치 영화 배우 전체를 다시 교육시키는 것)
NeuS-E 방식: AI 는 그대로 두고, **편집자 (NeuS-E)**가 실수를 찾아내서 고칩니다. (마치 배우는 그대로 두고, 편집자가 컷을 잘라내어 순서를 맞추는 것)
장점: 어떤 최신 AI 모델 (Gen-3, Pika 등) 이든 훈련 없이 바로 적용할 수 있습니다.

4. 실제 효과: "40% 더 똑똑해졌다"

실험 결과, 이 방법을 쓰니 AI 가 만든 영상의 시간적 일관성 (순서) 이 약 40% 나 향상되었습니다.

사람들의 반응: 실험에 참여한 사람들은 "수정된 영상이 훨씬 논리적이고 자연스럽다"고 평가했습니다.
화질은? 순서만 고쳤을 뿐, 영상의 화질이나 미적 요소는 거의 떨어지지 않았습니다.

📝 한 줄 요약

"AI 가 만든 영상의 시간 순서 실수를, 전체를 다시 만들지 않고 '수술'하듯精准하게 고쳐주는 똑똑한 편집자 (NeuS-E) 가 나타났다!"

이 기술은 앞으로 우리가 AI 로부터 더 복잡하고 논리적인 영상을 얻을 수 있게 해주는 중요한 발걸음이 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

현재 텍스트 - 비디오 (T2V) 생성 모델 (예: Sora, Gen-3, Pika 등) 은 텍스트 프롬프트에서 일관된 비디오를 생성하는 능력이 크게 향상되었으나, 다음과 같은 한계가 존재합니다.

복잡한 프롬프트에서의 실패: 여러 객체나 순차적인 사건이 포함된 길고 복잡한 프롬프트를 처리할 때, 의미론적 (semantic) 및 시간적 (temporal) 일관성이 떨어집니다. 예를 들어, "보행자가 길을 건너고 난 후 차량이 출발한다"는 프롬프트에서 차량이 보행자가 건너기 전에 출발하거나, 보행자가 사라지지 않는 등의 오류가 발생합니다.
학습 비용의 문제: 이러한 오류를 수정하기 위해 모델을 직접 재학습 (fine-tuning) 하거나 아키텍처를 변경하는 것은 막대한 계산 비용이 들고, 모델 가중치를 접근할 수 없는 폐쇄형 (Proprietary) 모델 (Gen-3, Pika 등) 에는 적용이 불가능합니다.
기존 평가 지표의 한계: 기존 벤치마크 (VBench 등) 는 주로 시각적 미학이나 객체 일관성에 초점을 맞추어, 논리적인 사건 순서의 오류를 포착하지 못합니다.

2. 제안 방법: NeuS-E (Methodology)

저자들은 NeuS-E라는 제로 트레이닝 (Zero-training) 비디오 정제 파이프라인을 제안합니다. 이 방법은 생성된 비디오를 수정하기 위해 모델을 재학습시키지 않고, 신경 - 심볼릭 (Neuro-symbolic) 피드백을 활용하여 시간적 불일치를 국소적으로 수정합니다.

핵심 단계

프롬프트 분해 및 표현 (Decompose & Represent):
- 입력된 텍스트 프롬프트를 LLM 을 통해 시간 논리 (Temporal Logic, TL) 명세 ( $\Phi$ ) 와 원자적 명제 (Propositions, $P$ ) 집합으로 변환합니다.
- 예: (사람이 명상 중) ∧ (호수) X (사람이 일어섬) X (사람이 떠남)
비디오 오토마타 구축 및 검증 (Video Verification):
- 생성된 비디오의 각 프레임에 대해 VLM(Vision Language Model, 예: InternVL2.5) 을 사용하여 각 명제의 존재 여부를 확률 (신뢰도) 로 계산합니다.
- 이를 기반으로 비디오 오토마타 (Video Automaton) 를 구축하고, 확률적 모델 체킹 (Probabilistic Model Checking, STORM 도구 사용) 을 통해 생성된 비디오가 TL 명세를 만족할 확률 ( $P[\mathcal{A}_V \models \Phi]$ ) 을 계산합니다.
가장 약한 명제 및 영향 구간 식별 (Error Identification):
- 가장 약한 명제 (Weakest Proposition) 찾기: 각 명제가 완벽하게 만족된다고 가정했을 때 전체 만족도가 가장 크게 향상되는 명제를 식별합니다. 이는 비디오가 프롬프트를 위반하는 주요 원인을 찾습니다.
- 영향 받는 프레임 국소화 (Localization): 해당 약한 명제가 가장 크게 영향을 미치는 특정 프레임 (Keyframe) 을 찾습니다. 이는 시간적 논리 위반이 발생하는 정확한 시점을 파악합니다.
표적 정제 (Targeted Refinement):
- 식별된 문제 프레임까지 비디오를 자릅니다 (Trimming).
- LLM 을 사용하여 "약한 명제"를 해결하기 위한 새로운 편집 지시 (Edit Instruction) 와 프롬프트를 생성합니다.
- 자른 프레임 (Keyframe) 을 편집하고, 이를 기반으로 T2V 모델을 사용하여 비디오의 나머지 부분만 재생성합니다.
- 이 과정을 만족도 임계값을 달성하거나 최대 반복 횟수에 도달할 때까지 반복합니다.

3. 주요 기여 (Key Contributions)

제로 트레이닝 정제 파이프라인: 모델 가중치 수정 없이, 생성된 비디오의 시간적 논리 오류를 자동으로 진단하고 수정하는 첫 번째 프레임워크를 제시했습니다.
신경 - 심볼릭 피드백 루프: VLM(신경망) 의 시각적 인식 능력과 시간 논리 (심볼릭) 의 형식적 검증을 결합하여, "어디서 (Which frame)" 그리고 "왜 (Which proposition)" 오류가 발생했는지 정밀하게 진단합니다.
폐쇄형 모델 지원: 모델 가중치를 알 수 없는 Gen-3, Pika 와 같은 최신 폐쇄형 모델에도 적용 가능하여, 실제 산업 적용 가능성을 입증했습니다.
국소적 재생성: 비디오 전체를 다시 생성하는 것이 아니라, 오류가 발생한 구간만 선택적으로 재생성하여 계산 효율성을 높였습니다.

4. 실험 결과 (Results)

저자들은 오픈소스 (CogVideoX-5B) 와 폐쇄형 (Gen-3, Pika-2.2) 모델을 대상으로 실험을 수행했습니다.

시간적 정합성 향상 (NeuS-V Score):
- NeuS-E 를 적용한 결과, 모든 모델에서 시간적 정합성 점수 (NeuS-V Score) 가 크게 향상되었습니다.
- 특히 Pika-2.2는 약 40% 이상의 점수 향상을 보였으며, 복잡한 프롬프트 (Advanced complexity) 일수록 개선 폭이 컸습니다.
시각적 품질 유지 (VBench):
- 시간적 일관성을 개선하는 과정에서 시각적 품질 (VBench 점수) 은 거의 감소하지 않았습니다 (약 -0.017 정도의 미세한 감소). 이는 편집이 비디오의 미학적 품질을 해치지 않음을 의미합니다.
인간 평가:
- 블라인드 A/B 테스트에서 편집된 비디오가 원본보다 프롬프트와 더 잘 일치한다는 평가가 **52%**에서 이루어졌습니다.
비교 실험 (Ablation Study):
- 단순한 프롬프트 재작성 (Step-by-Step Generation) 과 비교했을 때, NeuS-E 의 신경 - 심볼릭 진단 기반 접근법이 훨씬 더 효과적임을 입증했습니다. 단순 반복 생성은 시간적 오류를 수정하지 못하거나 불필요한 콘텐츠를 생성하는 경향이 있었습니다.

5. 의의 및 결론 (Significance)

패러다임 전환: T2V 생성의 품질 향상을 위해 모델을 다시 학습시키는 대신, 생성된 결과물에 대한 형식적 검증 (Formal Verification) 을 통해 피드백을 주고 수정하는 새로운 접근법을 제시했습니다.
실용성: 계산 비용이 적게 들고, 어떤 T2V 모델 (블랙박스 포함) 에나 적용 가능하여 현재 빠르게 발전하는 T2V 생태계에서 즉시 활용 가능한 솔루션입니다.
향후 방향: 시간적 논리 오류를 해결하는 데 특화된 이 방법은, 향후 더 긴 시간 범위의 비디오 생성 (Long-horizon generation) 과 복잡한 서사 구조를 가진 콘텐츠 생성의 핵심 기술로 자리 잡을 것으로 기대됩니다.

요약하자면, NeuS-E는 "생성 후 수정 (Fix it in Post)"의 개념을 신경 - 심볼릭 시스템에 도입하여, 복잡한 시간적 제약을 가진 텍스트 - 비디오 생성의 핵심 병목 현상을 해결하는 획기적인 방법론입니다.