NEGATE: Constrained Semantic Guidance for Linguistic Negation in Text-to-Video Diffusion

Each language version is independently generated for its own context, not a direct translation.

🎬 1. 문제: AI 는 "아니오"를 "반대"로만 이해합니다

상상해 보세요. 당신이 AI 에게 **"태양 아래서 노는 강아지, 하지만 개는 없다"**라고 명령했다고 가정해 봅시다.

기존 AI 의 반응: AI 는 "개는 없다"는 말을 듣고 당황합니다. 그리고 "아, 개가 없으면 고양이가 있어야겠구나!"라고 생각하며 고양이를 만들어내거나, 아예 빈 땅만 보여줍니다.
왜 그럴까요? 기존 AI 는 "개"라는 개념을 지우면, 그 빈자리를 무언가로 채우거나 아예 없애버리는 식으로만 작동합니다. "개는 있는데, 개가 놀지 않는 상황"처럼 복잡한 논리를 이해하지 못합니다. 마치 "빨간색은 아니지만, 빨간색이 없는 공간"을 설명할 때 AI 가 "파란색"이라고만 생각하거나 "빈 공간"이라고만 생각하는 것과 비슷합니다.

🛠️ 2. 해결책: "제약 조건"이라는 보이지 않는 울타리

저희 연구팀은 AI 를 다시 가르치는 대신, AI 가 그림을 그리는 과정에 '규칙'을 적용했습니다.

비유: 무언가를 그리는 화가와 '규칙 책'
- 기존 AI 는 화가가 "개는 없애라"라고 하면, 캔버스 전체를 지우거나 개 대신 다른 걸 그립니다.
- 우리의 방법: 화가에게 **"개는 캔버스에 있어야 하지만, 개가 놀거나 움직이는 행동은 절대 금지야!"**라는 **보이지 않는 울타리 (제약 조건)**를 설치해 줍니다.
- AI 가 그림을 그릴 때, 이 울타리를 넘어서는 방향으로 붓을 움직이면, AI 는 자동으로 **"아, 이쪽으로는 못 가네. 울타리에 부딪혔으니 조금만 옆으로 움직여야겠다"**라고 스스로 수정합니다.

이걸 기술적인 말로 **'볼록 제약 (Convex Constraint)'**이라고 하는데, 쉽게 말해 **"AI 가 그리는 방향을 논리적으로 틀어주는 나침반"**이라고 생각하시면 됩니다.

🌟 3. 이 기술이 얼마나 대단한가요? (8 가지 상황)

이 방법은 단순히 '개'를 없애는 것뿐만 아니라, 훨씬 복잡한 상황도 해결합니다.

사물 제거 (AOC): "차 없는 고속도로" → 차는 없는데 도로와 노을은 그대로.
나중에 나타나는 금지 (LEN): "공연 시작 전, 무대에는 배우가 없다" → 무대가 비어있다가 조명만 들어와야 함. 배우가 나중에 튀어나오지 않게 막음.
함축적 금지 (INA): "자연물만 있는 풍경" → 사람이나 건물이 들어오지 않게 자동으로 막음.
중복 금지 (MNC): "학생도, 선생님도, 책도 없는 교실" → 여러 가지를 동시에 없애도 교실 구조는 유지됨.
기능적 금지 (SFN): "휴대폰을 들고 있지만, 사용하지 않는 사람" (가장 어려운 부분!) → 사람은 휴대폰을 들고 있어야 하지만, 화면을 보거나 누르는 행동은 하지 않아야 함. 기존 AI 는 아예 휴대폰을 없애버리거나, 사람이 휴대폰을 쓰게 만들었는데, 우리는 휴대폰은 있는데 쓰지 않는 상태를 정확히 구현합니다.
완전한 반대 아님 (NMI): "공격적이지 않은 개" → 개를 없애거나, 너무 순한 개로 바꾸는 게 아니라, '공격적인 기세'만 줄이는 것.
이중 부정 (DNS): "조명이 꺼지지 않은 무대" (즉, "조명이 켜진 무대") → AI 가 "꺼진 무대"를 그리지 않고, 논리적으로 "켜진 무대"를 그립니다.
범위 구분 (SND): "주의를 기울이지 않는 학생을 도와주는 선생님" → 선생님은 도와주고, 학생만 딴청을 피우는 것. AI 가 혼동하지 않고 정확히 구분합니다.

🚀 4. 결론: AI 를 다시 훈련시킬 필요 없습니다!

이 기술의 가장 큰 장점은 기존에 만들어진 AI 모델을 다시 학습시키지 않아도 된다는 점입니다.

비유: 이미 완성된 고급 자동차 (기존 AI 모델) 에 **새로운 내비게이션 (우리의 제약 알고리즘)**만 달아주는 것과 같습니다. 차 자체를 뜯어고치지 않아도, 내비게이션이 "이 길은 금지 구역이야"라고 알려주면 차가 자동으로 우회합니다.

💡 요약

이 논문은 **"AI 가 '아니오'라는 말을 단순히 '반대'나 '없음'으로만 해석하는 버릇을 고쳤다"**는 것입니다. 우리는 AI 가 그림을 그리는 순간순간마다 **"논리적인 울타리"**를 세워주어, 복잡한 문장 ("휴대폰은 들고 있지만 쓰지 않는 사람") 도 정확하게 이해하고 영상을 만들 수 있게 했습니다.

이제 AI 는 "없어지는 것"이 아니라, **"무엇이 있고, 무엇이 없어야 하는지"**를 논리적으로 이해할 수 있게 되었습니다! 🎉

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

배경: 최근 비전 - 언어 모델 (VLM) 과 확산 기반 (Diffusion-based) 생성 시스템은 텍스트 조건부 이미지 및 비디오 생성에서 뛰어난 성과를 보이고 있습니다.
핵심 한계: 그러나 이러한 모델들은 언어적 부정 (Linguistic Negation, 예: "차량이 없는", "사용하지 않는") 을 올바르게 해석하고 강제하는 데 근본적인 어려움을 겪고 있습니다.
- 기존 모델은 부정문을 단순히 개념의 부재로 간주하거나, 외부에서 지정된 배제 조건으로 처리하지 못합니다.
- 그 결과, 금지된 객체가 생성되거나 (예: "차량이 없는" 고속도로에 차가 나타남), 부정의 범위가 잘못 적용되거나 (Scope error), 의도하지 않은 반대 의미로 과도하게 보정되는 (Over-correction) 현상이 발생합니다.
- 기존 연구들은 주로 임베딩 수준의 표현 분리성 (Representation separability) 에 초점을 맞추었으나, 생성 과정 자체 (Generative process) 에서 부정 조건이 어떻게 제약되어야 하는지에 대한 체계적인 수식화가 부족했습니다.

2. 방법론 (Methodology)

이 논문은 부정 (Negation) 을 데이터 부족으로 간주하여 모델을 재학습시키는 대신, 확산 역학 (Diffusion dynamics) 내의 구조화된 가능성 제약 (Structured Feasibility Constraint) 으로 모델링하는 새로운 접근법을 제시합니다.

핵심 아이디어:
- 클래스프리 가이드 (Classifier-Free Guidance, CFG) 의 재해석: CFG 가 정의하는 의미적 업데이트 방향을 기반으로, 부정된 개념과 관련된 방향으로의 투영을 제약합니다.
- 볼록 가능성 제약 (Convex Feasibility Constraint): 부정문을 반공간 (Half-space) 제약 ( $a_t^\top \delta \le b_t$ ) 으로 정의합니다. 여기서 $a_t$ 는 부정된 개념의 의미적 방향, $b_t$ 는 허용 가능한 부정 강도 임계값입니다.
- 최소 에너지 투영 (Minimal-Energy Projection): 각 확산 단계 (Timestep) 에서 참조되는 의미적 업데이트 ( $\delta_{ref}$ $δ_{r e f}$ ) 가 제약 조건을 위반할 경우, 제약 영역 (Feasible region) 을 만족하도록 가장 작은 수정 (Minimal modification) 을 가하여 업데이트 벡터를 투영합니다.
  - 수식: $\delta^*_t = \arg \min_\delta \frac{1}{2} \|\delta - \delta_{ref}\|^2_2 \quad \text{s.t.} \quad a_t^\top \delta \le b_t$
  - 이는 KKT 조건을 통해 폐쇄형 (Closed-form) 해를 가지며, 모델 재학습이나 아키텍처 변경 없이 구현 가능합니다.
구체적 처리 단계:
1. 의미 분해 (Semantic Decomposition): 입력 프롬프트를 긍정적 의미 ( $y^+$ ), 부정된 의미 ( $y^-$ ), 그리고 논리적 범위 (Scope, $S$ ) 로 분해합니다.
2. 제약 구성: 분해된 부정된 부분 ( $y^-$ ) 을 기반으로 확산 모델에서 부정 방향 벡터 ( $a_t$ ) 를 추출합니다.
3. 시간적 스케줄링 (Temporal Scheduling): 초기 확산 단계에서는 구조 형성을 위해 제약을 완화하고, 후기 단계에서는 엄격한 부정 준수를 위해 제약을 강화하는 스케줄링 전략을 적용합니다.
적용 범위: 이 프레임워크는 객체 부재 (Object absence), 기능적 부정 (Functional negation), 이중 부정 (Double negation), 범위 모호성 해소 (Scope disambiguation) 등 다양한 언어적 현상을 하나의 통일된 볼록 제약 문제로 통합합니다. 또한 정적 이미지뿐만 아니라 시간적으로 진화하는 비디오 생성에도 자연스럽게 확장됩니다.

3. 주요 기여 (Key Contributions)

VLM 내 언어적 부정의 공식적 모델링: 다양한 언어적 부정 현상을 의미적 가이드 공간의 구조화된 볼록 가능성 제약으로 통합하여 모델링한 최초의 통일된 수식화를 제시했습니다.
제약 기반 생성 강제 메커니즘: 아키텍처 수정이나 재학습 없이, 확산 과정 중 최소 에너지 투영을 통해 부정을 강제하는 학습 불필요 (Training-free) 메커니즘을 도입했습니다. 이는 생성의 안정성과 준수성을 보장합니다.
표현을 넘어선 구조화된 벤치마킹: 표현 분리성 평가가 아닌, 생성 시스템의 분포 준수성 (Distributional compliance) 을 측정하는 8 가지 언어적 범주 (AOC, LEN, INA, MNC, SFN, NMI, DNS, SND) 로 구성된 새로운 벤치마크를 구축했습니다.

4. 실험 결과 (Results)

벤치마크: 8 가지 부정 카테고리 (객체 부재, 후기 등장 부정, 암시적 자연물만, 다중 부정, 구조적 기능 부정, 비반전 완화, 이중 부정 민감도, 범위 분해) 로 구성된 400 개의 프롬프트 세트를 평가했습니다.
성능 비교: Mochi, HunyuanVideo, CogVideoX 등 최신 확산 기반 비디오 생성 모델들과 비교했습니다.
- 정량적 지표: 제안된 방법은 전체 프롬프트 정렬 (CLIPScore) 을 유지하면서도 부정된 개념의 억제 (CLIP-neg, DINO-conf) 를 가장 효과적으로 수행했습니다.
- 직접적 평가 (NCS/NVR): 멀티모달 언어 모델을 활용한 직접적인 부정 준수 점수 (NCS) 에서 가장 높은 점수 (4.07) 를 기록했고, 위반률 (NVR) 은 가장 낮았습니다 (0.23).
- 사용자 연구: 50 명의 참가자를 대상으로 한 평가에서, 부정 만족도, 제약 의미 정확도, 장면 정렬 등 모든 항목에서 기존 모델들을 압도적으로 우세하게 평가받았으며 (전체 선호도 77.5%), 시각적 결함 (Artifact) 도 최소화되었습니다.
애블레이션 연구: '반발 에너지 (Repulsive Energy)'와 '제약 스케줄링 (Constraint Scheduling)'을 제거한 실험을 통해, 두 요소가 각각 부정 준수성과 구조적 안정성에 필수적임을 입증했습니다.

5. 의의 및 결론 (Significance)

패러다임 전환: 부정 (Negation) 을 단순한 프롬프트 휴리스틱이나 임베딩 결함으로 보는 시각에서 벗어나, 구조화된 의미적 제약 (Structured Semantic Constraint) 으로 재정의했습니다.
논리적 일관성: 생성 모델이 언어적 논리 (특히 부정) 를 따르는 합리적인 생성을 수행할 수 있는 이론적 기반을 마련했습니다.
확장성: 이 접근법은 정적 이미지 생성을 넘어, 시간적 진화가 필요한 비디오 생성 및 비전 - 언어 - 행동 (VLA) 시스템에서 언어가 시각적 내용과 동적 행동을 동시에 제약하는 데 적용될 수 있는 가능성을 열었습니다.
실용성: 대규모 모델의 재학습 없이 기존 사전 학습된 백본에 적용 가능하여, 실제 적용 비용이 낮고 효율적입니다.

이 논문은 생성형 AI 가 복잡한 언어적 논리, 특히 '아님 (Not)'이라는 개념을 정확하게 이해하고 구현할 수 있는 새로운 방향을 제시하며, 형식 의미론과 신경 생성 모델링의 교차점에서 중요한 연구 성과를 남겼습니다.

NEGATE: Constrained Semantic Guidance for Linguistic Negation in Text-to-Video Diffusion

🎬 1. 문제: AI 는 "아니오"를 "반대"로만 이해합니다

🛠️ 2. 해결책: "제약 조건"이라는 보이지 않는 울타리

🌟 3. 이 기술이 얼마나 대단한가요? (8 가지 상황)

🚀 4. 결론: AI 를 다시 훈련시킬 필요 없습니다!

💡 요약

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Visual Exclusivity Attacks: Automatic Multimodal Red Teaming via Agentic Planning

AnchorNote: Exploring Speech-Driven Spatial Externalization for Co-Located Collaboration in Augmented Reality

Your Robot Will Feel You Now: Empathy in Robots and Embodied Agents

FIGURA: A Modular Prompt Engineering Method for Artistic Figure Photography in Safety-Filtered Text-to-Image Models

Measuring Research Convergence in Interdisciplinary Teams Using Large Language Models and Graph Analytics