Each language version is independently generated for its own context, not a direct translation.

VSF: 그림을 그릴 때 "싫은 것"을 진짜로 지우는 마법 (ICLR 2026 논문 요약)

안녕하세요! 오늘 소개해 드릴 논문은 **"VSF (Value Sign Flip)"**라는 새로운 기술을 다룹니다. 이 기술은 AI 가 그림을 그릴 때, 우리가 "이것은 없애줘"라고 말하면 정말로 그걸 없애주는 방법을 찾아낸 거예요.

기존의 AI 그림 도구들은 "개는 그려줘, 고양이는 안 그려줘"라고 하면, AI 가 "아, 고양이는 싫어하는구나"라고 이해하기보다 "고양이를 더 크게 그려야겠다"라고 오해해서 고양이를 더 많이 그려버리는 경우가 많았어요. 이 논문은 그 문제를 해결한 간단하고 빠른 방법을 제안합니다.

1. 왜 이런 기술이 필요할까요? (기존의 문제점)

AI 그림을 그리는 모델들은 보통 수백 번의 단계를 거쳐 그림을 완성합니다. 하지만 요즘은 1~8 번의 단계로 아주 빠르게 그림을 그리는 모델들도 생겼어요. (예: Flux Schnell, Stable Diffusion 3.5 Turbo 등)

하지만 여기서 문제가 생겼어요.

기존 방법 (CFG): "고양이는 없애줘"라고 하면, AI 가 "고양이 없는 그림"과 "고양이 있는 그림"을 각각 그려서 두 가지를 섞는 방식을 썼어요. 하지만 이 방법은 시간이 두 배 걸리고, 빠른 모델에서는 그림이 너무 과하게 색칠되거나 (과포화), 고양이와 개가 섞인 이상한 그림이 나옵니다.
다른 시도들 (NASA, NAG): 이 방법들은 조금 더 똑똑하게 시도했지만, 여전히 "싫은 것"을 완전히 지우기보다는 "반쯤 지우거나" 그림의 질을 떨어뜨리는 경우가 많았어요.

비유하자면:

그림을 그리는 친구에게 "고양이 그림을 그리되, 고양이 귀는 없애줘"라고 했을 때,

기존 방법: 친구가 귀 없는 고양이와 귀 있는 고양이를 각각 그리고 두 그림을 오려서 붙여놓으니, 귀가 두 개 달린 괴상한 고양이가 나왔어요.

새로운 방법 (VSF): 친구가 "아, 귀를 없애라는 뜻이구나!"라고 바로 이해하고, 붓질할 때 귀 부분을 아예 안 그리거나 지워버리는 것입니다.

2. VSF 는 어떻게 작동할까요? (핵심 아이디어)

VSF 의 핵심은 **"부호 반전 (Sign Flip)"**입니다.

AI 는 그림을 그릴 때 수많은 단어 (토큰) 들을 보고 "여기에 고양이가 있어야겠다"라고 계산합니다. 이때 "고양이"라는 단어가 부정 (Negative) 프롬프트에 있다면, VSF 는 그 계산값의 부호를 뒤집어 (양수를 음수로, 음수를 양수로) 줍니다.

창의적인 비유: 소음 제거 헤드폰

VSF 는 마치 **소음 제거 헤드폰 (Noise Cancelling Headphones)**과 같습니다.

원래 소리 (원치 않는 요소): AI 가 "여기에 고양이가 있어야 해"라고 소리를 냅니다.

VSF 의 역할: VSF 는 그 소리와 **정반대 위상 (부호 반전)**의 소리를 만들어 냅니다.

결과: 두 소리가 만나면 서로 상쇄되어 고양이라는 소리가 완전히 사라집니다.

이때 중요한 점은, VSF 는 단순히 계산 결과를 뺄셈하는 게 아니라, AI 가 주의를 기울이는 (Attention) 과정에서 부정적인 요소의 값을 뒤집어서 실시간으로 제거한다는 것입니다.

3. 왜 이 방법이 특별한가요?

매우 빠릅니다: 기존 방법처럼 그림을 두 번 그릴 필요가 없습니다. 한 번만 그려도 되므로, 3 초 이내에 그림을 완성할 수 있습니다.
빠른 모델과 잘 맞습니다: 1~8 단계로 그리는 최신 빠른 모델 (Few-step models) 에서도 완벽하게 작동합니다.
정교한 제어: "고양이 귀만 없애기", "배경의 나무만 없애기"처럼 특정 부분만 선택적으로 지울 수 있습니다.
- 예시: "비행기"를 그리되 "날개"를 없애라고 하면, 날개만 사라진 기체 모양이 나옵니다.
화질 유지: 부정적인 요소를 지우면서도 그림의 전체적인 질 (색감, 선명도) 이 떨어지지 않습니다.

4. 실험 결과 (NegGenBench)

연구팀은 "NegGenBench"라는 새로운 테스트 데이터를 만들었습니다. 여기에는 "바퀴가 없는 자전거", "유리창 없는 집", "선글라스 없는 안경"처럼 핵심 부품을 뺀 그림을 요청하는 어려운 질문들이 담겨 있습니다.

기존 방법들: 대부분 바퀴가 있거나, 안경이 있거나, 그림이 망가졌습니다.
VSF: 가장 정확하게 원치 않는 요소를 제거했습니다. (예: 바퀴가 완전히 사라진 자전거를 그렸습니다.)
화질: 제거된 요소 때문에 그림이 추해지지 않고, 오히려 다른 방법들보다 더 깔끔했습니다.

5. 결론: AI 그림의 새로운 가능성

VSF 는 AI 가 "싫은 것"을 단순히 무시하는 게 아니라, 적극적으로 지워내는 능력을 갖게 해줍니다.

창의성 확장: "스타일만 빼기" (예: 반 고흐 스타일만 빼고 밤하늘 그리기) 나 "추상화" (실제 사물이 아닌 추상적인 형태로 표현) 같은 새로운 예술적 시도도 가능해졌습니다.
실용성: 불필요한 물체를 빠르게 지우거나, 특정 콘텐츠 (NSFW 등) 를 필터링하는 데 매우 유용하게 쓰일 수 있습니다.

한 줄 요약:

VSF 는 AI 그림 도구에게 "싫은 건 아예 안 그려!"라고 명령할 때, 그 명령을 순간적이고 정확하게 실행하게 해주는 소음 제거 기술 같은 마법입니다.

이 기술은 앞으로 우리가 AI 와 함께 더 자유롭게, 더 빠르게, 더 정확하게 그림을 그릴 수 있는 문을 열어줄 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

Few-Step 모델의 한계: 최근 Stable Diffusion 3.5 Turbo, Flux Schnell, Wan 등 1~8 단계로 추론이 가능한 'Few-Step' 이미지/비디오 생성 모델이 등장하여 속도가 획기적으로 개선되었습니다. 그러나 이러한 모델들은 대부분 Classifier-Free Guidance (CFG) 를 비활성화한 상태로 학습되거나 디스틸 (distillation) 되었기 때문에, 기존 CFG 를 적용하면 이미지가 과포화되거나 (oversaturation) 긍정/부정 프롬프트가 섞인 비자연스러운 결과가 나옵니다.
부정 프롬프트 (Negative Prompt) 의 실패: 비전 - 언어 모델 (VLM) 은 부정 (negation) 개념을 이해하는 데 어려움을 겪습니다. (예: "안경이 없는 과학자"를 입력하면 오히려 안경이 더 잘 보이는 경우가 많음).
기존 대안들의 결함:
- NASA (Negative Steer Away Attention): 교차 어텐션 (Cross-Attention) 모델에 국한되며, 고정된 스케일링 인자를 사용하여 이미지의 지역이나 시간에 따라 적응적으로 작동하지 못합니다.
- NAG (Normalized Attention Guidance): 주로 품질 제어에 초점을 맞추어 부정 프롬프트 준수 (adherence) 면에서는 효과가 제한적입니다.
- CFG: Few-Step 모델에 강제로 적용 시 이미지 품질이 급격히 저하되며, 두 번의 포워드 패스 (positive/negative) 가 필요해 추론 시간이 2 배가 됩니다.

2. 제안 방법: VSF (Value Sign Flip)

저자들은 Value Sign Flip (VSF) 이라는 새로운 방법을 제안합니다. 이는 어텐션 계산 과정에서 부정 프롬프트의 Value(값) 벡터의 부호를 반전시키는 방식입니다.

핵심 메커니즘:
- 기존 NASA 나 NAG 가 어텐션 출력 (Attention Output) 을 조작하는 것과 달리, VSF 는 어텐션 계산 시 Key/Value 중 Value 의 부호를 반전시킵니다.
- 수식적으로, 부정 프롬프트의 Value( $V^-$ ) 를 $-\alpha V^-$ 로 스케일링하여 긍정 프롬프트의 Value( $V^+$ ) 와 함께 어텐션에 입력합니다.
- 이는 소음 제거 헤드폰 (Noise-canceling headphones) 과 유사한 원리로, 이미지가 부정 프롬프트에 주의를 기울일 때 반전된 값이 해당 불필요한 요소를 상쇄 (cancel) 하도록 유도합니다.
적응형 동적 제어 (Adaptive Dynamic Control):
- VSF 는 고정된 스케일이 아니라, 이미지 토큰이 부정 프롬프트 토큰에 얼마나 집중하는지에 따라 동적으로 부정 요소를 억제합니다.
- MMDiT 아키텍처 (SD3.5, Flux 등) 지원: 모든 토큰이 하나의 시퀀스로 연결되는 MMDiT 구조에서 부정 프롬프트가 긍정 프롬프트나 이미지 토큰 간에 원치 않는 상호작용을 하지 않도록 어텐션 마스크 (Attention Masking) 와 부정 임베딩의 복제 (Duplication) 기법을 도입했습니다.
  - 부정 프롬프트를 두 개로 복제: 하나는 원래 형태 ( $N^{(0)}$ ), 하나는 Value 만 반전된 형태 ( $N^{(1)}$ ).
  - $N^{(1)}$ 은 이미지 토큰에만 어텐션을 받고, $N^{(0)}$ 은 MLP 경로와 다음 레이어로 전달되도록 설계하여 모델의 안정성을 유지합니다.

3. 주요 기여 (Key Contributions)

새로운 부정 프롬프트 가이드 방법 (VSF): 어텐션 값의 부호 반전을 통해 Few-Step 모델에서도 고품질의 부정 프롬프트 준수를 가능하게 하는 효율적인 알고리즘 제안.
NegGenBench 데이터셋 구축: 기존 데이터셋보다 더 까다로운 긍정/부정 프롬프트 쌍 (예: "바퀴가 없는 자전거", "유리창이 없는 등대" 등 핵심 요소 제거) 으로 구성된 벤치마크 데이터셋 공개.
평가 및 모델 개선: 생성된 이미지를 평가하기 위해 VSF, NAG, NASA 로 생성된 데이터를 기반으로 Negation-Aware MLLM (Qwen-2.5-VL) 을 파인튜닝하여 부정 프롬프트 평가의 정확도를 높였습니다.

4. 실험 결과 (Results)

NegGenBench 데이터셋을 사용한 정량적 평가 (LLaMA 및 Human Evaluation 기준):

부정 프롬프트 준수 (Negative Score):
- VSF Strong: 0.545 (가장 높은 점수)
- VSF Quality: 0.420
- 기존 방법 비교: NASA (0.380), NAG Strong (0.320), 일반 CFG (비 Few-Step 모델 기준 0.300).
- VSF 는 기존 방법들보다 부정 요소를 훨씬 효과적으로 제거함을 입증했습니다.
품질 및 긍정 프롬프트 준수 (Quality & Positive Score):
- VSF 는 부정 요소를 제거하면서도 이미지 품질 (Quality Score) 과 긍정 프롬프트 준수 (Positive Score) 를 높은 수준으로 유지했습니다. (Quality Score: 0.952~0.986).
- 반면, NAG 나 NASA 는 부정 점수를 높이려 할 때 품질이 급격히 저하되는 경향을 보였습니다.
실행 속도:
- VSF 는 단일 포워드 패스로 작동하므로 CFG(이중 패스) 보다 훨씬 빠릅니다.
- SD3.5 Turbo 기준 약 3 초 내 생성이 가능하며, "Generate-then-Edit" 파이프라인 (55 초) 보다 훨씬 효율적입니다.
외부 베이스라인 비교:
- 오픈 소스 방법 중 가장 높은 성능을 보였으며, GPT-4o(0.705) 에 이어 두 번째로 높은 부정 점수를 기록했습니다.

5. 의의 및 의의 (Significance)

Few-Step 모델의 실용성 확대: 기존에 부정 프롬프트 적용이 불가능하거나 품질이 떨어졌던 초고속 생성 모델 (Flux, SD3.5 Turbo 등) 에 대해 실용적인 부정 가이드 기능을 제공하여, 콘텐츠 필터링, 편향 제거, 정밀한 이미지 제어 등의 응용 가능성을 열었습니다.
효율성: 추가적인 모델 학습 없이, 추론 단계의 어텐션 메커니즘만 수정하여 구현 가능하고 계산 오버헤드가 매우 낮습니다.
창의적 활용: 단순한 요소 제거를 넘어, 특정 스타일 (예: 반 고흐 스타일 제거) 이나 미학적 기준 (Anti-aesthetics, 추상화) 을 의도적으로 피하거나 변형하는 등 새로운 형태의 창의적 생성을 가능하게 합니다.
오픈 소스 생태계 기여: 코드, ComfyUI 노드, NegGenBench 데이터셋을 공개하여 연구 커뮤니티의 부정 프롬프트 연구 발전을 도모합니다.

결론적으로, VSF 는 Few-Step 이미지 생성 모델의 가장 큰 약점 중 하나인 '부정 프롬프트의 비효율성'을 해결하며, 높은 품질과 빠른 속도를 동시에 달성한 획기적인 방법론입니다.

VSF: Simple, Efficient, and Effective Negative Guidance in Few-Step Image Generation Models By Value Sign Flip

VSF: 그림을 그릴 때 "싫은 것"을 진짜로 지우는 마법 (ICLR 2026 논문 요약)

1. 왜 이런 기술이 필요할까요? (기존의 문제점)

2. VSF 는 어떻게 작동할까요? (핵심 아이디어)

3. 왜 이 방법이 특별한가요?

4. 실험 결과 (NegGenBench)

5. 결론: AI 그림의 새로운 가능성

1. 문제 정의 (Problem Statement)

2. 제안 방법: VSF (Value Sign Flip)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 의의 (Significance)

유사한 논문

Multi-Agent Home Energy Management Assistant

ProCap: Projection-Aware Captioning for Spatial Augmented Reality

Fundamentals of Computing Continuous Dynamic Time Warping in 2D under Different Norms

UniLACT: Depth-Aware RGB Latent Action Learning for Vision-Language-Action Models

Efficient Model Repository for Entity Resolution: Construction, Search, and Integration