When to Lock Attention: Training-Free KV Control in Video Diffusion
O artigo apresenta o KV-Lock, uma abordagem livre de treinamento para modelos de difusão de vídeo baseados em DiT que otimiza a consistência de fundo e a qualidade do primeiro plano ajustando dinamicamente a fusão de chaves-valor (KVs) e a escala de orientação condicional (CFG) com base na detecção de alucinação.