Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation

Ce papier présente FIRM, un cadre complet qui améliore la génération et l'édition d'images fidèles en développant des modèles de récompense robustes, des jeux de données de haute qualité et une nouvelle stratégie de récompense « Base-and-Bonus » pour surmonter les hallucinations et guider efficacement l'apprentissage par renforcement.

Xiangyu Zhao, Peiyuan Zhang, Junming Lin + 7 more2026-03-13💻 cs

DVD: Deterministic Video Depth Estimation with Generative Priors

Le papier présente DVD, un cadre innovant qui adapte de manière déterministe des modèles de diffusion vidéo pré-entraînés en régresseurs de profondeur pour surmonter les compromis entre hallucinations géométriques et besoin de données massives, atteignant ainsi des performances de pointe en zéro-shot avec une fraction des données d'entraînement.

Hongfei Zhang, Harold Haodong Chen, Chenfei Liao + 12 more2026-03-13💻 cs

Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing

Le papier présente AutoGaze, un module léger qui améliore l'efficacité et l'évolutivité de la compréhension vidéo des modèles multimodaux en sélectionnant de manière autoregressive uniquement les patches visuels essentiels, réduisant ainsi considérablement le nombre de jetons et permettant l'analyse de vidéos longues et haute résolution.

Baifeng Shi, Stephanie Fu, Long Lian + 10 more2026-03-13💻 cs

DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning

Le papier présente DreamVideo-Omni, un cadre unifié qui permet une personnalisation vidéo multi-sujets avec un contrôle omni-mouvement grâce à un paradigme d'entraînement en deux étapes intégrant des mécanismes d'ancrage d'identité et un apprentissage par renforcement basé sur des récompenses d'identité latente pour garantir une préservation fidèle des identités et une précision du mouvement.

Yujie Wei, Xinyu Liu, Shiwei Zhang + 12 more2026-03-13💻 cs