Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation

Ce papier présente FIRM, un cadre complet qui améliore la génération et l'édition d'images fidèles en développant des modèles de récompense robustes, des jeux de données de haute qualité et une nouvelle stratégie de récompense « Base-and-Bonus » pour surmonter les hallucinations et guider efficacement l'apprentissage par renforcement.

Xiangyu Zhao, Peiyuan Zhang, Junming Lin + 7 more2026-03-13💻 cs

DVD: Deterministic Video Depth Estimation with Generative Priors

Le papier présente DVD, un cadre innovant qui adapte de manière déterministe des modèles de diffusion vidéo pré-entraînés en régresseurs de profondeur pour surmonter les compromis entre hallucinations géométriques et besoin de données massives, atteignant ainsi des performances de pointe en zéro-shot avec une fraction des données d'entraînement.

Hongfei Zhang, Harold Haodong Chen, Chenfei Liao + 12 more2026-03-13💻 cs

Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing

Le papier présente AutoGaze, un module léger qui améliore l'efficacité et l'évolutivité de la compréhension vidéo des modèles multimodaux en sélectionnant de manière autoregressive uniquement les patches visuels essentiels, réduisant ainsi considérablement le nombre de jetons et permettant l'analyse de vidéos longues et haute résolution.

Baifeng Shi, Stephanie Fu, Long Lian + 10 more2026-03-13💻 cs

DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning

Le papier présente DreamVideo-Omni, un cadre unifié qui permet une personnalisation vidéo multi-sujets avec un contrôle omni-mouvement grâce à un paradigme d'entraînement en deux étapes intégrant des mécanismes d'ancrage d'identité et un apprentissage par renforcement basé sur des récompenses d'identité latente pour garantir une préservation fidèle des identités et une précision du mouvement.

Yujie Wei, Xinyu Liu, Shiwei Zhang + 12 more2026-03-13💻 cs

MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

Ce papier présente MM-CondChain, un nouveau benchmark vérifiable programmatically conçu pour évaluer la capacité des modèles de langage multimodaux à effectuer un raisonnement compositionnel profond et enchaîné basé sur des preuves visuelles, révélant ainsi des lacunes significatives des modèles actuels face à cette complexité.

Haozhan Shen, Shilin Yan, Hongwei Xue + 5 more2026-03-13💻 cs

EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation

Ce papier présente EVATok, un cadre de tokenisation vidéo adaptative qui optimise dynamiquement l'assignation des tokens pour chaque séquence, permettant ainsi d'atteindre un meilleur compromis entre qualité de reconstruction et coût computationnel pour la génération vidéo autoregressive, tout en réduisant significativement l'utilisation des tokens par rapport aux méthodes existantes.

Tianwei Xiong, Jun Hao Liew, Zilong Huang + 3 more2026-03-13💻 cs

Beyond Binomial and Negative Binomial: Adaptation in Bernoulli Parameter Estimation

Cet article propose un cadre basé sur un treillis pour optimiser l'allocation adaptative des essais dans l'estimation de paramètres de Bernoulli, démontrant par des simulations que cette approche améliore significativement la précision de l'estimation par rapport aux méthodes binomiales classiques, en particulier dans des scénarios d'imagerie active.

Safa C. Medin, John Murray-Bruce, David Castañón + 1 more2026-03-12💻 cs

In Pursuit of Many: A Review of Modern Multiple Object Tracking Systems

Ce document de synthèse examine les avancées récentes en matière de suivi multi-objets, en retraçant l'évolution des paradigmes algorithmiques, en analysant les tendances des benchmarks et des métriques d'évaluation, et en identifiant les orientations futures telles que l'intégration des modèles de fondation pour relever les défis du déploiement réel.

Mk Bashar, Samia Islam, Kashifa Kawaakib Hussain, Md. Bakhtiar Hasan, A. B. M. Ashikur Rahman, Md. Hasanul Kabir2026-03-12💻 cs