DiverseDiT: Towards Diverse Representation Learning in Diffusion Transformers

Ce papier présente DiverseDiT, un cadre novateur qui améliore l'apprentissage des représentations dans les Transformers de diffusion en promouvant activement la diversité des caractéristiques entre les blocs grâce à des connexions résiduelles étendues et une fonction de perte dédiée, ce qui se traduit par des gains de performance et une convergence accélérée.

Mengping Yang, Zhiyu Tan, Binglei Li + 3 more2026-03-05💻 cs

A Hypertoroidal Covering for Perfect Color Equivariance

Cet article propose une architecture de réseau de neurones véritablement équivariante pour la couleur, qui résout les artefacts des méthodes précédentes en relevant les valeurs de saturation et de luminosité d'intervalles vers des cercles (un double-couverture) plutôt que de les approximer par des translations linéaires, améliorant ainsi les performances et la généralisation sur des tâches de classification fine et d'imagerie médicale.

Yulong Yang, Zhikun Xu, Yaojun Li + 1 more2026-03-05💻 cs

ViterbiPlanNet: Injecting Procedural Knowledge via Differentiable Viterbi for Planning in Instructional Videos

Le papier présente ViterbiPlanNet, un cadre novateur qui intègre des connaissances procédurales explicites via une couche de Viterbi différentiable pour améliorer l'efficacité et la robustesse de la planification dans les vidéos d'instruction, surpassant les méthodes existantes avec moins de paramètres et un protocole d'évaluation unifié.

Luigi Seminara, Davide Moltisanti, Antonino Furnari2026-03-05💻 cs

CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video

Le papier présente CubeComposer, un modèle de diffusion autorégressif spatio-temporel innovant capable de générer nativement des vidéos 360° en 4K à partir de vidéos en perspective, en surmontant les limitations de résolution des méthodes existantes grâce à une décomposition en cubemap et à des mécanismes de gestion de contexte optimisés pour une expérience VR immersive.

Lingen Li, Guangzhi Wang, Xiaoyu Li + 5 more2026-03-05🤖 cs.AI

MOO: A Multi-view Oriented Observations Dataset for Viewpoint Analysis in Cattle Re-Identification

Ce papier présente MOO, un jeu de données synthétique multi-vues de 1 000 vaches capturé sous 128 angles, conçu pour analyser l'impact des variations de point de vue dans la ré-identification animale et démontrer que les priors géométriques synthétiques améliorent significativement la généralisation des modèles vers des scénarios réels.

William Grolleau, Achraf Chaouch, Astrid Sabourin + 2 more2026-03-05🤖 cs.AI

Pointer-CAD: Unifying B-Rep and Command Sequences via Pointer-based Edges & Faces Selection

Le papier présente Pointer-CAD, un cadre de génération de modèles CAO par LLM qui surmonte les limites des séquences de commandes en intégrant une sélection d'entités géométriques via des pointeurs, permettant ainsi la création de structures complexes et la réduction des erreurs topologiques grâce à un jeu de données de 575 000 modèles.

Dacheng Qi, Chenyu Wang, Jingwei Xu + 6 more2026-03-05💬 cs.CL

Balancing Fidelity, Utility, and Privacy in Synthetic Cardiac MRI Generation: A Comparative Study

Cette étude compare trois architectures génératives pour la création d'IRM cardiaques synthétiques et démontre que les modèles de diffusion, en particulier les DDPM, offrent le meilleur équilibre entre fidélité, utilité pour la segmentation et protection de la vie privée dans des conditions de données limitées.

Madhura Edirisooriya, Dasuni Kawya, Ishan Kumarasinghe + 5 more2026-03-05🤖 cs.LG