MOO: A Multi-view Oriented Observations Dataset for Viewpoint Analysis in Cattle Re-Identification

Ce papier présente MOO, un jeu de données synthétique multi-vues de 1 000 vaches capturé sous 128 angles, conçu pour analyser l'impact des variations de point de vue dans la ré-identification animale et démontrer que les priors géométriques synthétiques améliorent significativement la généralisation des modèles vers des scénarios réels.

William Grolleau, Achraf Chaouch, Astrid Sabourin + 2 more2026-03-05🤖 cs.AI

Pointer-CAD: Unifying B-Rep and Command Sequences via Pointer-based Edges & Faces Selection

Le papier présente Pointer-CAD, un cadre de génération de modèles CAO par LLM qui surmonte les limites des séquences de commandes en intégrant une sélection d'entités géométriques via des pointeurs, permettant ainsi la création de structures complexes et la réduction des erreurs topologiques grâce à un jeu de données de 575 000 modèles.

Dacheng Qi, Chenyu Wang, Jingwei Xu + 6 more2026-03-05💬 cs.CL

Balancing Fidelity, Utility, and Privacy in Synthetic Cardiac MRI Generation: A Comparative Study

Cette étude compare trois architectures génératives pour la création d'IRM cardiaques synthétiques et démontre que les modèles de diffusion, en particulier les DDPM, offrent le meilleur équilibre entre fidélité, utilité pour la segmentation et protection de la vie privée dans des conditions de données limitées.

Madhura Edirisooriya, Dasuni Kawya, Ishan Kumarasinghe + 5 more2026-03-05🤖 cs.LG

Underrepresented in Foundation Model Pretraining Data? A One-Shot Probe

Cette étude propose une méthode efficace en données utilisant un seul exemple par classe et un modèle de langage pour prédire avec une grande précision la capacité des modèles fondationnels vision-langage à généraliser vers des domaines sous-représentés, offrant ainsi un outil peu coûteux pour évaluer les besoins en annotation avant l'entraînement.

Chris Vorster, Mayug Maniparambil, Noel E. O'Connor + 2 more2026-03-05💻 cs

RANGER: Sparsely-Gated Mixture-of-Experts with Adaptive Retrieval Re-ranking for Pathology Report Generation

Le papier présente RANGER, un cadre innovant de génération de rapports de pathologie qui combine un mélange d'experts à portes clairsemées pour une spécialisation dynamique et un module de réordonnancement adaptatif pour affiner la récupération de connaissances, démontrant ainsi des performances supérieures sur le jeu de données PathText-BRCA.

Yixin Chen, Ziyu Su, Hikmat Khan + 1 more2026-03-05🤖 cs.AI

Helios: Real Real-Time Long Video Generation Model

Le papier présente Helios, un modèle de génération vidéo autoregressif de 14 milliards de paramètres capable de produire des vidéos à l'échelle de la minute en temps réel sur une seule carte graphique H100, tout en éliminant le dérive temporelle et en réduisant considérablement les coûts computationnels grâce à des stratégies d'entraînement innovantes et des optimisations d'infrastructure.

Shenghai Yuan, Yuanyang Yin, Zongjian Li + 3 more2026-03-05💻 cs

TaxonRL: Reinforcement Learning with Intermediate Rewards for Interpretable Fine-Grained Visual Reasoning

Le papier présente TaxonRL, une approche d'apprentissage par renforcement utilisant des récompenses intermédiaires pour décomposer le raisonnement visuel en prédictions taxonomiques hiérarchiques, permettant ainsi d'atteindre une précision supérieure à celle des humains sur la tâche de discrimination fine d'espèces tout en garantissant l'interprétabilité des décisions.

Maximilian von Klinski, Maximilian Schall2026-03-05💬 cs.CL

VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual Question Answering

Cet article présente VQA-MHUG, un nouveau jeu de données de regards humains sur les images et les questions, et démontre pour la première fois que la corrélation entre l'attention textuelle des modèles de VQA et celle des humains est un prédicteur significatif de leurs performances, soulignant ainsi le besoin d'améliorer les mécanismes d'attention textuelle dans les architectures multimodales.

Ekta Sood, Fabian Kögel, Florian Strohm + 2 more2026-03-04💬 cs.CL

Leveraging Foundation Models for Content-Based Image Retrieval in Radiology

Cette étude démontre que les modèles de fondation visuels, en particulier BiomedCLIP, peuvent servir d'extracteurs de caractéristiques polyvalents et performants pour la recherche d'images médicales par le contenu en radiologie, surpassant les systèmes spécialisés sans nécessiter d'entraînement supplémentaire sur un vaste ensemble de données de 1,6 million d'images.

Stefan Denner, David Zimmerer, Dimitrios Bounias + 8 more2026-03-04💻 cs

Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes

Cet article présente Implicit-Zoo, un jeu de données à grande échelle de fonctions implicites neuronales pour images 2D et scènes 3D, conçu pour surmonter les limitations de ressources et de données, et qui démontre des améliorations significatives dans des tâches telles que la classification d'images, la segmentation sémantique et la régression de pose 3D.

Qi Ma, Danda Pani Paudel, Ender Konukoglu + 1 more2026-03-04💻 cs