Real Eyes Realize Faster: Gaze Stability and Pupil Novelty for Efficient Egocentric Learning

Cet article propose un sélecteur de trames « Dual-Criterion » exploitant la stabilité du regard et la réponse pupillaire pour filtrer efficacement les flux vidéo egocentriques, permettant d'atteindre des performances de classification équivalentes à celles du flux complet avec seulement 10 % des données tout en évitant l'inférence de modèles.

Ajan Subramanian, Sumukh Bettadapura, Rohan Sathish2026-03-05💻 cs

Efficient Point Cloud Processing with High-Dimensional Positional Encoding and Non-Local MLPs

Cet article présente HPENet, une nouvelle architecture de réseaux de neurones basée sur MLP qui améliore l'efficacité et les performances du traitement des nuages de points grâce à un encodage positionnel haute dimension (HPE) et à des mécanismes non locaux, surpassant ainsi des modèles de référence comme PointNeXt avec une fraction significative de la complexité computationnelle.

Yanmei Zou, Hongshan Yu, Yaonan Wang + 4 more2026-03-05🤖 cs.AI

Understanding Sources of Demographic Predictability in Brain MRI via Disentangling Anatomy and Contrast

Cette étude propose un cadre d'apprentissage de représentations désenchevêtrées pour démontrer que la prédictibilité des attributs démographiques dans les IRM cérébraux provient principalement de variations anatomiques plutôt que de différences de contraste liées à l'acquisition, soulignant ainsi la nécessité de stratégies d'atténuation du biais qui distinguent ces deux sources.

Mehmet Yigit Avci, Akshit Achara, Andrew King + 1 more2026-03-05🤖 cs.AI

Crab+^{+}: A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

Le papier présente Crab⁺, un modèle audio-visuel unifié et évolutif qui surmonte le transfert négatif entre tâches hétérogènes grâce à une coopération explicite via un nouveau jeu de données d'instruction (AV-UIE v2) et une architecture d'apprentissage par LoRA interactionnelle (I-LoRA), permettant ainsi d'atteindre des performances supérieures à celles des modèles spécialisés sur la majorité des tâches.

Dongnuan Cai, Henghui Du, Chang Zhou + 5 more2026-03-05🤖 cs.AI

Mask-Guided Attention Regulation for Anatomically Consistent Counterfactual CXR Synthesis

Cet article présente un cadre d'inférence régulant l'attention pour synthétiser des radiographies thoraciques contrefactuelles anatomiquement cohérentes, en combinant une régularisation guidée par des masques pour préserver la structure et un module orienté pathologie pour contrôler précisément la localisation et l'étendue des lésions.

Zichun Zhang, Weizhi Nie, Honglin Guo + 1 more2026-03-05💻 cs

Degradation-based augmented training for robust individual animal re-identification

Cet article présente un cadre d'entraînement augmenté par des dégradations artificielles qui améliore significativement la robustesse et la précision du ré-identification individuel des animaux sauvages, même pour des espèces non vues lors de l'entraînement, tout en fournissant de nouveaux benchmarks et données publiques pour ce domaine.

Thanos Polychronou, Lukáš Adam, Viktor Penchev + 1 more2026-03-05💻 cs

Beyond Mixtures and Products for Ensemble Aggregation: A Likelihood Perspective on Generalized Means

Cet article propose une justification théorique fondée sur la vraisemblance pour l'agrégation d'ensembles via les moyennes généralisées, démontrant que seules les configurations d'ordre r[0,1]r \in [0,1] garantissent systématiquement une amélioration par rapport aux distributions individuelles, ce qui valide ainsi les pratiques courantes de pooling linéaire et géométrique.

Raphaël Razafindralambo, Rémy Sun, Frédéric Precioso + 2 more2026-03-05🤖 cs.LG

Real5-OmniDocBench: A Full-Scale Physical Reconstruction Benchmark for Robust Document Parsing in the Wild

Le papier présente Real5-OmniDocBench, le premier benchmark de reconstruction physique à grande échelle qui recrée l'intégralité du jeu de données OmniDocBench v1.5 dans cinq scénarios réalistes, permettant ainsi d'identifier précisément les causes des défaillances des modèles de vision-langage dans le monde physique et de combler l'écart entre les performances numériques et réelles.

Changda Zhou, Ziyue Gao, Xueqing Wang + 4 more2026-03-05💻 cs

DiverseDiT: Towards Diverse Representation Learning in Diffusion Transformers

Ce papier présente DiverseDiT, un cadre novateur qui améliore l'apprentissage des représentations dans les Transformers de diffusion en promouvant activement la diversité des caractéristiques entre les blocs grâce à des connexions résiduelles étendues et une fonction de perte dédiée, ce qui se traduit par des gains de performance et une convergence accélérée.

Mengping Yang, Zhiyu Tan, Binglei Li + 3 more2026-03-05💻 cs

A Hypertoroidal Covering for Perfect Color Equivariance

Cet article propose une architecture de réseau de neurones véritablement équivariante pour la couleur, qui résout les artefacts des méthodes précédentes en relevant les valeurs de saturation et de luminosité d'intervalles vers des cercles (un double-couverture) plutôt que de les approximer par des translations linéaires, améliorant ainsi les performances et la généralisation sur des tâches de classification fine et d'imagerie médicale.

Yulong Yang, Zhikun Xu, Yaojun Li + 1 more2026-03-05💻 cs