GazeMoE: Perception of Gaze Target with Mixture-of-Experts

Le papier présente GazeMoE, un cadre novateur basé sur des mélanges d'experts qui exploite de manière sélective les indices visuels d'un modèle fondamental figé pour atteindre des performances de pointe dans l'estimation des cibles de regard, tout en surmontant les déséquilibres de classes grâce à des techniques d'augmentation de données et de perte auxiliaire.

Zhuangzhuang Dai, Zhongxi Lu, Vincent G. Zakka, Luis J. Manso, Jose M Alcaraz Calero, Chen Li2026-03-09🤖 cs.AI

HiPP-Prune: Hierarchical Preference-Conditioned Structured Pruning for Vision-Language Models

Le papier présente HiPP-Prune, un cadre de pruning structuré hiérarchique conditionné par les préférences qui optimise l'allocation des ressources de compression dans les modèles vision-langage pour équilibrer l'utilité des tâches et la robustesse aux hallucinations via une stratégie d'apprentissage par renforcement multi-objectifs.

Lincen Bai, Hedi Tabia, Raul Santos-Rodriguez2026-03-09🤖 cs.AI

Spectral and Trajectory Regularization for Diffusion Transformer Super-Resolution

Ce papier présente StrSR, un cadre de distillation adversaire en une étape intégrant une régularisation spectrale et de trajectoire pour surmonter les limitations des méthodes existantes et atteindre des performances de pointe en super-résolution d'images réelles avec les transformateurs de diffusion.

Jingkai Wang, Yixin Tang, Jue Gong, Jiatong Li, Shu Li, Libo Liu, Jianliang Lan, Yutong Liu, Yulun Zhang2026-03-09💻 cs

Can we Trust Unreliable Voxels? Exploring 3D Semantic Occupancy Prediction under Label Noise

Ce papier présente OccNL, le premier benchmark pour la prédiction d'occupation sémantique 3D sous bruit de labels, et propose DPR-Occ, un cadre robuste qui surpasse les méthodes existantes en maintenant la précision géométrique et sémantique malgré des niveaux de corruption extrêmes.

Wenxin Li, Kunyu Peng, Di Wen, Junwei Zheng, Jiale Wei, Mengfei Duan, Yuheng Zhang, Rui Fan, Kailun Yang2026-03-09💻 cs

3D CBCT Artefact Removal Using Perpendicular Score-Based Diffusion Models

Cet article propose une méthode d'inpainting 3D basée sur des modèles de diffusion à score perpendiculaires pour éliminer les artefacts causés par les implants dentaires dans les images CBCT en modélisant les corrélations entre les projections, contrairement aux approches 2D existantes.

Susanne Schaub, Florentin Bieder, Matheus L. Oliveira, Yulan Wang, Dorothea Dagassan-Berndt, Michael M. Bornstein, Philippe C. Cattin2026-03-09🤖 cs.LG

DEX-AR: A Dynamic Explainability Method for Autoregressive Vision-Language Models

Ce papier présente DEX-AR, une nouvelle méthode d'explicabilité dynamique conçue pour interpréter les modèles vision-langage autoregressifs en générant des cartes thermiques 2D qui identifient les régions d'image cruciales pour les réponses textuelles, grâce à un filtrage dynamique des têtes d'attention et une agrégation séquentielle distinguant les tokens visuels des tokens linguistiques.

Walid Bousselham, Angie Boggust, Hendrik Strobelt, Hilde Kuehne2026-03-09🤖 cs.AI

WMoE-CLIP: Wavelet-Enhanced Mixture-of-Experts Prompt Learning for Zero-Shot Anomaly Detection

Ce papier propose WMoE-CLIP, une méthode d'apprentissage de prompts pour la détection d'anomalies en zéro-shot qui améliore la généralisation en intégrant des représentations sémantiques globales via un auto-encodeur variationnel, en exploitant les décompositions en ondelettes pour affiner les embeddings textuels et en utilisant un module d'experts mixtes sensible au contexte.

Peng Chen, Chao Huang2026-03-09💻 cs

P-SLCR: Unsupervised Point Cloud Semantic Segmentation via Prototypes Structure Learning and Consistent Reasoning

Le papier propose P-SLCR, une méthode d'apprentissage non supervisé pour la segmentation sémantique de nuages de points qui combine l'apprentissage de structures cohérentes et un raisonnement relationnel basé sur des prototypes, surpassant les méthodes supervisées classiques comme PointNet sur plusieurs jeux de données.

Lixin Zhan, Jie Jiang, Tianjian Zhou, Yukun Du, Yan Zheng, Xuehu Duan2026-03-09💻 cs

The Art That Poses Back: Assessing AI Pastiches after Contemporary Artworks

Cette étude évalue la capacité de ChatGPT à pasticher des œuvres d'art contemporaines, révélant un écart significatif entre les similarités visuelles et la perte de dimensionnalité, de contexte et d'intentionnalité perçue par les artistes originaux, ce qui plaide pour l'adoption d'un tableau de bord de métriques complémentaires plutôt que d'une mesure unique.

Anca Dinu, Andreiana Mihail, Andra-Maria Florescu, Claudiu Creanga2026-03-09💬 cs.CL

WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching

Le papier présente WorldCache, un cadre de mise en cache hétérogène qui accélère jusqu'à 3,7 fois les modèles de monde basés sur la diffusion en utilisant une prédiction de token guidée par la courbure et un saut adaptatif priorisant le chaos, tout en préservant 98 % de la qualité des simulations.

Weilun Feng, Guoxin Fan, Haotong Qin, Chuanguang Yang, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Dingrui Wang, Longlong Liao, Michele Magno, Yongjun Xu2026-03-09💻 cs

K-MaT: Knowledge-Anchored Manifold Transport for Cross-Modal Prompt Learning in Medical Imaging

Le papier présente K-MaT, un cadre d'apprentissage par prompt qui utilise le transport optimal de Gromov-Wasserstein pour transférer les structures décisionnelles des modèles vision-langage biomédicaux vers des modalités d'imagerie de faible qualité sans nécessiter d'images d'entraînement, surmontant ainsi les limitations des méthodes actuelles et atteignant des performances de pointe sur plusieurs tâches médicales.

Jiajun Zeng, Shadi Albarqouni2026-03-09🤖 cs.AI

Dynamic Chunking Diffusion Transformer

Le papier présente le DC-DiT, un modèle de diffusion Transformer qui améliore l'efficacité et la qualité de la génération d'images en adaptant dynamiquement le nombre de tokens utilisés selon la complexité visuelle des régions et l'étape du processus de débruitage, surpassant ainsi les architectures DiT classiques tout en permettant un réentraînement minimal.

Akash Haridas, Utkarsh Saxena, Parsa Ashrafi Fashi, Mehdi Rezagholizadeh, Vikram Appia, Emad Barsoum2026-03-09🤖 cs.AI

LATO: 3D Mesh Flow Matching with Structured TOpology Preserving LAtents

Le papier présente LATO, une nouvelle méthode de correspondance de flux qui génère des maillages 3D explicites complexes avec une topologie préservée et une grande efficacité d'inférence en utilisant une représentation latente structurée basée sur un auto-encodeur variationnel à voxels clairsemés et un champ de déplacement de sommets.

Tianhao Zhao, Youjia Zhang, Hang Long, Jinshen Zhang, Wenbing Li, Yang Yang, Gongbo Zhang, Jozef Hladký, Matthias Nießner, Wei Yang2026-03-09💻 cs

Computer vision-based estimation of invertebrate biomass

Cette étude propose des méthodes de vision par ordinateur, incluant des modèles linéaires et des réseaux de neurones profonds entraînés sur des séquences d'images d'invertébrés en chute libre, pour estimer leur biomasse sèche avec une précision de 10 à 20 % d'erreur médiane, offrant ainsi une alternative rapide et non destructive aux pesées manuelles pour le suivi de la biodiversité.

Mikko Impiö, Philipp M. Rehsen, Jarrett Blair, Cecilie Mielec, Arne J. Beermann, Florian Leese, Toke T. Høye, Jenni Raitoharju2026-03-09💻 cs

OralGPT-Plus: Learning to Use Visual Tools via Reinforcement Learning for Panoramic X-ray Analysis

Ce papier présente OralGPT-Plus, un modèle de langage-vision agentique qui utilise l'apprentissage par renforcement et un nouveau jeu de données nommé DentalProbe pour améliorer l'analyse diagnostique des radiographies panoramiques dentaires grâce à un raisonnement itératif et symétrique, validé par le benchmark MMOral-X.

Yuxuan Fan, Jing Hao, Hong Chen, Jiahao Bao, Yihua Shao, Yuci Liang, Kuo Feng Hung, Hao Tang2026-03-09💻 cs

Rewis3d: Reconstruction Improves Weakly-Supervised Semantic Segmentation

Le papier présente Rewis3d, un cadre novateur qui améliore la segmentation sémantique faiblement supervisée en exploitant la reconstruction 3D feed-forward pour propager des annotations éparses via une cohérence géométrique, atteignant ainsi des performances de pointe sans coût supplémentaire en étiquettes ou en inférence.

Jonas Ernst, Wolfgang Boettcher, Lukas Hoyer, Jan Eric Lenssen, Bernt Schiele2026-03-09💻 cs