PanoAffordanceNet: Towards Holistic Affordance Grounding in 360{\deg} Indoor Environments

Ce papier présente PanoAffordanceNet, un cadre novateur et un nouveau jeu de données 360-AGD conçus pour résoudre les défis de l'ancrage holistique des affordances dans les environnements intérieurs panoramiques en surmontant les distorsions géométriques et la dispersion sémantique grâce à des mécanismes de calibration et de densification spécifiques.

Guoliang Zhu, Wanjun Jia, Caoyang Shao, Yuheng Zhang, Zhiyong Li, Kailun Yang2026-03-11⚡ eess

Removing the Trigger, Not the Backdoor: Alternative Triggers and Latent Backdoors

Ce papier démontre que les défenses actuelles contre les portes dérobées sont incomplètes car elles se concentrent uniquement sur la suppression des déclencheurs d'entraînement, alors que des déclencheurs alternatifs peuvent exploiter des directions de porte dérobée latentes dans l'espace des caractéristiques pour activer la backdoor.

Gorka Abad, Ermes Franch, Stefanos Koffas, Stjepan Picek2026-03-11💻 cs

Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency

Cet article présente la première exploration de l'adaptation test-temps pour l'anticipation d'actions entre les vues égocentrique et exocentrique, en proposant un réseau innovant (DCPGN) qui utilise une croissance de prototypes multi-étiquettes et une cohérence de double indice visuel-textuel pour surmonter les écarts spatio-temporels sans nécessiter de données cibles supplémentaires.

Zhaofeng Shi, Heqian Qiu, Lanxiao Wang, Qingbo Wu, Fanman Meng, Lili Pan, Hongliang Li2026-03-11💻 cs

RA-SSU: Towards Fine-Grained Audio-Visual Learning with Region-Aware Sound Source Understanding

Ce papier présente RA-SSU, une nouvelle tâche d'apprentissage audio-visuel à granularité fine, accompagnée de deux nouveaux jeux de données annotés (f-Music et f-Lifescene) et d'un modèle de référence nommé SSUFormer, conçu pour réaliser une segmentation précise des sources sonores et générer des descriptions textuelles détaillées au niveau de chaque image.

Muyi Sun, Yixuan Wang, Hong Wang, Chen Su, Man Zhang, Xingqun Qi, Qi Li, Zhenan Sun2026-03-11💻 cs

ConfCtrl: Enabling Precise Camera Control in Video Diffusion via Confidence-Aware Interpolation

ConfCtrl est un cadre d'interpolation vidéo basé sur l'attention à la confiance qui permet aux modèles de diffusion de générer des vues nouvelles géométriquement cohérentes et plausibles à partir de deux images, en combinant des nuages de points projetés avec des corrections résiduelles pour suivre précisément les trajectoires de caméra tout en reconstruisant les régions non vues.

Liudi Yang, George Eskandar, Fengyi Shen, Mohammad Altillawi, Yang Bai, Chi Zhang, Ziyuan Liu, Abhinav Valada2026-03-11💻 cs

BrainSTR: Spatio-Temporal Contrastive Learning for Interpretable Dynamic Brain Network Modeling

Le papier présente BrainSTR, un cadre d'apprentissage contrastif spatio-temporel conçu pour modéliser les réseaux cérébraux dynamiques de manière interprétable en identifiant des phases critiques et des sous-réseaux pertinents pour le diagnostic de troubles neuropsychiatriques tels que l'autisme, le trouble bipolaire et la dépression.

Guiliang Guo, Guangqi Wen, Lingwen Liu, Ruoxian Song, Peng Cao, Jinzhu Yang, Fei Wang, Xiaoli Liu, Osmar R. Zaiane2026-03-11💻 cs

CycleULM: A unified label-free deep learning framework for ultrasound localisation microscopy

CycleULM est un cadre d'apprentissage profond unifié et sans étiquettes qui surpasse les méthodes existantes en améliorant la résolution et la précision de la localisation des microbulles pour la microscopie de localisation par ultrasons, tout en permettant un traitement en temps réel sans nécessiter de données d'entraînement annotées.

Su Yan, Clara Rodrigo Gonzalez, Vincent C. H. Leung, Herman Verinaz-Jadan, Jiakang Chen, Matthieu Toulemonde, Kai Riemer, Jipeng Yan, Clotilde Vié, Qingyuan Tan, Peter D. Weinberg, Pier Luigi Dragotti, Kevin G. Murphy, Meng-Xing Tang2026-03-11⚡ eess

MissBench: Benchmarking Multimodal Affective Analysis under Imbalanced Missing Modalities

Le papier présente MissBench, un nouveau cadre et benchmark pour l'analyse affective multimodale qui standardise les protocoles de données manquantes déséquilibrées et introduit deux métriques diagnostiques (MEI et MLI) pour révéler les inégalités modales et les déséquilibres d'optimisation souvent masqués par les évaluations traditionnelles.

Tien Anh Pham, Phuong-Anh Nguyen, Duc-Trong Le, Cam-Van Thi Nguyen2026-03-11💻 cs

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

Ce rapport présente InternVL-U, un modèle multimodal unifié léger de 4 milliards de paramètres qui démocratise les capacités de compréhension, de raisonnement, de génération et d'édition en surpassant des modèles plus volumineux grâce à une architecture modulaire et un pipeline de données axé sur le raisonnement.

Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang2026-03-11💻 cs

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

Le papier présente DISPLAY, un cadre de génération vidéo d'interactions humain-objet qui utilise une guidance de mouvement épars (coordonnées du poignet et boîte englobante) et une attention focalisée sur l'objet pour produire des vidéos réalistes et contrôlables sans dépendre de signaux de contrôle denses ou de vidéos modèles.

Jiazhi Guan, Quanwei Yang, Luying Huang, Junhao Liang, Borong Liang, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Jingdong Wang2026-03-11💻 cs

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

Cet article présente CourtSI, le premier jeu de données à grande échelle et le benchmark CourtSI-Bench dédiés à l'évaluation et à l'amélioration de l'intelligence spatiale des modèles vision-langage dans les sports de raquette, démontrant ainsi leur potentiel pour combler l'écart de performance entre l'IA et l'humain dans des scénarios dynamiques complexes.

Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong2026-03-11💻 cs

Adaptive Clinical-Aware Latent Diffusion for Multimodal Brain Image Generation and Missing Modality Imputation

Ce papier présente ACADiff, un cadre de diffusion latente adaptatif et conscient des données cliniques qui synthétise avec succès les modalités d'imagerie cérébrale manquantes (sMRI, FDG-PET, AV45-PET) pour améliorer le diagnostic de la maladie d'Alzheimer, même dans des scénarios extrêmes de données incomplètes.

Rong Zhou, Houliang Zhou, Yao Su, Brian Y. Chen, Yu Zhang, Lifang He, Alzheimer's Disease Neuroimaging Initiative2026-03-11🤖 cs.AI