RoboPCA: Pose-centered Affordance Learning from Human Demonstrations for Robot Manipulation

Ce papier présente RoboPCA, un cadre d'apprentissage centré sur la pose qui prédit conjointement les régions de contact et les poses d'interaction à partir de démonstrations humaines, en utilisant une pipeline de curation de données nommée Human2Afford pour surmonter les incohérences des méthodes existantes et améliorer la manipulation robotique.

Zhanqi Xiao, Ruiping Wang, Xilin Chen2026-03-10💻 cs

Compressed-Domain-Aware Online Video Super-Resolution

Ce papier propose CDA-VSR, une méthode de super-résolution vidéo en ligne qui exploite les informations du domaine compressé (vecteurs de mouvement, cartes de résidus et types de trames) pour améliorer l'efficacité computationnelle et la qualité de reconstruction, surpassant ainsi l'état de l'art en termes de vitesse et de précision sur le jeu de données REDS4.

Yuhang Wang, Hai Li, Shujuan Hou, Zhetao Dong, Xiaoyao Yang2026-03-10💻 cs

Learning Context-Adaptive Motion Priors for Masked Motion Diffusion Models with Efficient Kinematic Attention Aggregation

Cet article présente le MMDM, un modèle de diffusion génératif doté d'un mécanisme d'agrégation d'attention cinématique qui apprend des priors de mouvement adaptatifs au contexte pour reconstruire efficacement des données de mouvement 3D incomplètes ou bruitées via des tâches de raffinement, de complétion et d'interpolation.

Junkun Jiang, Jie Chen, Ho Yin Au, Jingyu Xiang2026-03-10💻 cs

3ViewSense: Spatial and Mental Perspective Reasoning from Orthographic Views in Vision-Language Models

Le papier présente 3ViewSense, un cadre qui comble le déficit d'intelligence spatiale des modèles vision-langage en ancrant le raisonnement dans des vues orthographiques via un mécanisme « simuler-et-raisonner » pour reconstruire des représentations 3D cohérentes.

Shaoxiong Zhan, Yanlin Lai, Zheng Liu, Hai Lin, Shen Li, Xiaodong Cai, Zijian Lin, Wen Huang, Hai-Tao Zheng2026-03-10💬 cs.CL

AR2-4FV: Anchored Referring and Re-identification for Long-Term Grounding in Fixed-View Videos

Le papier présente AR2-4FV, une méthode innovante pour le suivi de référence à long terme dans des vidéos à vue fixe qui utilise une banque d'ancres de fond statique et un mécanisme de ré-identification pour maintenir la cohérence de l'identité même lorsque la cible est occluse ou hors champ, améliorant ainsi considérablement les taux de reprise et réduisant la latence.

Teng Yan, Yihan Liu, Jiongxu Chen, Teng Wang, Jiaqi Li, Bingzhuo Zhong2026-03-10💻 cs

DECADE: A Temporally-Consistent Unsupervised Diffusion Model for Enhanced Rb-82 Dynamic Cardiac PET Image Denoising

Le papier présente DECADE, un cadre de diffusion non supervisé et temporellement cohérent conçu pour réduire le bruit dans les images TEP cardiaques dynamiques au Rb-82 sans données d'entraînement appariées, tout en préservant la précision quantitative et la qualité des images paramétriques.

Yinchi Zhou, Liang Guo, Huidong Xie, Yuexi Du, Ashley Wang, Menghua Xia, Tian Yu, Ramesh Fazzone-Chettiar, Christopher Weyman, Bruce Spottiswoode, Vladimir Panin, Kuangyu Shi, Edward J. Miller, Attila Feher, Albert J. Sinusas, Nicha C. Dvornek, Chi Liu2026-03-10💻 cs

MedQ-Deg: A Multidimensional Benchmark for Evaluating MLLMs Across Medical Image Quality Degradations

Ce papier présente MedQ-Deg, un benchmark multidimensionnel évaluant la robustesse et la calibration de la confiance de 40 modèles multimodaux de langage face à 18 types de dégradations d'images médicales, révélant que leur performance se dégrade systématiquement avec la sévérité des altérations tout en maintenant une confiance inappropriée.

Jiyao Liu, Junzhi Ning, Chenglong Ma, Wanying Qu, Jianghan Shen, Siqi Luo, Jinjie Wei, Jin Ye, Pengze Li, Tianbin Li, Jiashi Lin, Hongming Shan, Xinzhe Luo, Xiaohong Liu, Lihao Liu, Junjun He, Ningsheng Xu2026-03-10💻 cs

Geometric Knowledge-Assisted Federated Dual Knowledge Distillation Approach Towards Remote Sensing Satellite Imagery

Cet article propose le cadre GK-FedDKD, une approche d'apprentissage fédéré assistée par des connaissances géométriques et une distillation de connaissance duale, qui surpasse les méthodes de l'état de l'art pour l'analyse d'images satellites en surmontant l'hétérogénéité des données grâce à l'agrégation de connaissances géométriques globales et à l'augmentation des embeddings locaux.

Luyao Zou, Fei Pan, Jueying Li, Yan Kyaw Tun, Apurba Adhikary, Zhu Han, Hayoung Oh2026-03-10💻 cs

OrdinalBench: A Benchmark Dataset for Diagnosing Generalization Limits in Ordinal Number Understanding of Vision-Language Models

L'article présente OrdinalBench, un nouveau benchmark de 39 000 paires question-réponse conçu pour évaluer et diagnostiquer les limites de généralisation des modèles vision-langage dans la compréhension des nombres ordinaux, en révélant leurs difficultés à identifier des objets selon des règles de parcours complexes et des indices élevés.

Yusuke Tozaki, Hisashi Miyamori2026-03-10💻 cs

SGI: Structured 2D Gaussians for Efficient and Compact Large Image Representation

Ce papier propose SGI, un cadre compact et efficace qui représente les images haute résolution en structurant des gaussiennes 2D autour de graines optimisées via une stratégie multi-échelle, permettant ainsi une compression et une convergence supérieures aux méthodes existantes sans altérer la fidélité de l'image.

Zixuan Pan, Kaiyuan Tang, Jun Xia, Yifan Qin, Lin Gu, Chaoli Wang, Jianxu Chen, Yiyu Shi2026-03-10💻 cs

HybridStitch: Pixel and Timestep Level Model Stitching for Diffusion Acceleration

Le papier présente HybridStitch, une nouvelle méthode d'accélération pour la génération d'images par diffusion qui combine un grand et un petit modèle en traitant la création comme une édition, en utilisant le petit modèle pour les zones simples et le grand pour les zones complexes, permettant ainsi un gain de vitesse de 1,83 fois sur Stable Diffusion 3.

Desen Sun, Jason Hon, Jintao Zhang, Sihang Liu2026-03-10💻 cs

Tracking Phenological Status and Ecological Interactions in a Hawaiian Cloud Forest Understory using Low-Cost Camera Traps and Visual Foundation Models

Cette étude démontre comment l'utilisation de pièges photographiques peu coûteux couplés à des modèles de vision fondationnels permet de suivre avec précision la phénologie végétale et les interactions écologiques dans la sous-couche d'une forêt nuageuse hawaïenne, révélant des tendances invisibles aux méthodes d'échantillonnage traditionnelles.

Luke Meyers, Anirudh Potlapally, Yuyan Chen, Mike Long, Tanya Berger-Wolf, Hari Subramoni, Remi Megret, Daniel Rubenstein2026-03-10💻 cs