SiamGM: Siamese Geometry-Aware and Motion-Guided Network for Real-Time Satellite Video Object Tracking

Le papier présente SiamGM, un réseau de suivi d'objets par satellite en temps réel qui surpasse les méthodes de l'état de l'art grâce à une attention graphique inter-cadres et une optimisation guidée par le mouvement, tout en maintenant un débit de 130 images par seconde sans surcoût computationnel.

Zixiao Wen, Zhen Yang, Jiawei Li, Xiantai Xiang, Guangyao Zhou, Yuxin Hu, Yuhan Liu2026-03-10💻 cs

GRD-Net: Generative-Reconstructive-Discriminative Anomaly Detection with Region of Interest Attention Module

Cet article propose GRD-Net, une nouvelle architecture combinant un réseau génératif et un module d'attention sur les régions d'intérêt pour détecter et localiser les anomalies de surface dans des contextes industriels, notamment sur des données pharmaceutiques, en apprenant à partir de produits sains et de défauts synthétiques.

Niccolò Ferrari, Michele Fraccaroli, Evelina Lamma2026-03-10🤖 cs.LG

Efficient RGB-D Scene Understanding via Multi-task Adaptive Learning and Cross-dimensional Feature Guidance

Ce papier présente un modèle efficace de compréhension de scènes RGB-D basé sur l'apprentissage adaptatif multi-tâches et la guidance de caractéristiques interdimensionnelles, qui surpasse les méthodes existantes en précision et en vitesse sur plusieurs jeux de données grâce à une fusion améliorée et des mécanismes d'attention spécifiques.

Guodong Sun, Junjie Liu, Gaoyang Zhang, Bo Wu, Yang Zhang2026-03-10💻 cs

Integration of deep generative Anomaly Detection algorithm in high-speed industrial line

Cet article présente un cadre semi-supervisé d'analyse d'anomalies basé sur une architecture générative adversaire, conçu pour être déployé en ligne sur une chaîne de production pharmaceutique haute vitesse (Blow-Fill-Seal) afin de détecter et localiser les défauts avec une grande précision tout en respectant des contraintes de temps strictes.

Niccolò Ferrari, Nicola Zanarini, Michele Fraccaroli, Alice Bizzarri, Evelina Lamma2026-03-10🤖 cs.LG

Models as Lego Builders: Assembling Malice from Benign Blocks via Semantic Blueprints

Ce papier présente StructAttack, une méthode de contournement de sécurité qui exploite la capacité de raisonnement des modèles vision-langage pour assembler des blocs visuels bénins en une structure cohérente et malveillante via un remplissage de slots sémantiques, permettant ainsi de générer des réponses dangereuses sans déclencher les mécanismes de protection.

Chenxi Li, Xianggan Liu, Dake Shen, Yaosong Du, Zhibo Yao, Hao Jiang, Linyi Jiang, Chengwei Cao, Jingzhe Zhang, RanYi Peng, Peiling Bai, Xiande Huang2026-03-10🤖 cs.LG

Fast Attention-Based Simplification of LiDAR Point Clouds for Object Detection and Classification

Cet article propose une méthode d'apprentissage efficace pour la simplification des nuages de points LiDAR, combinant un module d'incorporation de caractéristiques et un échantillonnage basé sur l'attention, qui surpasse les approches existantes en offrant un compromis optimal entre vitesse de traitement et précision pour la détection et la classification d'objets.

Z. Rozsa, Á. Madaras, Q. Wei, X. Lu, M. Golarits, H. Yuan, T. Sziranyi, R. Hamzaoui2026-03-10💻 cs

EmbedTalk: Triplane-Free Talking Head Synthesis using Embedding-Driven Gaussian Deformation

Le papier présente EmbedTalk, une méthode de synthèse de têtes parlantes qui remplace les tri-planes par des embeddings appris pour piloter la déformation de Gaussiens 3D, permettant ainsi d'obtenir une qualité supérieure et une exécution temps réel sur GPU mobile tout en évitant les limitations des représentations volumétriques traditionnelles.

Arpita Saggar, Jonathan C. Darling, Duygu Sarikaya, David C. Hogg2026-03-10💻 cs

Compression as Adaptation: Implicit Visual Representation with Diffusion Foundation Models

Ce papier propose un nouveau cadre de représentation visuelle implicite qui encode les signaux comme des fonctions paramétrées par des adaptations à faible rang sur un modèle génératif gelé, permettant ainsi une compression vidéo perceptuelle extrêmement efficace et unifiée avec la génération.

Jiajun He, Zongyu Guo, Zhaoyang Jia, Xiaoyi Zhang, Jiahao Li, Xiao Li, Bin Li, José Miguel Hernández-Lobato, Yan Lu2026-03-10🤖 cs.LG

Overthinking Causes Hallucination: Tracing Confounder Propagation in Vision Language Models

Cette étude démontre que les hallucinations dans les modèles vision-langage résultent d'un processus de « surréflexion » où des hypothèses erronées se propagent à travers les couches internes, et propose un nouveau score mesurant cette instabilité pour améliorer significativement la détection de ces hallucinations.

Abin Shoby, Ta Duc Huy, Tuan Dung Nguyen, Minh Khoi Ho, Qi Chen, Anton van den Hengel, Phi Le Nguyen, Johan W. Verjans, Vu Minh Hieu Phan2026-03-10💻 cs

Duala: Dual-Level Alignment of Subjects and Stimuli for Cross-Subject fMRI Decoding

Le papier présente Duala, un cadre d'alignement à double niveau qui améliore le décodage visuel inter-sujets en fMRI en assurant la cohérence sémantique des stimuli et l'adaptation aux variations individuelles, permettant d'atteindre une précision de récupération supérieure à 81,1 % avec un seul heure de données d'entraînement.

Shumeng Li, Jintao Guo, Jian Zhang, Yulin Zhou, Luyang Cao, Yinghuan Shi2026-03-10💻 cs

Real-Time Glottis Detection Framework via Spatial-decoupled Feature Learning for Nasal Transnasal Intubation

Cet article présente Mobile GlottisNet, un cadre de détection de la glotte léger et efficace conçu pour l'intubation nasale en temps réel sur des appareils embarqués, utilisant des mécanismes de découplage spatial et d'apprentissage de caractéristiques pour atteindre une haute vitesse d'inférence tout en garantissant une précision robuste dans des conditions cliniques complexes.

Jinyu Liu, Gaoyang Zhang, Yang Zhou, Ruoyi Hao, Yang Zhang, Hongliang Ren2026-03-10💻 cs

Evaluating Synthetic Data for Baggage Trolley Detection in Airport Logistics

Cet article présente une pipeline de génération de données synthétiques basée sur un jumeau numérique de l'aéroport d'Alger pour entraîner un détecteur de chariots à bagages, démontrant que l'entraînement mixte avec ces données et seulement 40 % d'annotations réelles permet d'atteindre des performances équivalentes à l'utilisation de l'ensemble des données réelles tout en réduisant l'effort d'annotation de 25 à 35 %.

Abdeldjalil Taibi, Mohmoud Badlis, Amina Bensalem, Belkacem Zouilekh, Mohammed Brahimi2026-03-10🤖 cs.LG

AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots

Le papier présente AtomicVLA, un cadre unifié de planification et d'exécution qui surpasse les modèles VLA existants en apprenant et en composant dynamiquement des compétences atomiques via un mélange d'experts guidé par les compétences, permettant ainsi une acquisition continue de compétences pour des tâches robotiques à long horizon.

Likui Zhang, Tao Tang, Zhihao Zhan, Xiuwei Chen, Zisheng Chen, Jianhua Han, Jiangtong Zhu, Pei Xu, Hang Xu, Hefeng Wu, Liang Lin, Xiaodan Liang2026-03-10💻 cs

GLASS: Graph and Vision-Language Assisted Semantic Shape Correspondence

Le papier présente GLASS, un cadre novateur qui combine l'analyse spectrale géométrique et des priors sémantiques issus de modèles vision-langage pour établir des correspondances denses et sémantiquement cohérentes entre des formes 3D, surpassant les méthodes existantes même dans des conditions de déformations non isométriques et inter-classes sans supervision manuelle.

Qinfeng Xiao, Guofeng Mei, Qilong Liu, Chenyuan Yi, Fabio Poiesi, Jian Zhang, Bo Yang, Yick Kit-lun2026-03-10💻 cs

Scaling Test-Time Robustness of Vision-Language Models via Self-Critical Inference Framework

Cet article propose le cadre d'inférence auto-critique (SCI), qui améliore la robustesse des modèles vision-langage en étendant le décodage par contraste visuel via un raisonnement contrefactuel itératif, et introduit DRBench, une nouvelle norme d'évaluation dynamique pour mesurer les biais linguistiques et la sensibilité de ces modèles.

Kaihua Tang, Jiaxin Qi, Jinli Ou, Yuhua Zheng, Jianqiang Huang2026-03-10💻 cs

Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

Ce papier présente Holi-Spatial, le premier jeu de données multimodal à grande échelle entièrement automatisé, construit à partir de flux vidéo bruts pour fournir une supervision spatiale multi-niveaux (incluant des reconstructions 3DGS et des paires questions-réponses) qui améliore significativement les performances des modèles de vision-langage en matière de raisonnement spatial.

Yuanyuan Gao, Hao Li, Yifei Liu, Xinhao Ji, Yuning Gong, Yuanjun Liao, Fangfu Liu, Manyuan Zhang, Yuchen Yang, Dan Xu, Xue Yang, Huaxi Huang, Hongjie Zhang, Ziwei Liu, Xiao Sun, Dingwen Zhang, Zhihang Zhong2026-03-10💻 cs