TALON: Test-time Adaptive Learning for On-the-Fly Category Discovery

Le papier TALON propose un cadre d'apprentissage adaptatif en temps réel qui surpasse les méthodes existantes basées sur le hachage pour la découverte de catégories à la volée, en évitant la fragmentation des classes grâce à une mise à jour dynamique des prototypes sémantiques et de l'encodeur, ainsi qu'à une calibration des logits.

Yanan Wu, Yuhan Yan, Tailai Chen, Zhixiang Chi, ZiZhang Wu, Yi Jin, Yang Wang, Zhenbo Li2026-03-10💻 cs

DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

Ce papier présente DSH-Bench, un benchmark complet intégrant une taxonomie hiérarchique de sujets, une classification par difficulté et scénario, et une nouvelle métrique de cohérence d'identité (SICS) pour évaluer et guider l'amélioration des modèles de génération d'images text-to-image axés sur un sujet spécifique.

Zhenyu Hu, Qing Wang, Te Cao, Luo Liao, Longfei Lu, Liqun Liu, Shuang Li, Hang Chen, Mengge Xue, Yuan Chen, Chao Deng, Peng Shu, Huan Yu, Jie Jiang2026-03-10💻 cs

Adaptive MLP Pruning for Large Vision Transformers

Cet article propose une méthode d'élagage adaptif des perceptrons multicouches (AMP) qui réduit d'environ 40 % les paramètres et les FLOPs des grands transformateurs de vision sans perte significative de performance, en utilisant un critère d'entropie informationnelle sans étiquette pour évaluer l'importance des neurones et un algorithme de recherche binaire pour déterminer automatiquement le taux de compression.

Chengchao Shen2026-03-10💻 cs

SAMoE-VLA: A Scene Adaptive Mixture-of-Experts Vision-Language-Action Model for Autonomous Driving

Le papier présente SAMoE-VLA, un modèle d'action visuelle et linguistique adaptatif qui améliore la sécurité et les performances de la conduite autonome en remplaçant le routage d'experts basé sur les tokens par un mécanisme conditionné aux représentations de scène en vue aérienne, tout en intégrant un mécanisme d'attention causale intermodale pour un raisonnement temporel cohérent.

Zihan You, Hongwei Liu, Chenxu Dang, Zhe Wang, Sining Ang, Aoqi Wang, Yan Wang2026-03-10💻 cs

UniGround: Universal 3D Visual Grounding via Training-Free Scene Parsing

Le papier présente UniGround, une méthode sans entraînement pour le repérage visuel 3D universel qui remplace les modèles pré-entraînés par un raisonnement géométrique et visuel libre d'entraînement afin de localiser des objets dans n'importe quel environnement 3D, établissant ainsi un nouvel état de l'art parmi les méthodes zero-shot.

Jiaxi Zhang, Yunheng Wang, Wei Lu, Taowen Wang, Weisheng Xu, Shuning Zhang, Yixiao Feng, Yuetong Fang, Renjing Xu2026-03-10💻 cs

Fast Low-light Enhancement and Deblurring for 3D Dark Scenes

Ce papier présente FLED-GS, un cadre rapide d'amélioration en faible luminosité et de défloutage pour la synthèse de nouvelles vues en 3D, qui reformule la restauration de scène comme un cycle alterné d'amélioration et de reconstruction pour surpasser les méthodes existantes tout en accélérant considérablement l'entraînement et le rendu.

Feng Zhang, Jinglong Wang, Ze Li, Yanghong Zhou, Yang Chen, Lei Chen, Xiatian Zhu2026-03-10💻 cs

MV-Fashion: Towards Enabling Virtual Try-On and Size Estimation with Multi-View Paired Data

Ce papier présente MV-Fashion, un vaste jeu de données vidéo multi-vues contenant des captures synchronisées de vêtements portés et de leurs versions plates, enrichi d'annotations sémantiques et de propriétés matérielles pour combler le manque de données réalistes et annotées dans les tâches de essayage virtuel et d'estimation de taille.

Hunor Laczkó, Libang Jia, Loc-Phat Truong, Diego Hernández, Sergio Escalera, Jordi Gonzalez, Meysam Madadi2026-03-10💻 cs

Edged USLAM: Edge-Aware Event-Based SLAM with Learning-Based Depth Priors

L'article présente Edged USLAM, un système hybride de localisation et cartographie (SLAM) visuel-inertiel qui intègre un front-end sensible aux contours et un module d'estimation de profondeur pour surmonter les limitations des caméras événementielles et assurer une localisation robuste et précise dans des conditions d'éclairage difficiles et lors de mouvements variés.

Sebnem Sarıözkan, Hürkan Sahin, Olaya Álvarez-Tuñón, Erdal Kayacan2026-03-10💻 cs

MERLIN: Building Low-SNR Robust Multimodal LLMs for Electromagnetic Signals

Le papier présente MERLIN, un cadre d'entraînement novateur pour les modèles de langage multimodaux robustes aux faibles rapports signal-sur-bruit dans le domaine électromagnétique, accompagné de la création du jeu de données EM-100k et de la benchmark EM-Bench pour surmonter les défis de données, d'évaluation et de modélisation.

Junyu Shen, Zhendong She, Chenghanyu Zhang, Yuchuang Sun, Luqing Luo, Dingwei Tan, Zonghao Guo, Bo Guo, Zehua Han, Wupeng Xie, Yaxin Mu, Peng Zhang, Peipei Li, Fengxiang Wang, Yangang Sun, Maosong Sun2026-03-10💻 cs

ALOOD: Exploiting Language Representations for LiDAR-based Out-of-Distribution Object Detection

Le papier présente ALOOD, une méthode innovante qui exploite les représentations linguistiques d'un modèle vision-langage pour transformer la détection d'objets hors distribution (OOD) en LiDAR en une tâche de classification zéro-shot, améliorant ainsi la sécurité des systèmes de conduite autonome.

Michael Kösel, Marcel Schreiber, Michael Ulrich, Claudius Gläser, Klaus Dietmayer2026-03-10🤖 cs.LG

MM-TS: Multi-Modal Temperature and Margin Schedules for Contrastive Learning with Long-Tail Data

Ce papier propose MM-TS, une méthode de schedule dynamique de température et de marge pour l'apprentissage contrastif multimodal sur des données à longue traîne, qui améliore les performances en adaptant les forces d'attraction et de répulsion selon la densité locale des échantillons et en unifiant les approches InfoNCE et à marge maximale.

Siarhei Sheludzko, Dhimitrios Duka, Bernt Schiele, Hilde Kuehne, Anna Kukleva2026-03-10💻 cs

Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors

Cette étude propose deux stratégies de fusion multimodale, RGIF et RGMAF, qui intègrent l'alignement spatial et un mécanisme d'attention pondéré par la fiabilité pour améliorer significativement la détection d'UAV en combinant des données thermiques et visuelles hétérogènes.

Ishrat Jahan, Molla E Majid, M Murugappan, Muhammad E. H. Chowdhury, N. B. Prakash, Saad Bin Abul Kashem, Balamurugan Balusamy, Amith Khandakar2026-03-10💻 cs

Video2LoRA: Unified Semantic-Controlled Video Generation via Per-Reference-Video LoRA

Le papier présente Video2LoRA, un cadre unifié et économe en ressources qui utilise un hyper-réseau léger pour générer dynamiquement des poids LoRA personnalisés à partir d'une vidéo de référence, permettant ainsi une génération vidéo sémantiquement alignée et généralisable sans nécessiter d'entraînement par condition.

Zexi Wu, Qinghe Wang, Jing Dai, Baolu Li, Yiming Zhang, Yue Ma, Xu Jia, Hongming Xu2026-03-10💻 cs