SSL-SLR: Self-Supervised Representation Learning for Sign Language Recognition

Cet article propose un cadre d'apprentissage auto-supervisé innovant pour la reconnaissance de la langue des signes, combinant une approche avec paires négatives libres et une nouvelle technique d'augmentation de données pour surmonter les limites des méthodes contrastives actuelles et améliorer la précision des représentations.

Ariel Basso Madjoukeng, Jérôme Fink, Pierre Poitier, Edith Belise Kenmogne, Benoit Frenay2026-03-09💻 cs

C^2Prompt: Class-aware Client Knowledge Interaction for Federated Continual Learning

Cet article présente C²Prompt, une nouvelle méthode d'apprentissage continu fédéré qui améliore la cohérence des connaissances par classe entre les clients grâce à un mécanisme de compensation de distribution locale et un schéma d'agrégation de prompts conscient des classes, permettant ainsi de surmonter l'oubli spatial et temporel et d'atteindre des performances de pointe.

Kunlun Xu, Yibo Feng, Jiangmeng Li, Yongsheng Qi, Jiahuan Zhou2026-03-09🤖 cs.LG

Decision-Driven Semantic Object Exploration for Legged Robots via Confidence-Calibrated Perception and Topological Subgoal Selection

Cet article propose une approche de navigation pour robots quadrupèdes axée sur la décision sémantique, qui utilise une perception calibrée par la confiance et une sélection de sous-objectifs topologiques pour permettre une exploration efficace en monde ouvert sans dépendre de reconstructions géométriques denses.

Guoyang Zhao, Yudong Li, Weiqing Qi, Kai Zhang, Bonan Liu, Kai Chen, Haoang Li, Jun Ma2026-03-09💻 cs

DeCLIP: Decoupled Prompting for CLIP-based Multi-Label Class-Incremental Learning

Le papier présente DeCLIP, un cadre efficace en paramètres et sans rejeu qui améliore l'apprentissage incrémental multi-étiquettes basé sur CLIP en découplant les représentations via un prompting spécifique à chaque classe et en introduisant un tempérage adaptatif de la similarité pour réduire l'oubli catastrophique et les faux positifs.

Kaile Du, Zihan Ye, Junzhou Xie, Yixi Shen, Yuyang Li, Fuyuan Hu, Ling Shao, Guangcan Liu, Joost van de Weijer, Fan Lyu2026-03-09💻 cs

Beyond Flat Unknown Labels in Open-World Object Detection

Le papier présente BOUND, un détecteur d'objets en monde ouvert qui améliore la prise de décision en inférant des catégories grossières pour les objets inconnus plutôt que de les regrouper sous une étiquette unique, grâce à une architecture intégrant une tête basée sur sparsemax, un reclassement guidé par la hiérarchie et un module de classification apprenant les relations hiérarchiques.

Yuchen Zhang, Yao Lu, Johannes Betz2026-03-09💻 cs

LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference

L'article présente LikePhys, une méthode sans entraînement qui évalue la compréhension de la physique intuitive dans les modèles de diffusion vidéo en mesurant la vraisemblance des vidéos via un objectif de débruitage, démontrant ainsi une forte corrélation avec les préférences humaines et une amélioration des capacités physiques à mesure que l'échelle des modèles augmente.

Jianhao Yuan, Fabio Pizzati, Francesco Pinto, Lars Kunze, Ivan Laptev, Paul Newman, Philip Torr, Daniele De Martini2026-03-09🤖 cs.AI

Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views

Le papier présente 3DThinker, un cadre novateur permettant aux modèles vision-langage de raisonner spatialement en 3D à partir de vues limitées sans données 3D explicites, en alignant les représentations latentes avec un modèle 3D fondamental et en optimisant le processus de raisonnement via des signaux de résultat.

Zhangquan Chen, Manyuan Zhang, Xinlei Yu, Xufang Luo, Mingze Sun, Zihao Pan, Xiang An, Yan Feng, Peng Pei, Xunliang Cai, Ruqi Huang2026-03-09🤖 cs.AI

The Persistence of Cultural Memory: Investigating Multimodal Iconicity in Diffusion Models

Cet article propose un cadre d'évaluation novateur, incluant la métrique CRT, pour analyser la tension entre mémorisation et généralisation dans les modèles de diffusion face à l'iconicité multimodale, démontrant que leur comportement culturel dépend d'une interaction complexe entre la reconnaissance des références et leur réalisation visuelle, au-delà de la simple reproduction des données d'entraînement.

Maria-Teresa De Rosa Palmini, Eva Cetinic2026-03-09🤖 cs.AI

SPARK: Jailbreaking T2V Models by Synergistically Prompting Auditory and Recontextualized Knowledge

Ce papier présente SPARK, un cadre d'attaque par contournement (jailbreak) pour les modèles texte-vers-vidéo qui exploite des indices auditifs latents et des connaissances recontextualisées dans des prompts apparemment anodins pour générer du contenu non sécurisé tout en évitant les défenses.

Zonghao Ying, Moyang Chen, Nizhang Li, Zhiqiang Wang, Wenxin Zhang, Quanchen Zou, Zonglei Jing, Aishan Liu, Xianglong Liu2026-03-09💻 cs

MRIQT: Physics-Aware Diffusion Model for Image Quality Transfer in Neonatal Ultra-Low-Field MRI

Le papier présente MRIQT, un modèle de diffusion 3D conditionnel qui améliore la qualité des images IRM néonatales ultra-bas champ en les transférant vers une qualité équivalente à celle des IRM haut champ, surpassant les méthodes existantes tout en préservant la fidélité anatomique et la présence des pathologies.

Malek Al Abed, Sebiha Demir, Anne Groteklaes, Elodie Germani, Shahrooz Faghihroohi, Hemmen Sabir, Shadi Albarqouni2026-03-09💻 cs

FunnyNodules: A Customizable Medical Dataset Tailored for Evaluating Explainable AI

Le papier présente FunnyNodules, un jeu de données synthétique entièrement paramétrable de nodules pulmonaires, conçu pour combler le manque de données médicales annotées avec des raisonnements et permettre une évaluation rigoureuse des modèles d'IA explicable (xAI) en contrôlant précisément la relation entre les attributs visuels et les diagnostics.

Luisa Gallée, Yiheng Xiong, Meinrad Beer, Michael Götz2026-03-09💻 cs

FireScope: Wildfire Risk Prediction with a Chain-of-Thought Oracle

Ce papier présente FireScope, un cadre de modélisation basé sur les grands modèles de langage visuel qui intègre un raisonnement de type « chaîne de pensée » pour prédire les risques d'incendie avec une meilleure généralisation intercontinentale et une interprétabilité accrue, soutenu par le nouveau benchmark FireScope-Bench.

Mario Markov (INSAIT, Sofia University "St. Kliment Ohridski"), Stefan Maria Ailuro (INSAIT, Sofia University "St. Kliment Ohridski"), Luc Van Gool (INSAIT, Sofia University "St. Kliment Ohridski"), Konrad Schindler (ETH Zurich), Danda Pani Paudel (INSAIT, Sofia University "St. Kliment Ohridski")2026-03-09🤖 cs.LG