cs.CV articles | Gist.Science

SSL-SLR: Self-Supervised Representation Learning for Sign Language Recognition

Cet article propose un cadre d'apprentissage auto-supervisé innovant pour la reconnaissance de la langue des signes, combinant une approche avec paires négatives libres et une nouvelle technique d'augmentation de données pour surmonter les limites des méthodes contrastives actuelles et améliorer la précision des représentations.

Ariel Basso Madjoukeng, Jérôme Fink, Pierre Poitier, Edith Belise Kenmogne, Benoit Frenay2026-03-09💻 cs

RED: Robust Event-Guided Motion Deblurring with Modality-Specific Disentanglement

Ce papier présente RED, un réseau de défloutage de mouvement guidé par des événements qui améliore la robustesse face aux données manquantes grâce à une stratégie de perturbation et à une fusion sélective des modalités après un mécanisme de disentanglement.

Yihong Leng, Siming Zheng, Jinwei Chen, Bo Li, Jiaojiao Li, Peng-Tao Jiang2026-03-09💻 cs

Kernel VICReg for Self-Supervised Learning in Reproducing Kernel Hilbert Space

Cet article propose Kernel VICReg, un cadre d'apprentissage auto-supervisé novateur qui transpose l'objectif VICReg dans un espace de Hilbert à noyau reproduisant (RKHS) pour capturer des dépendances non linéaires et améliorer les performances sur des données à structure complexe sans nécessiter d'étiquettes.

M. Hadi Sepanj, Benyamin Ghojogh, Saed Moradi, Paul Fieguth2026-03-09🤖 cs.LG

C^2Prompt: Class-aware Client Knowledge Interaction for Federated Continual Learning

Cet article présente C²Prompt, une nouvelle méthode d'apprentissage continu fédéré qui améliore la cohérence des connaissances par classe entre les clients grâce à un mécanisme de compensation de distribution locale et un schéma d'agrégation de prompts conscient des classes, permettant ainsi de surmonter l'oubli spatial et temporel et d'atteindre des performances de pointe.

Kunlun Xu, Yibo Feng, Jiangmeng Li, Yongsheng Qi, Jiahuan Zhou2026-03-09🤖 cs.LG

Decision-Driven Semantic Object Exploration for Legged Robots via Confidence-Calibrated Perception and Topological Subgoal Selection

Cet article propose une approche de navigation pour robots quadrupèdes axée sur la décision sémantique, qui utilise une perception calibrée par la confiance et une sélection de sous-objectifs topologiques pour permettre une exploration efficace en monde ouvert sans dépendre de reconstructions géométriques denses.

Guoyang Zhao, Yudong Li, Weiqing Qi, Kai Zhang, Bonan Liu, Kai Chen, Haoang Li, Jun Ma2026-03-09💻 cs

DeCLIP: Decoupled Prompting for CLIP-based Multi-Label Class-Incremental Learning

Le papier présente DeCLIP, un cadre efficace en paramètres et sans rejeu qui améliore l'apprentissage incrémental multi-étiquettes basé sur CLIP en découplant les représentations via un prompting spécifique à chaque classe et en introduisant un tempérage adaptatif de la similarité pour réduire l'oubli catastrophique et les faux positifs.

Kaile Du, Zihan Ye, Junzhou Xie, Yixi Shen, Yuyang Li, Fuyuan Hu, Ling Shao, Guangcan Liu, Joost van de Weijer, Fan Lyu2026-03-09💻 cs

Beyond Flat Unknown Labels in Open-World Object Detection

Le papier présente BOUND, un détecteur d'objets en monde ouvert qui améliore la prise de décision en inférant des catégories grossières pour les objets inconnus plutôt que de les regrouper sous une étiquette unique, grâce à une architecture intégrant une tête basée sur sparsemax, un reclassement guidé par la hiérarchie et un module de classification apprenant les relations hiérarchiques.

Yuchen Zhang, Yao Lu, Johannes Betz2026-03-09💻 cs

LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference

L'article présente LikePhys, une méthode sans entraînement qui évalue la compréhension de la physique intuitive dans les modèles de diffusion vidéo en mesurant la vraisemblance des vidéos via un objectif de débruitage, démontrant ainsi une forte corrélation avec les préférences humaines et une amélioration des capacités physiques à mesure que l'échelle des modèles augmente.

Jianhao Yuan, Fabio Pizzati, Francesco Pinto, Lars Kunze, Ivan Laptev, Paul Newman, Philip Torr, Daniele De Martini2026-03-09🤖 cs.AI

CanvasMAR: Improving Masked Autoregressive Video Prediction With Canvas

Le papier présente CanvasMAR, un modèle de prédiction vidéo autorégressif novateur qui améliore la qualité et la cohérence de la génération avec peu d'étapes en introduisant un « canevas » global flou comme prior structuré, complété par un curriculum d'apprentissage facile-difficile et un guidage conditionnel composite.

Zian Li, Muhan Zhang2026-03-09🤖 cs.AI

Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views

Le papier présente 3DThinker, un cadre novateur permettant aux modèles vision-langage de raisonner spatialement en 3D à partir de vues limitées sans données 3D explicites, en alignant les représentations latentes avec un modèle 3D fondamental et en optimisant le processus de raisonnement via des signaux de résultat.

Zhangquan Chen, Manyuan Zhang, Xinlei Yu, Xufang Luo, Mingze Sun, Zihao Pan, Xiang An, Yan Feng, Peng Pei, Xunliang Cai, Ruqi Huang2026-03-09🤖 cs.AI

AURASeg: Attention-guided Upsampling with Residual-Assistive Boundary Refinement for Onboard Robot Drivable-Area Segmentation

Ce papier présente AURASeg, un cadre de segmentation d'aire drivable pour robots embarqués qui améliore la précision des contours et l'efficacité des bords grâce à une mise à l'échelle guidée par l'attention et un raffinement résiduel, validé par des déploiements réussis sur des dispositifs edge.

Narendhiran Vijayakumar, Sridevi. M2026-03-09💻 cs

Culture in Action: Evaluating Text-to-Image Models through Social Activities

Ce papier présente CULTIVate, un benchmark évaluant les modèles de génération d'images à partir de texte sur la base d'activités sociales culturelles à travers 16 pays, révélant des biais systématiques en faveur des pays du Nord global et proposant de nouvelles métriques corrélées aux jugements humains.

Sina Malakouti, Boqing Gong, Adriana Kovashka2026-03-09💻 cs

Decoupling Bias, Aligning Distributions: Synergistic Fairness Optimization for Deepfake Detection

Ce papier propose un cadre d'optimisation synergique combinant le découplage structurel des biais et l'alignement global des distributions pour améliorer l'équité inter et intra-groupes dans la détection des deepfakes sans sacrifier la précision globale.

Feng Ding, Wenhui Yi, Yunpeng Zhou, Xinan He, Hong Rao, Shu Hu2026-03-09💻 cs

LaxMotion: Rethinking Supervision Granularity for 3D Human Motion Generation

Le papier présente LaxMotion, un cadre qui améliore la généralisation de la génération de mouvements humains 3D en remplaçant la supervision précise par des coordonnées exactes par une approche fondée sur la cohérence structurelle et sémantique déduite des trajectoires globales et des indices cinématiques monoculaires 2D.

Sheng Liu, Yuanzhi Liang, Sidan Du2026-03-09💻 cs

The Persistence of Cultural Memory: Investigating Multimodal Iconicity in Diffusion Models

Cet article propose un cadre d'évaluation novateur, incluant la métrique CRT, pour analyser la tension entre mémorisation et généralisation dans les modèles de diffusion face à l'iconicité multimodale, démontrant que leur comportement culturel dépend d'une interaction complexe entre la reconnaissance des références et leur réalisation visuelle, au-delà de la simple reproduction des données d'entraînement.

Maria-Teresa De Rosa Palmini, Eva Cetinic2026-03-09🤖 cs.AI

Co-Layout: LLM-driven Co-optimization for Interior Layout

Ce papier présente Co-Layout, un cadre novateur combinant des modèles de langage et une programmation en nombres entiers sur grille pour optimiser conjointement la disposition des pièces et le placement des meubles, surpassant les méthodes existantes grâce à une stratégie d'optimisation de grossier à fin.

Chucheng Xiang, Ruchao Bao, Biyin Feng, Wenzheng Wu, Zhongyuan Liu, Yirui Guan, Ligang Liu2026-03-09💬 cs.CL

SPARK: Jailbreaking T2V Models by Synergistically Prompting Auditory and Recontextualized Knowledge

Ce papier présente SPARK, un cadre d'attaque par contournement (jailbreak) pour les modèles texte-vers-vidéo qui exploite des indices auditifs latents et des connaissances recontextualisées dans des prompts apparemment anodins pour générer du contenu non sécurisé tout en évitant les défenses.

Zonghao Ying, Moyang Chen, Nizhang Li, Zhiqiang Wang, Wenxin Zhang, Quanchen Zou, Zonglei Jing, Aishan Liu, Xianglong Liu2026-03-09💻 cs

MRIQT: Physics-Aware Diffusion Model for Image Quality Transfer in Neonatal Ultra-Low-Field MRI

Le papier présente MRIQT, un modèle de diffusion 3D conditionnel qui améliore la qualité des images IRM néonatales ultra-bas champ en les transférant vers une qualité équivalente à celle des IRM haut champ, surpassant les méthodes existantes tout en préservant la fidélité anatomique et la présence des pathologies.

Malek Al Abed, Sebiha Demir, Anne Groteklaes, Elodie Germani, Shahrooz Faghihroohi, Hemmen Sabir, Shadi Albarqouni2026-03-09💻 cs

FunnyNodules: A Customizable Medical Dataset Tailored for Evaluating Explainable AI

Le papier présente FunnyNodules, un jeu de données synthétique entièrement paramétrable de nodules pulmonaires, conçu pour combler le manque de données médicales annotées avec des raisonnements et permettre une évaluation rigoureuse des modèles d'IA explicable (xAI) en contrôlant précisément la relation entre les attributs visuels et les diagnostics.

Luisa Gallée, Yiheng Xiong, Meinrad Beer, Michael Götz2026-03-09💻 cs

FireScope: Wildfire Risk Prediction with a Chain-of-Thought Oracle

Ce papier présente FireScope, un cadre de modélisation basé sur les grands modèles de langage visuel qui intègre un raisonnement de type « chaîne de pensée » pour prédire les risques d'incendie avec une meilleure généralisation intercontinentale et une interprétabilité accrue, soutenu par le nouveau benchmark FireScope-Bench.

Mario Markov (INSAIT, Sofia University "St. Kliment Ohridski"), Stefan Maria Ailuro (INSAIT, Sofia University "St. Kliment Ohridski"), Luc Van Gool (INSAIT, Sofia University "St. Kliment Ohridski"), Konrad Schindler (ETH Zurich), Danda Pani Paudel (INSAIT, Sofia University "St. Kliment Ohridski")2026-03-09🤖 cs.LG

← Précédent Suivant →