cs.CV articles | Gist.Science

Harnessing Chain-of-Thought Reasoning in Multimodal Large Language Models for Face Anti-Spoofing

Cette étude présente FaceCoT, le premier jeu de données VQA à grande échelle pour la détection de falsification faciale, enrichi par un modèle de légende optimisé par apprentissage par renforcement et une stratégie d'apprentissage progressif (CEPL) qui exploitent le raisonnement par chaîne de pensée pour améliorer la robustesse et l'interprétabilité des modèles multimodaux.

Honglu Zhang, Zhiqin Fang, Ningning Zhao + 4 more2026-03-03💻 cs

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

Ce travail présente OmniSpatial, un benchmark complet et difficile fondé sur la psychologie cognitive pour évaluer le raisonnement spatial des modèles vision-langage, révélant leurs limites actuelles et proposant des stratégies d'amélioration telles que PointGraph et SpatialCoT.

Mengdi Jia, Zekun Qi, Shaochen Zhang + 5 more2026-03-03💬 cs.CL

UniCUE: Unified Recognition and Generation Framework for Chinese Cued Speech Video-to-Speech Generation

Le papier présente UniCUE, un cadre unifié innovant qui génère directement de la parole à partir de vidéos de langage des signes chinois sans passer par un texte intermédiaire, en s'appuyant sur un nouveau jeu de données à grande échelle et en intégrant des tâches de reconnaissance pour guider la génération audio.

Jinting Wang, Shan Yang, Chenxing Li + 2 more2026-03-03⚡ eess

Improving Wildlife Out-of-Distribution Detection: Africas Big Five

Cette étude propose une méthode améliorée de détection hors distribution pour les animaux sauvages, démontrant que l'approche paramétrique Nearest Class Mean (NCM) combinée à des caractéristiques préentraînées sur ImageNet surpasse significativement les méthodes existantes pour identifier les membres de la « Big Five » africaine et ainsi atténuer les conflits homme-faune.

Mufhumudzi Muthivhi, Jiahao Huo, Fredrik Gustafsson + 1 more2026-03-03🤖 cs.AI

Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering

Cet article propose une méthode d'adaptation méta-learnée par distillation de prompts souples à partir de caractéristiques visuelles pertinentes, permettant aux modèles multimodaux de grande taille d'améliorer significativement leurs performances en question-réponse visuelle avec peu d'exemples en surmontant les limites de l'apprentissage par contexte.

Akash Gupta, Amos Storkey, Mirella Lapata2026-03-03💬 cs.CL

BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation

Ce papier présente BitVLA, un modèle entièrement natif en 1 bit pour la manipulation robotique qui, grâce à une conception optimisée et une stratégie d'entraînement « Quantize-then-Distill », atteint des performances comparables aux modèles pleine précision tout en réduisant la mémoire de 11 fois et la latence de 4,4 fois pour un déploiement efficace sur des dispositifs embarqués.

Hongyu Wang, Chuyan Xiong, Ruiping Wang + 1 more2026-03-03💻 cs

PD $^{2}$ GS: Part-Level Decoupling and Continuous Deformation of Articulated Objects via Gaussian Splatting

Le papier présente PD²GS, un cadre novateur utilisant le Gaussian Splatting pour modéliser la déformation continue d'objets articulés via un champ gaussien canonique partagé, permettant une découpe précise au niveau des parties et un contrôle fluide sans supervision manuelle, tout en étant validé par le nouveau jeu de données réel-to-sim RS-Art.

Haowen Wang, Xiaoping Yuan, Zhao Jin + 6 more2026-03-03💻 cs

VITA: Zero-Shot Value Functions via Test-Time Adaptation of Vision-Language Models

Le papier présente VITA, une méthode d'apprentissage de fonctions de valeur sans échantillon qui améliore la généralisation et le raisonnement temporel des modèles vision-langage grâce à une adaptation au moment du test et une stratégie d'échantillonnage diversifié, surpassant les méthodes existantes dans des tâches de manipulation robotique et le renforcement hors ligne.

Christos Ziakas, Alessandra Russo2026-03-03🤖 cs.AI

VINCIE: Unlocking In-context Image Editing from Video

VINCIE est une approche novatrice qui apprend l'édition d'images en contexte directement à partir de vidéos en utilisant un transformateur de diffusion à causalité bloc et un benchmark multi-tours, démontrant ainsi des performances de pointe sans dépendre de pipelines ou de modèles experts spécifiques.

Leigang Qu, Feng Cheng, Ziyan Yang + 7 more2026-03-03💬 cs.CL

NIC-RobustBench: A Comprehensive Open-Source Toolkit for Neural Image Compression and Robustness Analysis

Ce papier présente NIC-RobustBench, une boîte à outils open-source complète conçue pour combler le manque d'évaluations de robustesse dans la compression d'images neuronale en intégrant des attaques adverses, des stratégies de défense et des métriques d'impact sur les tâches en aval.

Georgii Bychkov, Khaled Abud, Egor Kovalev + 4 more2026-03-03⚡ eess

Consistency-Driven Calibration and Matching for Few-Shot Class-Incremental Learning

Cet article propose ConCM, un cadre novateur pour l'apprentissage incrémental de classes à peu d'exemples qui résout les conflits de connaissances grâce à une calibration de prototypes inspirée de la mémoire associative et à un appariement structurel dynamique, établissant ainsi de nouvelles performances de pointe sur plusieurs benchmarks.

Qinzhe Wang, Zixuan Chen, Keke Huang + 3 more2026-03-03🤖 cs.LG

Rethinking Visual Token Reduction in LVLMs Under Cross-Modal Misalignment

Cet article présente VisionDrop, un cadre d'élagage visuel sans entraînement qui surmonte les désalignements intermodaux en sélectionnant des tokens visuels informatifs via une attention intra-modale, réduisant ainsi considérablement la latence et le coût computationnel des modèles vision-langage tout en préservant leurs performances.

Rui Xu, Yunke Wang, Yong Luo + 1 more2026-03-03💻 cs

EchoMimicV3: 1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation

EchoMimicV3 est un cadre efficace de 1,3 milliard de paramètres qui unifie l'animation humaine multi-tâches et multi-modale grâce à des paradigmes innovants et des stratégies d'entraînement avancées, permettant d'obtenir des performances compétitives tout en réduisant les coûts computationnels.

Rang Meng, Yan Wang, Weipeng Wu + 3 more2026-03-03💻 cs

CLiFT: Compressive Light-Field Tokens for Compute-Efficient and Adaptive Neural Rendering

Ce papier propose CLiFT, une méthode de rendu neuronal adaptatif qui représente les scènes sous forme de « jetons de champ lumineux compressés » pour offrir un compromis efficace entre la taille des données, la qualité du rendu et la vitesse de calcul tout en permettant de moduler dynamiquement le nombre de jetons utilisés.

Zhengqing Wang, Yuefan Wu, Jiacheng Chen + 2 more2026-03-03💻 cs

Advancing Complex Video Object Segmentation via Progressive Concept Construction

Ce papier présente SeC, un cadre de segmentation d'objets vidéo basé sur la construction progressive de concepts via des modèles vision-langage, qui établit un nouvel état de l'art en surpassant SAM 2 de 11,8 points sur le nouveau benchmark SeCVOS dédié aux scénarios sémantiquement complexes.

Zhixiong Zhang, Shuangrui Ding, Xiaoyi Dong + 7 more2026-03-03🤖 cs.AI

Digital and Robotic Twinning for Validation of Proximity Operations and Formation Flying

Cet article présente un cadre unifié de jumeaux numériques et robotiques, intégrant des environnements de simulation et des bancs d'essai robotisés du laboratoire SLAB de Stanford, pour valider de manière fiable et modulaire les systèmes de guidage, de navigation et de contrôle (GNC) des opérations de rendez-vous spatial et de vol en formation.

Z. Ahmed, E. Bates, P. Francesch Huc + 5 more2026-03-03💻 cs

MonoFusion: Sparse-View 4D Reconstruction via Monocular Fusion

Le papier MonoFusion propose une méthode pour reconstruire des scènes dynamiques à partir d'un petit nombre de vues monoculaires en alignant soigneusement les reconstructions indépendantes de chaque caméra, surpassant ainsi les approches précédentes qui nécessitent des captures multi-vues denses et coûteuses.

Zihan Wang, Jeff Tan, Tarasha Khurana + 2 more2026-03-03💻 cs

HGTS-Former: Hierarchical HyperGraph Transformer for Multivariate Time Series Analysis

Cet article propose HGTS-Former, un nouveau modèle Transformer basé sur des hypergraphes hiérarchiques conçu pour améliorer l'analyse des séries temporelles multivariées en capturant les interactions complexes entre les variables, tout en présentant le nouveau jeu de données à grande échelle EAST-ELM640 pour la reconnaissance des modes localisés de bord (ELM) dans la fusion nucléaire.

Hao Si, Xiao Wang, Fan Zhang + 5 more2026-03-03🤖 cs.AI

Fast Magnetic Resonance Simulation Using Combined Update with Grouped Isochromats

Cet article propose une nouvelle méthode de simulation IRM rapide qui regroupe les isochromates partageant des propriétés communes pour réduire considérablement les temps de calcul, offrant un gain de vitesse de 3 à 72 fois par rapport aux approches conventionnelles.

Hidenori Takeshima2026-03-03⚡ eess

Learning Robust Intervention Representations with Delta Embeddings

Cet article propose d'améliorer la robustesse hors distribution en représentant les interventions par des « Causal Delta Embeddings » invariants visuellement et parcimonieux, permettant d'apprendre des représentations causales à partir de paires d'images sans supervision supplémentaire.

Panagiotis Alimisis, Christos Diou2026-03-03🤖 cs.AI

← Précédent Suivant →

cs.CV