Harnessing Chain-of-Thought Reasoning in Multimodal Large Language Models for Face Anti-Spoofing

Cette étude présente FaceCoT, le premier jeu de données VQA à grande échelle pour la détection de falsification faciale, enrichi par un modèle de légende optimisé par apprentissage par renforcement et une stratégie d'apprentissage progressif (CEPL) qui exploitent le raisonnement par chaîne de pensée pour améliorer la robustesse et l'interprétabilité des modèles multimodaux.

Honglu Zhang, Zhiqin Fang, Ningning Zhao + 4 more2026-03-03💻 cs

Improving Wildlife Out-of-Distribution Detection: Africas Big Five

Cette étude propose une méthode améliorée de détection hors distribution pour les animaux sauvages, démontrant que l'approche paramétrique Nearest Class Mean (NCM) combinée à des caractéristiques préentraînées sur ImageNet surpasse significativement les méthodes existantes pour identifier les membres de la « Big Five » africaine et ainsi atténuer les conflits homme-faune.

Mufhumudzi Muthivhi, Jiahao Huo, Fredrik Gustafsson + 1 more2026-03-03🤖 cs.AI

BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation

Ce papier présente BitVLA, un modèle entièrement natif en 1 bit pour la manipulation robotique qui, grâce à une conception optimisée et une stratégie d'entraînement « Quantize-then-Distill », atteint des performances comparables aux modèles pleine précision tout en réduisant la mémoire de 11 fois et la latence de 4,4 fois pour un déploiement efficace sur des dispositifs embarqués.

Hongyu Wang, Chuyan Xiong, Ruiping Wang + 1 more2026-03-03💻 cs

PD2^{2}GS: Part-Level Decoupling and Continuous Deformation of Articulated Objects via Gaussian Splatting

Le papier présente PD²GS, un cadre novateur utilisant le Gaussian Splatting pour modéliser la déformation continue d'objets articulés via un champ gaussien canonique partagé, permettant une découpe précise au niveau des parties et un contrôle fluide sans supervision manuelle, tout en étant validé par le nouveau jeu de données réel-to-sim RS-Art.

Haowen Wang, Xiaoping Yuan, Zhao Jin + 6 more2026-03-03💻 cs

VITA: Zero-Shot Value Functions via Test-Time Adaptation of Vision-Language Models

Le papier présente VITA, une méthode d'apprentissage de fonctions de valeur sans échantillon qui améliore la généralisation et le raisonnement temporel des modèles vision-langage grâce à une adaptation au moment du test et une stratégie d'échantillonnage diversifié, surpassant les méthodes existantes dans des tâches de manipulation robotique et le renforcement hors ligne.

Christos Ziakas, Alessandra Russo2026-03-03🤖 cs.AI

Digital and Robotic Twinning for Validation of Proximity Operations and Formation Flying

Cet article présente un cadre unifié de jumeaux numériques et robotiques, intégrant des environnements de simulation et des bancs d'essai robotisés du laboratoire SLAB de Stanford, pour valider de manière fiable et modulaire les systèmes de guidage, de navigation et de contrôle (GNC) des opérations de rendez-vous spatial et de vol en formation.

Z. Ahmed, E. Bates, P. Francesch Huc + 5 more2026-03-03💻 cs

HGTS-Former: Hierarchical HyperGraph Transformer for Multivariate Time Series Analysis

Cet article propose HGTS-Former, un nouveau modèle Transformer basé sur des hypergraphes hiérarchiques conçu pour améliorer l'analyse des séries temporelles multivariées en capturant les interactions complexes entre les variables, tout en présentant le nouveau jeu de données à grande échelle EAST-ELM640 pour la reconnaissance des modes localisés de bord (ELM) dans la fusion nucléaire.

Hao Si, Xiao Wang, Fan Zhang + 5 more2026-03-03🤖 cs.AI