Harnessing Chain-of-Thought Reasoning in Multimodal Large Language Models for Face Anti-Spoofing

Questo lavoro introduce FaceCoT, il primo dataset su larga scala di domande e risposte visive con ragionamento a catena di pensiero per il rilevamento di falsi volti, e una strategia di apprendimento progressivo potenziata da CoT, che insieme migliorano significativamente la robustezza e l'interpretabilità dei modelli multimodali rispetto agli stati dell'arte.

Honglu Zhang, Zhiqin Fang, Ningning Zhao + 4 more2026-03-03💻 cs

UniCUE: Unified Recognition and Generation Framework for Chinese Cued Speech Video-to-Speech Generation

Il paper presenta UniCUE, il primo framework unificato che genera direttamente l'audio dal video della Lingua dei Segni Cued (CS) cinese senza passare per il testo, superando i limiti delle pipeline tradizionali grazie a un'architettura che integra compiti di riconoscimento e generazione supportata dal nuovo dataset su larga scala UniCUE-HI.

Jinting Wang, Shan Yang, Chenxing Li + 2 more2026-03-03⚡ eess

Improving Wildlife Out-of-Distribution Detection: Africas Big Five

Questo studio migliora il rilevamento di specie selvatiche fuori distribuzione (OOD) per i "Cinque Grandi" dell'Africa, dimostrando che l'approccio basato su Nearest Class Mean (NCM) con feature pre-addestrate su ImageNet supera significativamente i metodi OOD esistenti, riducendo l'overconfidence dei modelli di visione artificiale in ambienti con specie non note.

Mufhumudzi Muthivhi, Jiahao Huo, Fredrik Gustafsson + 1 more2026-03-03🤖 cs.AI

PD2^{2}GS: Part-Level Decoupling and Continuous Deformation of Articulated Objects via Gaussian Splatting

Il paper introduce PD2^{2}GS, un nuovo framework auto-supervisionato basato su Gaussian Splatting che risolve la frammentazione nella modellazione di oggetti articolati apprendendo un campo gaussiano canonico condiviso e una deformazione continua per abilitare un controllo fluido e una decoupling accurata a livello di parti, validato anche sul nuovo dataset reale-to-sim RS-Art.

Haowen Wang, Xiaoping Yuan, Zhao Jin + 6 more2026-03-03💻 cs

VITA: Zero-Shot Value Functions via Test-Time Adaptation of Vision-Language Models

Il paper introduce VITA, un metodo di apprendimento zero-shot per funzioni di valore che supera i limiti dei modelli visione-linguaggio congelati attraverso l'adattamento al momento dell'inferenza e una strategia di campionamento basata sulla dissimilarità, ottenendo risultati superiori in compiti di manipolazione robotica e nel shaping della ricompensa per l'apprendimento per rinforzo offline.

Christos Ziakas, Alessandra Russo2026-03-03🤖 cs.AI