Flexible-weighted Chamfer Distance: Enhanced Objective Function for Point Cloud Completion

Il paper presenta la Distanza di Chamfer a pesi flessibili (FCD), una nuova funzione obiettivo asimmetrica che, decouplando precisione locale e completezza globale, risolve i problemi di aggregazione dei punti e migliora significativamente la qualità e l'uniformità strutturale dei risultati nella completazione di nuvole di punti rispetto alla Distanza di Chamfer standard.

Jie Li, Shengwei Tian, Long Yu + 1 more2026-03-03💻 cs

DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning

Il paper presenta DeepEyes, un modello visione-linguaggio addestrato tramite reinforcement learning che impara nativamente a "pensare con le immagini" integrando attivamente le informazioni visive nel ragionamento, migliorando così le prestazioni in compiti di percezione, ragionamento matematico e riducendo le allucinazioni senza bisogno di dati di ragionamento pre-collezionati.

Ziwei Zheng, Michael Yang, Jack Hong + 5 more2026-03-03💻 cs

GradPCA: Leveraging NTK Alignment for Reliable Out-of-Distribution Detection

Il paper introduce GradPCA, un metodo per il rilevamento di dati fuori distribuzione (OOD) che sfrutta la struttura a basso rango dei gradienti delle reti neurali indotta dall'allineamento NTK, applicando l'analisi delle componenti principali (PCA) alle medie dei gradienti per ottenere prestazioni più coerenti e fornendo un quadro teorico che evidenzia il ruolo cruciale della qualità delle feature.

Mariia Seleznova, Hung-Hsu Chou, Claudio Mayrink Verdun + 1 more2026-03-03🤖 cs.LG

Harnessing Chain-of-Thought Reasoning in Multimodal Large Language Models for Face Anti-Spoofing

Questo lavoro introduce FaceCoT, il primo dataset su larga scala di domande e risposte visive con ragionamento a catena di pensiero per il rilevamento di falsi volti, e una strategia di apprendimento progressivo potenziata da CoT, che insieme migliorano significativamente la robustezza e l'interpretabilità dei modelli multimodali rispetto agli stati dell'arte.

Honglu Zhang, Zhiqin Fang, Ningning Zhao + 4 more2026-03-03💻 cs

UniCUE: Unified Recognition and Generation Framework for Chinese Cued Speech Video-to-Speech Generation

Il paper presenta UniCUE, il primo framework unificato che genera direttamente l'audio dal video della Lingua dei Segni Cued (CS) cinese senza passare per il testo, superando i limiti delle pipeline tradizionali grazie a un'architettura che integra compiti di riconoscimento e generazione supportata dal nuovo dataset su larga scala UniCUE-HI.

Jinting Wang, Shan Yang, Chenxing Li + 2 more2026-03-03⚡ eess

Improving Wildlife Out-of-Distribution Detection: Africas Big Five

Questo studio migliora il rilevamento di specie selvatiche fuori distribuzione (OOD) per i "Cinque Grandi" dell'Africa, dimostrando che l'approccio basato su Nearest Class Mean (NCM) con feature pre-addestrate su ImageNet supera significativamente i metodi OOD esistenti, riducendo l'overconfidence dei modelli di visione artificiale in ambienti con specie non note.

Mufhumudzi Muthivhi, Jiahao Huo, Fredrik Gustafsson + 1 more2026-03-03🤖 cs.AI

PD2^{2}GS: Part-Level Decoupling and Continuous Deformation of Articulated Objects via Gaussian Splatting

Il paper introduce PD2^{2}GS, un nuovo framework auto-supervisionato basato su Gaussian Splatting che risolve la frammentazione nella modellazione di oggetti articolati apprendendo un campo gaussiano canonico condiviso e una deformazione continua per abilitare un controllo fluido e una decoupling accurata a livello di parti, validato anche sul nuovo dataset reale-to-sim RS-Art.

Haowen Wang, Xiaoping Yuan, Zhao Jin + 6 more2026-03-03💻 cs

VITA: Zero-Shot Value Functions via Test-Time Adaptation of Vision-Language Models

Il paper introduce VITA, un metodo di apprendimento zero-shot per funzioni di valore che supera i limiti dei modelli visione-linguaggio congelati attraverso l'adattamento al momento dell'inferenza e una strategia di campionamento basata sulla dissimilarità, ottenendo risultati superiori in compiti di manipolazione robotica e nel shaping della ricompensa per l'apprendimento per rinforzo offline.

Christos Ziakas, Alessandra Russo2026-03-03🤖 cs.AI