SimLBR: Learning to Detect Fake Images by Learning to Detect Real Images

Il paper presenta SimLBR, un framework efficiente che migliora la generalizzazione nella rilevazione di immagini fake definendo un confine decisionale attorno alla distribuzione delle immagini reali tramite la regolarizzazione del blending latente, ottenendo risultati superiori su benchmark difficili e introducendo nuove metriche di valutazione orientate all'affidabilità.

Aayush Dhakal, Subash Khanal, Srikumar Sastry + 4 more2026-02-25💻 cs

MedCLIPSeg: Probabilistic Vision-Language Adaptation for Data-Efficient and Generalizable Medical Image Segmentation

Il paper presenta MedCLIPSeg, un nuovo framework che adatta i modelli visione-linguaggio CLIP per la segmentazione di immagini mediche attraverso un'attenzione probabilistica e una perdita contrastiva, ottenendo risultati superiori in termini di accuratezza, efficienza dei dati e generalizzazione su diverse modalità di imaging e organi.

Taha Koleilat, Hojat Asgariandehkordi, Omid Nejati Manzari + 3 more2026-02-25💬 cs.CL

SceMoS: Scene-Aware 3D Human Motion Synthesis by Planning with Geometry-Grounded Tokens

SceMoS è un framework innovativo per la sintesi di movimenti umani 3D guidati dal testo che, disaccoppiando la pianificazione globale dall'esecuzione locale tramite rappresentazioni 2D (immagini BEV e mappe di altezza), raggiunge uno stato dell'arte nel realismo e nell'accuratezza dei contatti riducendo al contempo i parametri di addestramento rispetto ai metodi basati su dati 3D completi.

Anindita Ghosh, Vladislav Golyanik, Taku Komura + 3 more2026-02-25💻 cs

WildGHand: Learning Anti-Perturbation Gaussian Hand Avatars from Monocular In-the-Wild Videos

Il paper introduce WildGHand, un framework basato sull'ottimizzazione che utilizza lo splatting gaussiano 3D e un modulo di disaccoppiamento delle perturbazioni per ricostruire avatar di mani ad alta fedeltà da video monoculari in ambienti reali, superando le limitazioni delle metodologie esistenti in presenza di interazioni con oggetti, pose estreme e variazioni di illuminazione.

Hanhui Li, Xuan Huang, Wanquan Liu + 5 more2026-02-25💻 cs

BFA++: Hierarchical Best-Feature-Aware Token Prune for Multi-View Vision Language Action Model

Il paper presenta BFA++, un framework di pruning dinamico dei token progettato specificamente per i modelli Vision-Language-Action che, attraverso una strategia gerarchica a due livelli per identificare le regioni e le viste più rilevanti, migliora significativamente l'efficienza computazionale e il tasso di successo nelle manipolazioni robotiche reali.

Haosheng Li, Weixin Mao, Zihan Lan + 6 more2026-02-25💻 cs