cs.CV articoli | Gist.Science

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

Il paper introduce OmniSpatial, un benchmark completo basato sulla psicologia cognitiva con oltre 8.400 coppie di domande e risposte per valutare le capacità di ragionamento spaziale avanzato dei modelli visione-linguaggio, evidenziando le loro attuali limitazioni e proponendo strategie come PointGraph e SpatialCoT per migliorarle.

Mengdi Jia, Zekun Qi, Shaochen Zhang + 5 more2026-03-03💬 cs.CL

UniCUE: Unified Recognition and Generation Framework for Chinese Cued Speech Video-to-Speech Generation

Il paper presenta UniCUE, il primo framework unificato che genera direttamente l'audio dal video della Lingua dei Segni Cued (CS) cinese senza passare per il testo, superando i limiti delle pipeline tradizionali grazie a un'architettura che integra compiti di riconoscimento e generazione supportata dal nuovo dataset su larga scala UniCUE-HI.

Jinting Wang, Shan Yang, Chenxing Li + 2 more2026-03-03⚡ eess

Improving Wildlife Out-of-Distribution Detection: Africas Big Five

Questo studio migliora il rilevamento di specie selvatiche fuori distribuzione (OOD) per i "Cinque Grandi" dell'Africa, dimostrando che l'approccio basato su Nearest Class Mean (NCM) con feature pre-addestrate su ImageNet supera significativamente i metodi OOD esistenti, riducendo l'overconfidence dei modelli di visione artificiale in ambienti con specie non note.

Mufhumudzi Muthivhi, Jiahao Huo, Fredrik Gustafsson + 1 more2026-03-03🤖 cs.AI

Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering

Il paper propone un approccio di meta-apprendimento che migliora le capacità few-shot dei Large Multimodal Models per il Visual Question Answering distillando prompt soft da caratteristiche visive rilevanti tramite un modulo mappatore di attenzione, superando significativamente sia l'apprendimento in contesto che i metodi di finetuning efficiente.

Akash Gupta, Amos Storkey, Mirella Lapata2026-03-03💬 cs.CL

BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation

Il paper presenta BitVLA, un modello nativo Vision-Language-Action a 1 bit progettato per la manipolazione robotica che, grazie a una strategia di addestramento ottimizzata e alla compressione del backbone visivo, riduce l'occupazione di memoria di 11 volte e la latenza di 4,4 volte mantenendo prestazioni competitive rispetto alle controparti a precisione intera.

Hongyu Wang, Chuyan Xiong, Ruiping Wang + 1 more2026-03-03💻 cs

PD $^{2}$ GS: Part-Level Decoupling and Continuous Deformation of Articulated Objects via Gaussian Splatting

Il paper introduce PD $^{2}$ GS, un nuovo framework auto-supervisionato basato su Gaussian Splatting che risolve la frammentazione nella modellazione di oggetti articolati apprendendo un campo gaussiano canonico condiviso e una deformazione continua per abilitare un controllo fluido e una decoupling accurata a livello di parti, validato anche sul nuovo dataset reale-to-sim RS-Art.

Haowen Wang, Xiaoping Yuan, Zhao Jin + 6 more2026-03-03💻 cs

VITA: Zero-Shot Value Functions via Test-Time Adaptation of Vision-Language Models

Il paper introduce VITA, un metodo di apprendimento zero-shot per funzioni di valore che supera i limiti dei modelli visione-linguaggio congelati attraverso l'adattamento al momento dell'inferenza e una strategia di campionamento basata sulla dissimilarità, ottenendo risultati superiori in compiti di manipolazione robotica e nel shaping della ricompensa per l'apprendimento per rinforzo offline.

Christos Ziakas, Alessandra Russo2026-03-03🤖 cs.AI

VINCIE: Unlocking In-context Image Editing from Video

Il paper introduce VINCIE, un modello basato su trasformatori di diffusione che impara l'editing di immagini in contesto direttamente da video, superando le dipendenze da pipeline specifiche e ottenendo risultati all'avanguardia su benchmark multi-turno.

Leigang Qu, Feng Cheng, Ziyan Yang + 7 more2026-03-03💬 cs.CL

NIC-RobustBench: A Comprehensive Open-Source Toolkit for Neural Image Compression and Robustness Analysis

Il paper introduce NIC-RobustBench, un toolkit open-source che colma il divario nella valutazione della robustezza avversaria dei metodi di compressione neurale delle immagini, offrendo un framework completo per analizzare sia la resilienza dei codec che il loro impatto sulle attività a valle.

Georgii Bychkov, Khaled Abud, Egor Kovalev + 4 more2026-03-03⚡ eess

Consistency-Driven Calibration and Matching for Few-Shot Class-Incremental Learning

Il paper propone ConCM, un framework per l'apprendimento incrementale di classe con pochi esempi che risolve i conflitti di conoscenza attraverso una calibrazione dei prototipi ispirata alla memoria associativa e un adattamento dinamico della struttura delle caratteristiche, ottenendo risultati all'avanguardia su diversi benchmark.

Qinzhe Wang, Zixuan Chen, Keke Huang + 3 more2026-03-03🤖 cs.LG

Rethinking Visual Token Reduction in LVLMs Under Cross-Modal Misalignment

Il paper introduce VisionDrop, un framework di pruning visivo senza addestramento che supera le limitazioni della riduzione guidata dal testo selezionando i token visivi più informativi basandosi esclusivamente sull'attenzione intra-modale, ottenendo così una significativa riduzione della complessità computazionale con una minima perdita di prestazioni.

Rui Xu, Yunke Wang, Yong Luo + 1 more2026-03-03💻 cs

EchoMimicV3: 1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation

Il paper introduce EchoMimicV3, un framework efficiente di soli 1,3 miliardi di parametri che unifica l'animazione umana multi-task e multi-modale attraverso strategie innovative come il "Soup-of-Tasks" e il "Soup-of-Modals", superando i limiti di velocità e costo computazionale delle soluzioni precedenti.

Rang Meng, Yan Wang, Weipeng Wu + 3 more2026-03-03💻 cs

CLiFT: Compressive Light-Field Tokens for Compute-Efficient and Adaptive Neural Rendering

Il paper propone CLiFT, un metodo di rendering neurale che rappresenta le scene tramite "token di campo luminoso compressi", permettendo un rendering efficiente e adattivo che bilancia dimensioni dei dati, qualità e velocità in base al budget computazionale.

Zhengqing Wang, Yuefan Wu, Jiacheng Chen + 2 more2026-03-03💻 cs

Advancing Complex Video Object Segmentation via Progressive Concept Construction

Il paper propone SeC, un nuovo framework di segmentazione video basato sulla costruzione progressiva di concetti ad alto livello tramite modelli visione-linguaggio, che supera gli stati dell'arte esistenti e introduce il benchmark SeCVOS per valutare le prestazioni in scenari complessi e semanticamente ricchi.

Zhixiong Zhang, Shuangrui Ding, Xiaoyi Dong + 7 more2026-03-03🤖 cs.AI

Digital and Robotic Twinning for Validation of Proximity Operations and Formation Flying

Questo articolo presenta un quadro unificato di gemelli digitali e robotici che integra simulazioni avanzate e testbed robotici per validare in modo affidabile e modulare i sistemi di guida, navigazione e controllo (GNC) per le operazioni di rendezvous e il volo in formazione nello spazio.

Z. Ahmed, E. Bates, P. Francesch Huc + 5 more2026-03-03💻 cs

MonoFusion: Sparse-View 4D Reconstruction via Monocular Fusion

Il paper presenta MonoFusion, un metodo che ricostruisce scene dinamiche da video con viste sparse allineando ricostruzioni monocolari indipendenti per ottenere risultati di alta qualità e coerenti, superando i limiti delle costose configurazioni multi-vista tradizionali.

Zihan Wang, Jeff Tan, Tarasha Khurana + 2 more2026-03-03💻 cs

HGTS-Former: Hierarchical HyperGraph Transformer for Multivariate Time Series Analysis

Il paper propone HGTS-Former, una nuova architettura Transformer basata su ipergrafi gerarchici che migliora l'analisi delle serie temporali multivariate modellando le complesse interazioni tra variabili, ottenendo risultati all'avanguardia anche su un nuovo dataset su larga scala per il riconoscimento dei modi localizzati ai bordi nella fusione nucleare.

Hao Si, Xiao Wang, Fan Zhang + 5 more2026-03-03🤖 cs.AI

Fast Magnetic Resonance Simulation Using Combined Update with Grouped Isochromats

Questo lavoro propone un nuovo metodo di simulazione della risonanza magnetica che raggruppa gli isocromati con caratteristiche identiche per condividere i calcoli, riducendo i tempi di elaborazione da 3 a 72 volte rispetto alle tecniche convenzionali.

Hidenori Takeshima2026-03-03⚡ eess

Learning Robust Intervention Representations with Delta Embeddings

Questo lavoro propone l'uso di "Causal Delta Embeddings", rappresentazioni invarianti e sparse delle azioni nel spazio latente, per migliorare la robustezza fuori distribuzione nell'apprendimento di rappresentazioni causali da coppie di immagini senza supervisione aggiuntiva.

Panagiotis Alimisis, Christos Diou2026-03-03🤖 cs.AI

Uni-cot: Towards Unified Chain-of-Thought Reasoning Across Text and Vision

Il paper presenta Uni-CoT, un framework unificato che combina pianificazione macro e esecuzione micro per abilitare un ragionamento multimodale coerente tra testo e immagini, ottenendo prestazioni all'avanguardia con un addestramento efficiente su 8 GPU.

Luozheng Qin, Jia Gong, Yuqing Sun + 6 more2026-03-03💬 cs.CL

← Precedente Successivo →

cs.CV