cs.CV articoli | Gist.Science

DMTrack: Spatio-Temporal Multimodal Tracking via Dual-Adapter

Il paper presenta DMTrack, un nuovo approccio per il tracciamento multimodale spaziotemporale che utilizza un'architettura a doppio adattatore (STMA e PMCA) per ottenere risultati all'avanguardia su cinque benchmark con soli 0,93 milioni di parametri addestrabili.

Weihong Li, Shaohua Dong, Haonan Lu + 3 more2026-03-04🤖 cs.AI

Zero-shot CT Super-Resolution using Diffusion-based 2D Projection Priors and Signed 3D Gaussians

Questo articolo presenta un nuovo framework zero-shot per la super-risoluzione 3D delle immagini TC che integra prior di proiezione 2D basati su diffusione e una tecnica di splatting gaussiano 3D con fusione alfa negativa (NAB-GS) per ricostruire volumi ad alta risoluzione da input a bassa risoluzione senza richiedere dataset appaiati.

Jeonghyun Noh, Hyun-Jic Oh, Won-Ki Jeong2026-03-04⚡ eess

MMTok: Multimodal Coverage Maximization for Efficient Inference of VLMs

Il paper presenta MMTok, un metodo che massimizza la copertura multimodale selezionando i token visivi più informativi combinando sia le informazioni visive che testuali per migliorare l'efficienza di inferenza dei modelli visione-linguaggio senza comprometterne le prestazioni.

Sixun Dong, Juhua Hu, Mian Zhang + 3 more2026-03-04💻 cs

ConEQsA: Concurrent and Asynchronous Embodied Questions Scheduling and Answering

Questo articolo introduce ConEQsA, un sistema agenziale e un benchmark per la Risposta Asincrona e Concorrente a Domande Embodied (EQsA), progettato per gestire in modo efficiente domande multiple con diverse priorità in ambienti 3D attraverso la pianificazione dinamica e la memoria condivisa.

Haisheng Wang, Dong Liu, Weiming Zhi2026-03-04🤖 cs.AI

Are VLMs Ready for Lane Topology Awareness in Autonomous Driving?

Questo studio valuta sistematicamente le capacità dei modelli visione-linguaggio (VLM) nella comprensione della topologia stradale per la guida autonoma, rivelando che, nonostante i progressi, le attuali architetture, inclusi i modelli chiusi all'avanguardia, presentano carenze significative nel ragionamento spaziale che rappresentano un collo di bottiglia fondamentale.

Xin Chen, Jia He, Maozheng Li + 5 more2026-03-04💻 cs

SiNGER: A Clearer Voice Distills Vision Transformers Further

Il paper introduce SiNGER, un nuovo framework di distillazione che migliora le prestazioni dei modelli studenteschi eliminando gli artefatti ad alta norma dai Vision Transformer preservando al contempo i segnali informativi, ottenendo così rappresentazioni più chiare e risultati all'avanguardia.

Geunhyeok Yu, Sunjae Jeong, Yoonyoung Choi + 2 more2026-03-04🤖 cs.AI

Earth-Agent: Unlocking the Full Landscape of Earth Observation with Agents

Il paper introduce Earth-Agent, un innovativo framework agentiche unifica dati di osservazione terrestre RGB e spettrali in un ecosistema di strumenti basato su MCP per abilitare ragionamenti spaziotemporali complessi e quantitativi, accompagnato da Earth-Bench, un benchmark completo per la valutazione sistematica di tali capacità.

Peilin Feng, Zhutao Lv, Junyan Ye + 8 more2026-03-04💻 cs

PROFusion: Robust and Accurate Dense Reconstruction via Camera Pose Regression and Optimization

Il paper presenta PROFusion, un sistema di ricostruzione densa in tempo reale che combina una regressione di pose appresa per l'inizializzazione robusta con un'ottimizzazione di precisione, permettendo di gestire efficacemente movimenti di camera instabili mantenendo alta accuratezza.

Siyan Dong, Zijun Wang, Lulu Cai + 2 more2026-03-04💻 cs

Proxy-GS: Unified Occlusion Priors for Training and Inference in Structured 3D Gaussian Splatting

Il paper propone Proxy-GS, un nuovo metodo che utilizza un sistema proxy veloce per introdurre la consapevolezza delle occlusioni nel 3D Gaussian Splatting, migliorando sia la velocità di rendering che la qualità visiva attraverso una culling efficiente e una densificazione guidata.

Yuanyuan Gao, Yuning Gong, Yifei Liu + 6 more2026-03-04💻 cs

EchoGen: Generating Visual Echoes in Any Scene via Feed-Forward Subject-Driven Auto-Regressive Model

Il paper presenta EchoGen, un framework pionieristico basato su modelli auto-regressivi feed-forward che risolve il compromesso tra efficienza e qualità nella generazione guidata da soggetti, offrendo un'alta fedeltà e velocità di inferenza superiori rispetto ai metodi diffusion-based tradizionali.

Ruixiao Dong, Zhendong Wang, Keli Liu + 5 more2026-03-04💻 cs

TTT3R: 3D Reconstruction as Test-Time Training

Il lavoro presenta TTT3R, un metodo di addestramento-free che applica l'apprendimento al momento del test ai modelli di ricostruzione 3D basati su reti ricorrenti, migliorando significativamente la generalizzazione alla lunghezza e le prestazioni nella stima della posa globale senza richiedere risorse computazionali aggiuntive.

Xingyu Chen, Yue Chen, Yuliang Xiu + 2 more2026-03-04💻 cs

BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration

Il paper presenta BindWeave, un framework unificato che integra un modello linguistico multimodale con un trasformatore di diffusione per generare video ad alta fedeltà e coerenti con il soggetto, superando le limitazioni attuali nella gestione di relazioni spaziali complesse e interazioni tra più entità.

Zhaoyang Li, Dongjun Qian, Kai Su + 6 more2026-03-04💻 cs

Arbitrary Generative Video Interpolation

Il paper presenta ArbInterp, un nuovo framework generativo per l'interpolazione video che supera i limiti dei metodi esistenti consentendo la sintesi di frame intermedi a qualsiasi istante temporale e di qualsiasi durata, grazie all'uso di un embedding posizionale rotativo sensibile al timestamp e di una strategia di condizionamento che disaccoppia aspetto e movimento per garantire coerenza spaziotemporale.

Guozhen Zhang, Haiguang Wang, Chunyu Wang + 3 more2026-03-04💻 cs

D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI

Il paper presenta D2E, un framework che dimostra come l'addestramento su interazioni desktop su larga scala, ottenute tramite un toolkit unificato e un modello di generalista, permetta di trasferire efficacemente le competenze sensorimotorie a compiti di robotica fisica, raggiungendo prestazioni superiori a modelli molto più grandi.

Suhwan Choi, Jaeyoon Jung, Haebin Seong + 7 more2026-03-04🤖 cs.AI

Human3R: Everyone Everywhere All at Once

Il paper presenta Human3R, un framework unificato e feed-forward che ricostruisce in tempo reale, in un'unica passata e senza dipendenze esterne, corpi umani multipli, scene 3D dense e traiettorie della camera da video monoculare casuali, superando i metodi precedenti basati su pipeline multi-stadio.

Yue Chen, Xingyu Chen, Yuxuan Xue + 3 more2026-03-04💻 cs

MIRAGE: Runtime Scheduling for Multi-Vector Image Retrieval with Hierarchical Decomposition

Il paper presenta MIRAGE, un framework di scheduling runtime per la ricerca di immagini a vettori multipli che, attraverso una decomposizione gerarchica e la riduzione della ridondanza computazionale, migliora significativamente l'accuratezza e l'efficienza rispetto ai sistemi esistenti.

Maoliang Li, Ke Li, Yaoyang Liu + 5 more2026-03-04💻 cs

Reasoning as Representation: Rethinking Visual Reinforcement Learning in Image Quality Assessment

Questo articolo dimostra che la capacità di generalizzazione dei modelli di valutazione della qualità delle immagini basati sul ragionamento deriva dalla loro conversione in rappresentazioni testuali compatte, proponendo quindi RALI, un nuovo algoritmo che allinea direttamente le immagini a tali rappresentazioni tramite apprendimento contrastivo per ottenere prestazioni simili con una frazione minima di parametri e tempo di inferenza.

Shijie Zhao, Xuanyu Zhang, Weiqi Li + 4 more2026-03-04💻 cs

Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs

Questo studio utilizza tecniche di interpretabilità meccanicistica per mappare il flusso informativo interno dei VideoLLM, rivelando come il ragionamento temporale avvenga attraverso interazioni inter-frame e integrazione video-linguistica in specifici strati, permettendo di migliorare le prestazioni selezionando percorsi efficaci e sopprimendo la maggior parte dei collegamenti di attenzione.

Minji Kim, Taekyung Kim, Bohyung Han2026-03-04💻 cs

Self-Aug: Query and Entropy Adaptive Decoding for Large Vision-Language Models

Il paper presenta "Self-Aug", una strategia di decoding senza addestramento che migliora la coerenza fattoriale dei Large Vision-Language Models combinando un prompting di auto-aumento dipendente dalla query con un algoritmo di soglia adattiva basato sull'entropia.

Eun Woo Im, Muhammad Kashif Ali, Vivek Gupta2026-03-04🤖 cs.AI

Inpainting the Red Planet: Diffusion Models for the Reconstruction of Martian Environments in Virtual Reality

Questo lavoro propone un modello di diffusione incondizionato addestrato su dati HiRISE per ricostruire con maggiore precisione e coerenza geometrica le aree mancanti dei terreni marziani in realtà virtuale, superando le tecniche di interpolazione tradizionali.

Giuseppe Lorenzo Catalano, Agata Marta Soccini2026-03-04🤖 cs.AI

← Precedente Successivo →