cs.CV articoli | Gist.Science

Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward

Il paper introduce Perception-R1, un metodo che migliora le capacità di ragionamento multimodale dei modelli MLLM attraverso un nuovo premio di percezione visiva basato sulla coerenza tra le annotazioni testuali e le risposte generate, ottenendo prestazioni all'avanguardia con un dataset di addestramento ridotto.

Tong Xiao, Xin Xu, Zhenya Huang + 4 more2026-03-04🤖 cs.AI

StreamSplat: Towards Online Dynamic 3D Reconstruction from Uncalibrated Video Streams

Il paper introduce StreamSplat, un framework feed-forward che ricostruisce istantaneamente scene 3D dinamiche da flussi video non calibrati mediante tre innovazioni chiave, offrendo prestazioni superiori e un'accelerazione di 1200 volte rispetto ai metodi basati su ottimizzazione.

Zike Wu, Qi Yan, Xuanyu Yi + 2 more2026-03-04🤖 cs.LG

Evolutionary Caching to Accelerate Your Off-the-Shelf Diffusion Model

Il paper propone ECAD, un algoritmo genetico che ottimizza automaticamente le strategie di caching per accelerare l'inferenza dei modelli di diffusione senza modificare i parametri, garantendo significativi miglioramenti nella velocità e nel compromesso qualità-velocità rispetto agli approcci precedenti.

Anirud Aggarwal, Abhinav Shrivastava, Matthew Gwilliam2026-03-04💻 cs

Synthetic Perception: Can Generated Images Unlock Latent Visual Prior for Text-Centric Reasoning?

Questo lavoro dimostra che la generazione on-the-fly di immagini tramite modelli Text-to-Image può colmare il divario modale e migliorare il ragionamento basato sul testo sfruttando prior visive latenti, a condizione che vi sia una forte allineamento semantico e fedeltà generativa.

Yuesheng Huang, Peng Zhang, Xiaoxin Wu + 2 more2026-03-04💻 cs

SceneStreamer: Continuous Scenario Generation as Next Token Group Prediction

Il paper introduce SceneStreamer, un framework autoregressivo basato su transformer che genera scenari di traffico continui e realistici tramite la previsione di gruppi di token, permettendo la simulazione dinamica a lungo termine necessaria per addestrare sistemi di guida autonoma più robusti.

Zhenghao Peng, Yuxin Liu, Bolei Zhou2026-03-04💻 cs

Navigating with Annealing Guidance Scale in Diffusion Space

Questo lavoro propone un nuovo schedulatore di guida basato sull'annealing che adatta dinamicamente la scala di guida durante il processo di campionamento dei modelli di diffusione, migliorando significativamente la qualità delle immagini e l'allineamento con il prompt testuale senza richiedere risorse computazionali aggiuntive.

Shai Yehezkel, Omer Dahary, Andrey Voynov + 1 more2026-03-04🤖 cs.AI

MC-INR: Efficient Encoding of Multivariate Scientific Simulation Data using Meta-Learning and Clustered Implicit Neural Representations

Il paper presenta MC-INR, un nuovo framework basato su reti neurali che utilizza meta-apprendimento e un meccanismo di riclustering dinamico per codificare in modo efficiente dati scientifici multivariati su griglie non strutturate, superando i limiti delle rappresentazioni neurali implicite esistenti.

Hyunsoo Son, Jeonghyun Noh, Suemin Jeon + 2 more2026-03-04🤖 cs.LG

CoBELa: Steering Transparent Generation via Concept Bottlenecks on Energy Landscapes

Il paper presenta CoBELa, un framework basato sull'energia che garantisce una generazione trasparente e interpretabile condizionando un generatore preaddestrato tramite funzioni energetiche per concetto, permettendo interventi compositivi senza riaddestramento e migliorando accuratezza e qualità dell'immagine rispetto ai metodi precedenti.

Sangwon Kim, Kyoungoh Lee, Jeyoun Dong + 1 more2026-03-04🤖 cs.AI

InstructVLA: Vision-Language-Action Instruction Tuning from Understanding to Manipulation

Il paper introduce InstructVLA, un modello visione-linguaggio-azione che, grazie a una nuova strategia di addestramento chiamata VLA-IT, integra efficacemente il ragionamento multimodale avanzato con la generazione precisa di azioni robotiche, superando i limiti di dimenticanza catastrofica e le prestazioni dei modelli esistenti sia in ambienti simulati che nel mondo reale.

Shuai Yang, Hao Li, Bin Wang + 7 more2026-03-04💻 cs

DMTrack: Spatio-Temporal Multimodal Tracking via Dual-Adapter

Il paper presenta DMTrack, un nuovo approccio per il tracciamento multimodale spaziotemporale che utilizza un'architettura a doppio adattatore (STMA e PMCA) per ottenere risultati all'avanguardia su cinque benchmark con soli 0,93 milioni di parametri addestrabili.

Weihong Li, Shaohua Dong, Haonan Lu + 3 more2026-03-04🤖 cs.AI

Zero-shot CT Super-Resolution using Diffusion-based 2D Projection Priors and Signed 3D Gaussians

Questo articolo presenta un nuovo framework zero-shot per la super-risoluzione 3D delle immagini TC che integra prior di proiezione 2D basati su diffusione e una tecnica di splatting gaussiano 3D con fusione alfa negativa (NAB-GS) per ricostruire volumi ad alta risoluzione da input a bassa risoluzione senza richiedere dataset appaiati.

Jeonghyun Noh, Hyun-Jic Oh, Won-Ki Jeong2026-03-04⚡ eess

MMTok: Multimodal Coverage Maximization for Efficient Inference of VLMs

Il paper presenta MMTok, un metodo che massimizza la copertura multimodale selezionando i token visivi più informativi combinando sia le informazioni visive che testuali per migliorare l'efficienza di inferenza dei modelli visione-linguaggio senza comprometterne le prestazioni.

Sixun Dong, Juhua Hu, Mian Zhang + 3 more2026-03-04💻 cs

ConEQsA: Concurrent and Asynchronous Embodied Questions Scheduling and Answering

Questo articolo introduce ConEQsA, un sistema agenziale e un benchmark per la Risposta Asincrona e Concorrente a Domande Embodied (EQsA), progettato per gestire in modo efficiente domande multiple con diverse priorità in ambienti 3D attraverso la pianificazione dinamica e la memoria condivisa.

Haisheng Wang, Dong Liu, Weiming Zhi2026-03-04🤖 cs.AI

Are VLMs Ready for Lane Topology Awareness in Autonomous Driving?

Questo studio valuta sistematicamente le capacità dei modelli visione-linguaggio (VLM) nella comprensione della topologia stradale per la guida autonoma, rivelando che, nonostante i progressi, le attuali architetture, inclusi i modelli chiusi all'avanguardia, presentano carenze significative nel ragionamento spaziale che rappresentano un collo di bottiglia fondamentale.

Xin Chen, Jia He, Maozheng Li + 5 more2026-03-04💻 cs

SiNGER: A Clearer Voice Distills Vision Transformers Further

Il paper introduce SiNGER, un nuovo framework di distillazione che migliora le prestazioni dei modelli studenteschi eliminando gli artefatti ad alta norma dai Vision Transformer preservando al contempo i segnali informativi, ottenendo così rappresentazioni più chiare e risultati all'avanguardia.

Geunhyeok Yu, Sunjae Jeong, Yoonyoung Choi + 2 more2026-03-04🤖 cs.AI

Earth-Agent: Unlocking the Full Landscape of Earth Observation with Agents

Il paper introduce Earth-Agent, un innovativo framework agentiche unifica dati di osservazione terrestre RGB e spettrali in un ecosistema di strumenti basato su MCP per abilitare ragionamenti spaziotemporali complessi e quantitativi, accompagnato da Earth-Bench, un benchmark completo per la valutazione sistematica di tali capacità.

Peilin Feng, Zhutao Lv, Junyan Ye + 8 more2026-03-04💻 cs

PROFusion: Robust and Accurate Dense Reconstruction via Camera Pose Regression and Optimization

Il paper presenta PROFusion, un sistema di ricostruzione densa in tempo reale che combina una regressione di pose appresa per l'inizializzazione robusta con un'ottimizzazione di precisione, permettendo di gestire efficacemente movimenti di camera instabili mantenendo alta accuratezza.

Siyan Dong, Zijun Wang, Lulu Cai + 2 more2026-03-04💻 cs

Proxy-GS: Unified Occlusion Priors for Training and Inference in Structured 3D Gaussian Splatting

Il paper propone Proxy-GS, un nuovo metodo che utilizza un sistema proxy veloce per introdurre la consapevolezza delle occlusioni nel 3D Gaussian Splatting, migliorando sia la velocità di rendering che la qualità visiva attraverso una culling efficiente e una densificazione guidata.

Yuanyuan Gao, Yuning Gong, Yifei Liu + 6 more2026-03-04💻 cs

EchoGen: Generating Visual Echoes in Any Scene via Feed-Forward Subject-Driven Auto-Regressive Model

Il paper presenta EchoGen, un framework pionieristico basato su modelli auto-regressivi feed-forward che risolve il compromesso tra efficienza e qualità nella generazione guidata da soggetti, offrendo un'alta fedeltà e velocità di inferenza superiori rispetto ai metodi diffusion-based tradizionali.

Ruixiao Dong, Zhendong Wang, Keli Liu + 5 more2026-03-04💻 cs

TTT3R: 3D Reconstruction as Test-Time Training

Il lavoro presenta TTT3R, un metodo di addestramento-free che applica l'apprendimento al momento del test ai modelli di ricostruzione 3D basati su reti ricorrenti, migliorando significativamente la generalizzazione alla lunghezza e le prestazioni nella stima della posa globale senza richiedere risorse computazionali aggiuntive.

Xingyu Chen, Yue Chen, Yuliang Xiu + 2 more2026-03-04💻 cs

← Precedente Successivo →