cs.CV articoli | Gist.Science

EchoGen: Generating Visual Echoes in Any Scene via Feed-Forward Subject-Driven Auto-Regressive Model

Il paper presenta EchoGen, un framework pionieristico basato su modelli auto-regressivi feed-forward che risolve il compromesso tra efficienza e qualità nella generazione guidata da soggetti, offrendo un'alta fedeltà e velocità di inferenza superiori rispetto ai metodi diffusion-based tradizionali.

Ruixiao Dong, Zhendong Wang, Keli Liu + 5 more2026-03-04💻 cs

TTT3R: 3D Reconstruction as Test-Time Training

Il lavoro presenta TTT3R, un metodo di addestramento-free che applica l'apprendimento al momento del test ai modelli di ricostruzione 3D basati su reti ricorrenti, migliorando significativamente la generalizzazione alla lunghezza e le prestazioni nella stima della posa globale senza richiedere risorse computazionali aggiuntive.

Xingyu Chen, Yue Chen, Yuliang Xiu + 2 more2026-03-04💻 cs

BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration

Il paper presenta BindWeave, un framework unificato che integra un modello linguistico multimodale con un trasformatore di diffusione per generare video ad alta fedeltà e coerenti con il soggetto, superando le limitazioni attuali nella gestione di relazioni spaziali complesse e interazioni tra più entità.

Zhaoyang Li, Dongjun Qian, Kai Su + 6 more2026-03-04💻 cs

Arbitrary Generative Video Interpolation

Il paper presenta ArbInterp, un nuovo framework generativo per l'interpolazione video che supera i limiti dei metodi esistenti consentendo la sintesi di frame intermedi a qualsiasi istante temporale e di qualsiasi durata, grazie all'uso di un embedding posizionale rotativo sensibile al timestamp e di una strategia di condizionamento che disaccoppia aspetto e movimento per garantire coerenza spaziotemporale.

Guozhen Zhang, Haiguang Wang, Chunyu Wang + 3 more2026-03-04💻 cs

D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI

Il paper presenta D2E, un framework che dimostra come l'addestramento su interazioni desktop su larga scala, ottenute tramite un toolkit unificato e un modello di generalista, permetta di trasferire efficacemente le competenze sensorimotorie a compiti di robotica fisica, raggiungendo prestazioni superiori a modelli molto più grandi.

Suhwan Choi, Jaeyoon Jung, Haebin Seong + 7 more2026-03-04🤖 cs.AI

Human3R: Everyone Everywhere All at Once

Il paper presenta Human3R, un framework unificato e feed-forward che ricostruisce in tempo reale, in un'unica passata e senza dipendenze esterne, corpi umani multipli, scene 3D dense e traiettorie della camera da video monoculare casuali, superando i metodi precedenti basati su pipeline multi-stadio.

Yue Chen, Xingyu Chen, Yuxuan Xue + 3 more2026-03-04💻 cs

MIRAGE: Runtime Scheduling for Multi-Vector Image Retrieval with Hierarchical Decomposition

Il paper presenta MIRAGE, un framework di scheduling runtime per la ricerca di immagini a vettori multipli che, attraverso una decomposizione gerarchica e la riduzione della ridondanza computazionale, migliora significativamente l'accuratezza e l'efficienza rispetto ai sistemi esistenti.

Maoliang Li, Ke Li, Yaoyang Liu + 5 more2026-03-04💻 cs

Reasoning as Representation: Rethinking Visual Reinforcement Learning in Image Quality Assessment

Questo articolo dimostra che la capacità di generalizzazione dei modelli di valutazione della qualità delle immagini basati sul ragionamento deriva dalla loro conversione in rappresentazioni testuali compatte, proponendo quindi RALI, un nuovo algoritmo che allinea direttamente le immagini a tali rappresentazioni tramite apprendimento contrastivo per ottenere prestazioni simili con una frazione minima di parametri e tempo di inferenza.

Shijie Zhao, Xuanyu Zhang, Weiqi Li + 4 more2026-03-04💻 cs

Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs

Questo studio utilizza tecniche di interpretabilità meccanicistica per mappare il flusso informativo interno dei VideoLLM, rivelando come il ragionamento temporale avvenga attraverso interazioni inter-frame e integrazione video-linguistica in specifici strati, permettendo di migliorare le prestazioni selezionando percorsi efficaci e sopprimendo la maggior parte dei collegamenti di attenzione.

Minji Kim, Taekyung Kim, Bohyung Han2026-03-04💻 cs

Self-Aug: Query and Entropy Adaptive Decoding for Large Vision-Language Models

Il paper presenta "Self-Aug", una strategia di decoding senza addestramento che migliora la coerenza fattoriale dei Large Vision-Language Models combinando un prompting di auto-aumento dipendente dalla query con un algoritmo di soglia adattiva basato sull'entropia.

Eun Woo Im, Muhammad Kashif Ali, Vivek Gupta2026-03-04🤖 cs.AI

Inpainting the Red Planet: Diffusion Models for the Reconstruction of Martian Environments in Virtual Reality

Questo lavoro propone un modello di diffusione incondizionato addestrato su dati HiRISE per ricostruire con maggiore precisione e coerenza geometrica le aree mancanti dei terreni marziani in realtà virtuale, superando le tecniche di interpolazione tradizionali.

Giuseppe Lorenzo Catalano, Agata Marta Soccini2026-03-04🤖 cs.AI

CASR-Net: An Image Processing-focused Deep Learning-based Coronary Artery Segmentation and Refinement Network for X-ray Coronary Angiogram

Il paper presenta CASR-Net, una rete di deep learning innovativa basata su un'architettura UNet con encoder DenseNet121 e decoder Self-ONN, che integra una strategia di pre-elaborazione multicanale e un modulo di raffinamento per migliorare l'accurata segmentazione e il recupero delle arterie coronariche in angiografie a raggi X, superando le prestazioni degli attuali modelli avanzati.

Alvee Hassan, Rusab Sarmun, Muhammad E. H. Chowdhury + 4 more2026-03-04🤖 cs.AI

Kinematify: Open-Vocabulary Synthesis of High-DoF Articulated Objects

Il paper introduce Kinematify, un framework automatizzato che sintetizza oggetti articolati ad alto grado di libertà partendo da immagini RGB o descrizioni testuali, risolvendo le sfide dell'inferenza topologica e della stima dei parametri articolari per abilitare simulazioni fisiche e pianificazione del movimento.

Jiawei Wang, Dingyou Wang, Jiaming Hu + 3 more2026-03-04💻 cs

Online Data Curation for Object Detection via Marginal Contributions to Dataset-level Average Precision

Il paper presenta DetGain, un metodo di curatela dei dati online specifico per la rilevazione di oggetti che stima il contributo marginale di ogni immagine alla precisione media globale per selezionare dinamicamente campioni informativi, migliorando così l'accuratezza e la robustezza dei modelli di rilevazione.

Zitang Sun, Masakazu Yoshimura, Junji Otsuka + 2 more2026-03-04💻 cs

PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation

Il paper introduce PrismAudio, un framework innovativo per la generazione audio da video che risolve l'entanglement degli obiettivi tramite un ragionamento Chain-of-Thought decomposto in quattro dimensioni e un nuovo algoritmo di apprendimento per rinforzo chiamato Fast-GRPO, ottenendo prestazioni state-of-the-art su un nuovo benchmark rigoroso denominato AudioCanvas.

Huadai Liu, Kaicheng Luo, Wen Wang + 6 more2026-03-04⚡ eess

Markovian Scale Prediction: A New Era of Visual Autoregressive Generation

Il paper presenta Markov-VAR, un nuovo modello di generazione visiva autoregressiva che supera l'inefficienza computazionale della previsione a contesto completo sostituendola con una previsione di scala markoviana basata su una finestra scorrevole, ottenendo così una significativa riduzione della memoria e un miglioramento della qualità delle immagini.

Yu Zhang, Jingyi Liu, Yiwei Shi + 4 more2026-03-04💻 cs

ALARM: Automated MLLM-Based Anomaly Detection in Complex-EnviRonment Monitoring with Uncertainty Quantification

Il paper presenta ALARM, un framework basato su MLLM per il rilevamento di anomalie in ambienti complessi che integra la quantificazione dell'incertezza e tecniche di garanzia della qualità per garantire decisioni affidabili e robuste in diversi domini.

Congjing Zhang, Feng Lin, Xinyi Zhao + 5 more2026-03-04🤖 cs.AI

Self-Paced and Self-Corrective Masked Prediction for Movie Trailer Generation

Il paper propone SSMP, un nuovo metodo di predizione mascherata auto-adattiva e auto-correttiva che supera i limiti dei paradigmi esistenti generando trailer cinematografici di qualità superiore attraverso una modellazione contestuale bidirezionale e un meccanismo di correzione progressiva.

Sidan Zhu, Hongteng Xu, Dixin Luo2026-03-04💻 cs

Value Gradient Guidance for Flow Matching Alignment

Il paper propone VGG-Flow, un metodo basato sul matching dei gradienti che sfrutta la teoria del controllo ottimo per allineare efficientemente e preservando le probabilità i modelli Flow Matching (come Stable Diffusion 3) alle preferenze umane, superando i limiti delle approcci esistenti.

Zhen Liu, Tim Z. Xiao, Carles Domingo-Enrich + 2 more2026-03-04🤖 cs.LG

Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner

Il paper presenta AVI-Edit, un framework per la modifica di istanze video sincronizzate con audio che utilizza un affinatore di maschere sensibile alla granularità e un agente audio a feedback autonomo per ottenere un controllo spaziale e temporale preciso, supportato da un nuovo dataset su larga scala.

Haojie Zheng, Shuchen Weng, Jingqi Liu + 3 more2026-03-04💻 cs

← Precedente Successivo →