cs.CV articoli | Gist.Science

DisQ-HNet: A Disentangled Quantized Half-UNet for Interpretable Multimodal Image Synthesis Applications to Tau-PET Synthesis from T1 and FLAIR MRI

Il paper presenta DisQ-HNet, un framework di sintesi multimodale interpretabile basato su decomposizione dell'informazione parziale e codifica quantizzata che genera immagini Tau-PET da risonanze magnetiche T1 e FLAIR preservando i dettagli anatomici e le informazioni specifiche per la malattia di Alzheimer.

Agamdeep S. Chopra, Caitlin Neher, Tianyi Ren + 2 more2026-02-27🤖 cs.AI

DrivePTS: A Progressive Learning Framework with Textual and Structural Enhancement for Driving Scene Generation

Il paper propone DrivePTS, un framework di apprendimento progressivo che integra descrizioni testuali gerarchiche e una perdita strutturale guidata dalla frequenza per generare scene di guida realistiche e controllabili, superando le limitazioni dei metodi esistenti nella gestione delle dipendenze tra condizioni geometriche e nel dettaglio strutturale.

Zhechao Wang, Yiming Zeng, Lufan Ma + 4 more2026-02-27🤖 cs.AI

SwiftNDC: Fast Neural Depth Correction for High-Fidelity 3D Reconstruction

SwiftNDC è un framework rapido e generale che utilizza un campo di correzione neurale della profondità per generare mappe di profondità coerenti tra le viste, permettendo un'inizializzazione geometrica robusta che accelera notevolmente la ricostruzione di mesh e migliora la sintesi di nuove viste tramite 3D Gaussian Splatting.

Kang Han, Wei Xiang, Lu Yu + 3 more2026-02-27💻 cs

Quality-Aware Robust Multi-View Clustering for Heterogeneous Observation Noise

Il paper propone QARMVC, un nuovo framework di clustering multi-vista robusto che quantifica l'intensità eterogenea del rumore tramite discrepanza di ricostruzione e utilizza punteggi di qualità per migliorare l'apprendimento gerarchico, superando così le limitazioni delle ipotesi binarie esistenti.

Peihan Wu, Guanjie Cheng, Yufei Tong + 2 more2026-02-27🤖 cs.AI

Guidance Matters: Rethinking the Evaluation Pitfall for Text-to-Image Generation

Questo lavoro smaschera un errore di valutazione nei modelli di generazione testo-immagine, rivelando come l'aumento della scala di guida (CFG) falsi i punteggi di preferenza umana a favore di immagini di scarsa qualità, e propone un nuovo framework di valutazione (GA-Eval) e un metodo (TDG) per correggere questo bias e ristabilire un confronto equo tra le tecniche di guida.

Dian Xie, Shitong Shao, Lichen Bai + 5 more2026-02-27🤖 cs.AI

GIFSplat: Generative Prior-Guided Iterative Feed-Forward 3D Gaussian Splatting from Sparse Views

GIFSplat è un framework puramente feed-forward che migliora la ricostruzione 3D da viste sparse attraverso un raffinamento iterativo guidato da un prior generativo distillato, ottenendo risultati superiori rispetto agli stati dell'arte mantenendo un tempo di inferenza di pochi secondi senza necessità di ottimizzazione tramite gradiente o pose delle telecamere.

Tianyu Chen, Wei Xiang, Kang Han + 4 more2026-02-27💻 cs

Causal Motion Diffusion Models for Autoregressive Motion Generation

Il paper presenta CMDM, un modello unificato di diffusione causale basato su uno spazio latente allineato semanticamente che supera i limiti di causalità e instabilità dei metodi esistenti, consentendo la generazione di movimenti umani di alta qualità, fluidi e in tempo reale con bassa latenza.

Qing Yu, Akihisa Watanabe, Kent Fujiwara2026-02-27💻 cs

BetterScene: 3D Scene Synthesis with Representation-Aligned Generative Model

Il paper presenta BetterScene, un approccio che migliora la sintesi di nuove viste per scene reali sparse integrando il modello generativo SVD con regolarizzazioni temporali e rappresentazioni allineate a modelli fondazionali nel suo VAE, superando così le limitazioni dei metodi attuali e ottenendo risultati superiori sul dataset DL3DV-10K.

Yuci Han, Charles Toth, John E. Anderson + 2 more2026-02-27🤖 cs.AI

$ϕ$ -DPO: Fairness Direct Preference Optimization Approach to Continual Learning in Large Multimodal Models

Questo articolo presenta $Ï$ -DPO, un nuovo framework di ottimizzazione delle preferenze dirette che affronta simultaneamente l'oblio catastrofico e i bias dovuti a distribuzioni di dati sbilanciate nel contesto dell'apprendimento continuo per i grandi modelli multimodali, ottenendo prestazioni all'avanguardia su più benchmark.

Thanh-Dat Truong, Huu-Thien Tran, Jackson Cothren + 2 more2026-02-27🤖 cs.LG

LoR-LUT: Learning Compact 3D Lookup Tables via Low-Rank Residuals

Il paper presenta LoR-LUT, un metodo unificato ed efficiente che genera tabelle di ricerca 3D compatte e interpretabili combinando LUT di base con correzioni a rango basso, ottenendo risultati di ritocco fotografico di livello esperto con un modello di dimensioni ridotte e fornendo uno strumento visivo interattivo per il controllo dei parametri.

Ziqi Zhao, Abhijit Mishra, Shounak Roychowdhury2026-02-27💻 cs

DP-aware AdaLN-Zero: Taming Conditioning-Induced Heavy-Tailed Gradients in Differentially Private Diffusion

Il paper propone DP-aware AdaLN-Zero, un meccanismo di condizionamento sensibile alla sensibilità che mitiga i gradienti a coda pesante indotti da contesti eterogenei nei modelli di diffusione differenzialmente privati, migliorando così le prestazioni di interpolazione e previsione senza compromettere l'efficacia standard.

Tao Huang, Jiayang Meng, Xu Yang + 2 more2026-02-27🤖 cs.LG

Spectrally Distilled Representations Aligned with Instruction-Augmented LLMs for Satellite Imagery

Il paper presenta SATtxt, un modello visione-linguaggio fondazionale per il telerilevamento che, attraverso la distillazione di rappresentazioni spettrali e l'allineamento con LLM istruiti, permette di ottenere prestazioni superiori in compiti di classificazione e recupero zero-shot utilizzando esclusivamente immagini RGB durante l'inferenza.

Minh Kha Do, Wei Xiang, Kang Han + 5 more2026-02-27💻 cs

Coded-E2LF: Coded Aperture Light Field Imaging from Events

Il paper presenta Coded-E2LF, un metodo di imaging computazionale che ricostruisce un campo luminoso 4D da eventi catturati da una singola telecamera con diaframma codificato, dimostrando per la prima volta la fattibilità di tale ricostruzione ad alta precisione utilizzando esclusivamente dati di eventi.

Tomoya Tsuchida, Keita Takahashi, Chihiro Tsutake + 2 more2026-02-27💻 cs

CGSA: Class-Guided Slot-Aware Adaptation for Source-Free Object Detection

Il paper presenta CGSA, un nuovo framework per l'adattamento di dominio senza sorgente nella rilevazione di oggetti che integra l'apprendimento incentrato sugli oggetti in un detector basato su DETR attraverso moduli di consapevolezza gerarchica delle slot e contrasto guidato dalla classe, ottenendo prestazioni superiori rispetto ai metodi esistenti.

Boyang Dai, Zeng Fan, Zihao Qi + 2 more2026-02-27🤖 cs.AI

Instruction-based Image Editing with Planning, Reasoning, and Generation

Il paper propone un nuovo approccio all'editing di immagini basato su istruzioni che integra pianificazione, ragionamento e generazione tramite un modello multimodale e prompt di "Chain-of-Thought" per superare i limiti delle metodologie precedenti e gestire casi complessi con maggiore efficacia.

Liya Ji, Chenyang Qi, Qifeng Chen2026-02-27🤖 cs.AI

CRAG: Can 3D Generative Models Help 3D Assembly?

Il paper introduce CRAG, un nuovo approccio che riformula l'assemblaggio 3D come un problema congiunto di generazione e montaggio, permettendo di ricostruire forme complete e prevedere le pose delle parti anche in presenza di geometrie mancanti, superando così i limiti dei metodi tradizionali basati sulla sola stima della posa.

Zeyu Jiang, Sihang Li, Siqi Tan + 8 more2026-02-27💻 cs

QuadSync: Quadrifocal Tensor Synchronization via Tucker Decomposition

Questo lavoro presenta un nuovo quadro teorico e un algoritmo di sincronizzazione basato sulla decomposizione di Tucker per recuperare $n$ telecamere utilizzando tensori quadrifocali, dimostrando la fattibilità pratica dell'uso di informazioni di ordine superiore nella struttura dal movimento.

Daniel Miao, Gilad Lerman, Joe Kileel2026-02-27🔢 math

Plug, Play, and Fortify: A Low-Cost Module for Robust Multimodal Image Understanding Models

Il paper propone MWAM, un modulo plug-and-play a basso costo che utilizza una Metrica del Rapporto di Frequenza per quantificare e riequilibrare dinamicamente le preferenze delle modalità durante l'addestramento, migliorando così la robustezza e le prestazioni dei modelli multimodali in presenza di dati mancanti.

Siqi Lu, Wanying Xu, Yongbin Zheng + 3 more2026-02-27💻 cs

Interactive Medical-SAM2 GUI: A Napari-based semi-automatic annotation tool for medical images

Questo articolo presenta un'interfaccia grafica open-source basata su Napari che integra Medical-SAM2 per abilitare un flusso di lavoro semi-automatico efficiente e localizzato per l'annotazione volumetrica 3D di immagini mediche, combinando prompt interattivi, propagazione delle maschere e strumenti di esportazione quantitativa in un'unica applicazione desktop.

Woojae Hong, Jong Ha Hwang, Jiyong Chung + 3 more2026-02-27💻 cs

Scaling Audio-Visual Quality Assessment Dataset via Crowdsourcing

Il paper propone un approccio pratico per la costruzione di dataset di valutazione della qualità audio-visiva tramite crowdsourcing, presentando YT-NTU-AVQ, il più grande e diversificato dataset esistente che supera i limiti delle raccolte precedenti in termini di scala, varietà e annotazioni.

Renyu Yang, Jian Jin, Lili Meng + 4 more2026-02-27💻 cs

← Precedente Successivo →

cs.CV