DisQ-HNet: A Disentangled Quantized Half-UNet for Interpretable Multimodal Image Synthesis Applications to Tau-PET Synthesis from T1 and FLAIR MRI

Il paper presenta DisQ-HNet, un framework di sintesi multimodale interpretabile basato su decomposizione dell'informazione parziale e codifica quantizzata che genera immagini Tau-PET da risonanze magnetiche T1 e FLAIR preservando i dettagli anatomici e le informazioni specifiche per la malattia di Alzheimer.

Agamdeep S. Chopra, Caitlin Neher, Tianyi Ren + 2 more2026-02-27🤖 cs.AI

DrivePTS: A Progressive Learning Framework with Textual and Structural Enhancement for Driving Scene Generation

Il paper propone DrivePTS, un framework di apprendimento progressivo che integra descrizioni testuali gerarchiche e una perdita strutturale guidata dalla frequenza per generare scene di guida realistiche e controllabili, superando le limitazioni dei metodi esistenti nella gestione delle dipendenze tra condizioni geometriche e nel dettaglio strutturale.

Zhechao Wang, Yiming Zeng, Lufan Ma + 4 more2026-02-27🤖 cs.AI

Guidance Matters: Rethinking the Evaluation Pitfall for Text-to-Image Generation

Questo lavoro smaschera un errore di valutazione nei modelli di generazione testo-immagine, rivelando come l'aumento della scala di guida (CFG) falsi i punteggi di preferenza umana a favore di immagini di scarsa qualità, e propone un nuovo framework di valutazione (GA-Eval) e un metodo (TDG) per correggere questo bias e ristabilire un confronto equo tra le tecniche di guida.

Dian Xie, Shitong Shao, Lichen Bai + 5 more2026-02-27🤖 cs.AI

GIFSplat: Generative Prior-Guided Iterative Feed-Forward 3D Gaussian Splatting from Sparse Views

GIFSplat è un framework puramente feed-forward che migliora la ricostruzione 3D da viste sparse attraverso un raffinamento iterativo guidato da un prior generativo distillato, ottenendo risultati superiori rispetto agli stati dell'arte mantenendo un tempo di inferenza di pochi secondi senza necessità di ottimizzazione tramite gradiente o pose delle telecamere.

Tianyu Chen, Wei Xiang, Kang Han + 4 more2026-02-27💻 cs

ϕϕ-DPO: Fairness Direct Preference Optimization Approach to Continual Learning in Large Multimodal Models

Questo articolo presenta I¨•Ï•-DPO, un nuovo framework di ottimizzazione delle preferenze dirette che affronta simultaneamente l'oblio catastrofico e i bias dovuti a distribuzioni di dati sbilanciate nel contesto dell'apprendimento continuo per i grandi modelli multimodali, ottenendo prestazioni all'avanguardia su più benchmark.

Thanh-Dat Truong, Huu-Thien Tran, Jackson Cothren + 2 more2026-02-27🤖 cs.LG

Interactive Medical-SAM2 GUI: A Napari-based semi-automatic annotation tool for medical images

Questo articolo presenta un'interfaccia grafica open-source basata su Napari che integra Medical-SAM2 per abilitare un flusso di lavoro semi-automatico efficiente e localizzato per l'annotazione volumetrica 3D di immagini mediche, combinando prompt interattivi, propagazione delle maschere e strumenti di esportazione quantitativa in un'unica applicazione desktop.

Woojae Hong, Jong Ha Hwang, Jiyong Chung + 3 more2026-02-27💻 cs