There is No VAE: End-to-End Pixel-Space Generative Modeling via Self-Supervised Pre-training

Il paper introduce un innovativo framework di training a due stadi che, attraverso un pre-addestramento auto-supervisionato, permette di addestrare modelli generativi direttamente nello spazio dei pixel con prestazioni superiori rispetto alle controparti nello spazio latente, ottenendo risultati all'avanguardia su ImageNet senza l'uso di VAE pre-addestrati.

Jiachen Lei, Keli Liu, Julius Berner + 4 more2026-03-03💻 cs

Mono4DGS-HDR: High Dynamic Range 4D Gaussian Splatting from Alternating-exposure Monocular Videos

Il paper introduce Mono4DGS-HDR, il primo sistema in grado di ricostruire scene 4D ad alto intervallo dinamico (HDR) da video monoculari a bassa esposizione con esposizioni alternate, utilizzando un approccio a due stadi basato su Gaussian Splatting che apprende una rappresentazione ortografica iniziale per poi affinarla nello spazio mondiale senza richiedere pose camera note.

Jinfeng Liu, Lingtong Kong, Mi Zhou + 2 more2026-03-03💻 cs

LightMem: Lightweight and Efficient Memory-Augmented Generation

Il paper introduce LightMem, un sistema di memoria leggero ed efficiente ispirato al modello di memoria umana di Atkinson-Shiffrin che, organizzando le informazioni in tre stadi (sensoriale, a breve termine e a lungo termine con aggiornamenti offline), migliora significativamente l'accuratezza delle domande e riduce drasticamente l'uso di token e chiamate API rispetto ai metodi esistenti.

Jizhan Fang, Xinle Deng, Haoming Xu + 9 more2026-03-03💬 cs.CL

See the Speaker: Crafting High-Resolution Talking Faces from Speech with Prior Guidance and Region Refinement

Questo lavoro propone un metodo innovativo che genera video di volti parlanti ad alta risoluzione esclusivamente da un singolo input audio, superando i limiti delle tecniche esistenti grazie a un modello di diffusione guidato da prior statistici e a un modulo di raffinamento regionale per migliorare la sincronizzazione labiale e i dettagli.

Jinting Wang, Jun Wang, Hei Victor Cheng + 1 more2026-03-03⚡ eess

UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers

Il paper presenta UltraViCo, un metodo gratuito e plug-and-play che risolve i limiti di estrapolazione nei trasformatori di diffusione video sopprimendo la dispersione dell'attenzione per i token oltre la finestra di addestramento, permettendo così di raddoppiare il limite di estrapolazione fino a 4 volte la lunghezza originale con significativi miglioramenti nella qualità e nella coerenza del video.

Min Zhao, Hongzhou Zhu, Yingze Wang + 6 more2026-03-03💻 cs

AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

AdaptVision è un paradigma efficiente per i modelli visione-linguaggio che, ispirandosi alla visione attiva umana e utilizzando un framework di apprendimento per rinforzo con ottimizzazione della politica disaccoppiata (DTPO), determina autonomamente il numero minimo di token visivi necessari per ogni campione attraverso un approccio a grana grossa-fine che combina token compressi e l'acquisizione selettiva di regioni chiave.

Zichuan Lin, Yicheng Liu, Yang Yang + 2 more2026-03-03💬 cs.CL

Near--Real-Time Conflict-Related Fire Detection in Sudan Using Unsupervised Deep Learning

Questo studio presenta un approccio di apprendimento profondo non supervisionato basato su un autoencoder variazionale leggero, integrato con immagini satellitari Planet Labs ad alta risoluzione, che consente il rilevamento quasi in tempo reale delle aree colpite da incendi legati al conflitto in Sudan, superando le prestazioni dei metodi tradizionali.

Kuldip Singh Atwal, Dieter Pfoser, Daniel Rothbart2026-03-03🤖 cs.AI