Arbitrary Generative Video Interpolation

Il paper presenta ArbInterp, un nuovo framework generativo per l'interpolazione video che supera i limiti dei metodi esistenti consentendo la sintesi di frame intermedi a qualsiasi istante temporale e di qualsiasi durata, grazie all'uso di un embedding posizionale rotativo sensibile al timestamp e di una strategia di condizionamento che disaccoppia aspetto e movimento per garantire coerenza spaziotemporale.

Guozhen Zhang, Haiguang Wang, Chunyu Wang + 3 more2026-03-04💻 cs

Reasoning as Representation: Rethinking Visual Reinforcement Learning in Image Quality Assessment

Questo articolo dimostra che la capacità di generalizzazione dei modelli di valutazione della qualità delle immagini basati sul ragionamento deriva dalla loro conversione in rappresentazioni testuali compatte, proponendo quindi RALI, un nuovo algoritmo che allinea direttamente le immagini a tali rappresentazioni tramite apprendimento contrastivo per ottenere prestazioni simili con una frazione minima di parametri e tempo di inferenza.

Shijie Zhao, Xuanyu Zhang, Weiqi Li + 4 more2026-03-04💻 cs

Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs

Questo studio utilizza tecniche di interpretabilità meccanicistica per mappare il flusso informativo interno dei VideoLLM, rivelando come il ragionamento temporale avvenga attraverso interazioni inter-frame e integrazione video-linguistica in specifici strati, permettendo di migliorare le prestazioni selezionando percorsi efficaci e sopprimendo la maggior parte dei collegamenti di attenzione.

Minji Kim, Taekyung Kim, Bohyung Han2026-03-04💻 cs