Arbitrary Generative Video Interpolation

Il paper presenta ArbInterp, un nuovo framework generativo per l'interpolazione video che supera i limiti dei metodi esistenti consentendo la sintesi di frame intermedi a qualsiasi istante temporale e di qualsiasi durata, grazie all'uso di un embedding posizionale rotativo sensibile al timestamp e di una strategia di condizionamento che disaccoppia aspetto e movimento per garantire coerenza spaziotemporale.

Guozhen Zhang, Haiguang Wang, Chunyu Wang + 3 more2026-03-04💻 cs

Reasoning as Representation: Rethinking Visual Reinforcement Learning in Image Quality Assessment

Questo articolo dimostra che la capacità di generalizzazione dei modelli di valutazione della qualità delle immagini basati sul ragionamento deriva dalla loro conversione in rappresentazioni testuali compatte, proponendo quindi RALI, un nuovo algoritmo che allinea direttamente le immagini a tali rappresentazioni tramite apprendimento contrastivo per ottenere prestazioni simili con una frazione minima di parametri e tempo di inferenza.

Shijie Zhao, Xuanyu Zhang, Weiqi Li + 4 more2026-03-04💻 cs

Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs

Questo studio utilizza tecniche di interpretabilità meccanicistica per mappare il flusso informativo interno dei VideoLLM, rivelando come il ragionamento temporale avvenga attraverso interazioni inter-frame e integrazione video-linguistica in specifici strati, permettendo di migliorare le prestazioni selezionando percorsi efficaci e sopprimendo la maggior parte dei collegamenti di attenzione.

Minji Kim, Taekyung Kim, Bohyung Han2026-03-04💻 cs

CASR-Net: An Image Processing-focused Deep Learning-based Coronary Artery Segmentation and Refinement Network for X-ray Coronary Angiogram

Il paper presenta CASR-Net, una rete di deep learning innovativa basata su un'architettura UNet con encoder DenseNet121 e decoder Self-ONN, che integra una strategia di pre-elaborazione multicanale e un modulo di raffinamento per migliorare l'accurata segmentazione e il recupero delle arterie coronariche in angiografie a raggi X, superando le prestazioni degli attuali modelli avanzati.

Alvee Hassan, Rusab Sarmun, Muhammad E. H. Chowdhury + 4 more2026-03-04🤖 cs.AI

PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation

Il paper introduce PrismAudio, un framework innovativo per la generazione audio da video che risolve l'entanglement degli obiettivi tramite un ragionamento Chain-of-Thought decomposto in quattro dimensioni e un nuovo algoritmo di apprendimento per rinforzo chiamato Fast-GRPO, ottenendo prestazioni state-of-the-art su un nuovo benchmark rigoroso denominato AudioCanvas.

Huadai Liu, Kaicheng Luo, Wen Wang + 6 more2026-03-04⚡ eess