RFDM: Residual Flow Diffusion Model for Efficient Causal Video Editing

Il paper introduce RFDM, un modello di editing video causale ed efficiente che, adattando un modello di diffusione immagine-immagine per prevedere i residui tra i frame, permette la modifica di video a lunghezza variabile con un costo computazionale paragonabile a quello dei modelli 2D, superando i metodi basati su immagini e competendo con quelli spazio-temporali 3D.

Mohammadreza Salehi, Mehdi Noroozi, Luca Morreale + 4 more2026-03-03💻 cs

Single-Slice-to-3D Reconstruction in Medical Imaging and Natural Objects: A Comparative Benchmark with SAM 3D

Lo studio dimostra che, sebbene i modelli di ricostruzione 3D da singola slice falliscano nel generare volumi accurati a causa dell'ambiguità di profondità, SAM3D si distingue per la migliore preservazione della topologia anatomica rispetto ad altri modelli, evidenziando la necessità di adattamenti specifici per il dominio medico.

Yan Luo, Advaith Ravishankar, Serena Liu + 2 more2026-03-03💻 cs

EchoTorrent: Towards Swift, Sustained, and Streaming Multi-Modal Video Generation

Il paper presenta EchoTorrent, un nuovo schema che combina formazione multi-insegnante, calibrazione adattiva CFG, forzatura ibrida della coda e affinamento del decodificatore VAE per abilitare la generazione video multimodale in streaming ad alta velocità, garantendo stabilità temporale, sincronizzazione labiale e conservazione dell'identità senza compromessi tra efficienza e qualità.

Rang Meng, Yingjie Yin, Yuming Li + 1 more2026-03-03💻 cs

Deformation-Free Cross-Domain Image Registration via Position-Encoded Temporal Attention

Il paper presenta GPEReg-Net, un metodo di registrazione di immagini cross-dominio privo di deformazioni che, scomponendo le immagini in rappresentazioni invarianti al dominio e statistiche globali e sfruttando un meccanismo di attenzione temporale codificata per la coerenza sequenziale, raggiunge prestazioni all'avanguardia su benchmark retinici e sintetici superando i metodi basati su campi di deformazione.

Yiwen Wang, Jiahao Qin2026-03-03🤖 cs.AI

Hepato-LLaVA: An Expert MLLM with Sparse Topo-Pack Attention for Hepatocellular Pathology Analysis on Whole Slide Images

Il paper presenta Hepato-LLaVA, un modello linguistico multimodale specializzato che utilizza un nuovo meccanismo di attenzione "Sparse Topo-Pack" e un dataset clinico di 33.000 coppie domanda-risposta per analizzare con precisione le immagini intere dei vetrini nel contesto del carcinoma epatocellulare, superando le prestazioni degli attuali metodi.

Yuxuan Yang, Zhonghao Yan, Yi Zhang + 6 more2026-03-03💻 cs

Joint Shadow Generation and Relighting via Light-Geometry Interaction Maps

Il lavoro propone le mappe di interazione luce-geometria (LGI), una nuova rappresentazione che, integrando informazioni geometriche derivate da mappe di profondità monoculare in un modello generativo, permette la generazione congiunta di ombre e il rilighting in modo fisicamente coerente, superando le limitazioni dei metodi precedenti che trattano questi compiti separatamente.

Shan Wang, Peixia Li, Chenchen Xu + 4 more2026-03-03💻 cs

Hierarchical Multi-Scale Graph Learning with Knowledge-Guided Attention for Whole-Slide Image Survival Analysis

Gli autori propongono HMKGN, una rete neurale a grafo gerarchico multi-scala e consapevole della conoscenza che modella le relazioni spaziali e le interazioni multi-scala nelle immagini intere di vetrino per migliorare l'analisi prognostica della sopravvivenza nel cancro, superando le prestazioni dei modelli MIL esistenti su quattro coorti TCGA.

Bin Xu, Yufei Zhou, Boling Song + 6 more2026-03-03⚡ eess