SemanticDialect: Semantic-Aware Mixed-Format Quantization for Video Diffusion Transformers

Il paper presenta SemanticDialect, un metodo di quantizzazione mista semantica che ottimizza la generazione video su dispositivi edge riducendo i costi computazionali e preservando la coerenza temporale e semantica attraverso la selezione dinamica di formati per blocco, la decomposizione delle attivazioni e l'assegnazione di dialetti basata sulla correlazione semantica.

Wonsuk Jang, Thierry Tambe2026-03-04💻 cs

Articulation in Motion: Prior-free Part Mobility Analysis for Articulated Objects By Dynamic-Static Disentanglement

Il paper presenta "Articulation in Motion" (AiM), un nuovo framework che ricostruisce, segmenta e analizza la mobilità di oggetti articolati a partire da un video di interazione e una scansione iniziale, utilizzando una rappresentazione a doppi Gaussiani e un'analisi RANSAC sequenziale per determinare automaticamente il numero di parti e le loro cinematiche senza richiedere conoscenze a priori.

Hao Ai, Wenjie Chang, Jianbo Jiao + 2 more2026-03-04💻 cs

TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation

Il paper presenta TagaVLM, un framework end-to-end che integra strutture topologiche esplicitamente in un modello VLM tramite meccanismi di attenzione e prompt specifici, consentendo un ragionamento globale sulle azioni e ottenendo prestazioni all'avanguardia nel benchmark R2R, dimostrando che miglioramenti mirati su modelli open-source sono più efficaci del semplice scaling della dimensione del modello per il ragionamento spaziale embodied.

Jiaxing Liu, Zexi Zhang, Xiaoyan Li + 3 more2026-03-04💻 cs

The Dresden Dataset for 4D Reconstruction of Non-Rigid Abdominal Surgical Scenes

Il paper presenta il dataset Dresden (D4D), una risorsa composta da oltre 300.000 fotogrammi e 369 nuvole di punti derivanti da sessioni chirurgiche su cadaveri suini, che fornisce video endoscopici e geometria strutturata di alta qualità per valutare e sviluppare metodi di ricostruzione 4D, SLAM non rigido e stima della profondità in scenari chirurgici addominali realistici.

Reuben Docea, Rayan Younis, Yonghao Long + 10 more2026-03-04💻 cs

VIRGi: View-dependent Instant Recoloring of 3D Gaussians Splats

Il paper introduce VIRGi, un metodo innovativo che permette di modificare rapidamente e fotorealisticamente i colori di scene ricostruite con 3D Gaussian Splatting, preservando gli effetti dipendenti dalla vista come i riflessi speculari, attraverso un'architettura che separa le componenti di colore e un addestramento multi-vista che consente l'editing in tempo reale basandosi su una singola immagine modificata dall'utente.

Alessio Mazzucchelli, Ivan Ojeda-Martin, Fernando Rivas-Manzaneque + 3 more2026-03-04💻 cs

BRIGHT: A Collaborative Generalist-Specialist Foundation Model for Breast Pathology

Il paper presenta BRIGHT, il primo modello fondazionale collaborativo generalista-specialista progettato specificamente per la patologia mammaria e addestrato su un vasto dataset multicentrico, che dimostra prestazioni superiori rispetto ai modelli generalisti esistenti su una vasta gamma di compiti clinici, validando così un nuovo paradigma scalabile per lo sviluppo di modelli specifici per organi.

Xiaojing Guo, Jiatai Lin, Yumian Jia + 39 more2026-03-04💻 cs