ArtiFixer: Enhancing and Extending 3D Reconstruction with Auto-Regressive Diffusion Models

Il paper presenta ArtiFixer, un metodo a due stadi che utilizza un modello generativo bidirezionale addestrato con una strategia di mixing dell'opacità e successivamente distillato in un modello causale auto-regressivo per correggere gli artefatti e migliorare la ricostruzione 3D in aree non osservate, superando significativamente le prestazioni degli approcci esistenti.

Riccardo de Lutio, Tobias Fischer, Yen-Yu Chang + 7 more2026-03-03🤖 cs.LG

COG: Confidence-aware Optimal Geometric Correspondence for Unsupervised Single-reference Novel Object Pose Estimation

Il paper propone COG, un framework non supervisionato per la stima della posa di oggetti nuovi da una singola vista di riferimento, che risolve le sfide delle corrispondenze cross-view formulando il problema come un trasporto ottimo consapevole della confidenza per generare corrispondenze soft bilanciate e sopprimere le regioni non sovrapposte.

Yuchen Che, Jingtu Wu, Hao Zheng + 1 more2026-03-03💻 cs

Hierarchical Classification for Improved Histopathology Image Analysis

Il paper propone HiClass, un framework di classificazione gerarchica basato sull'apprendimento multi-istanza che, integrando bidirezionalmente le rappresentazioni delle caratteristiche e utilizzando funzioni di perdita specifiche, migliora l'analisi delle immagini istopatologiche intere (WSI) catturando efficacemente sia le caratteristiche a grana grossa che a grana fine.

Keunho Byeon, Jinsol Song, Seong Min Hong + 2 more2026-03-03💻 cs

What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

Questo lavoro introduce EmbedLens per dimostrare che i token visivi nei modelli multimodali sono caratterizzati da una marcata sparsità semantica, dove solo una frazione "viva" trasporta informazioni significative, rendendo superfluo il calcolo visivo interno e suggerendo che l'iniezione diretta negli strati intermedi dell'LLM è sufficiente per le prestazioni ottimali.

Yingqi Fan, Junlong Tong, Anhao Zhao + 1 more2026-03-03🤖 cs.AI

Mesh-Pro: Asynchronous Advantage-guided Ranking Preference Optimization for Artist-style Quadrilateral Mesh Generation

Il paper presenta Mesh-Pro, un nuovo framework di apprendimento per rinforzo asincrono basato sull'ottimizzazione della preferenza di ranking guidata dal vantaggio (ARPO) che, combinando una tokenizzazione ibrida triangolare-quadrangolare e un premio basato sui raggi, migliora significativamente l'efficienza di addestramento e la qualità nella generazione di mesh quadrangolari in stile artistico.

Zhen Zhou, Jian Liu, Biwen Lei + 10 more2026-03-03💻 cs

TP-Spikformer: Token Pruned Spiking Transformer

Il paper propone TP-Spikformer, un metodo di potatura dei token per trasformatori spiking che riduce l'overhead computazionale e di archiviazione mantenendo prestazioni competitive attraverso un criterio euristico di conservazione delle informazioni e una strategia di arresto anticipato a livello di blocco, risultando efficace e scalabile su diverse architetture e compiti senza necessità di riaddestramento.

Wenjie Wei, Xiaolong Zhou, Malu Zhang + 8 more2026-03-03💻 cs

RAFM: Retrieval-Augmented Flow Matching for Unpaired CBCT-to-CT Translation

Il paper presenta RAFM, un metodo di traduzione non accoppiata da CBCT a CT che integra il flusso rettificato con un meccanismo di recupero guidato da un encoder DINOv3 e una banca di memoria globale per generare immagini CT sintetiche di alta qualità, superando le limitazioni dei dati non accoppiati e ottenendo risultati superiori rispetto agli stati dell'arte nel dataset SynthRAD2023.

Xianhao Zhou, Jianghao Wu, Lanfeng Zhong + 4 more2026-03-03💻 cs