Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation

Il paper propone CAPL, un framework strutturato che combina un meccanismo di attenzione calibrato per le interazioni tra immagini e un'ottimizzazione basata sulle preferenze per mitigare le allucinazioni nei modelli visione-linguaggio su compiti multi-immagine, migliorando le prestazioni senza compromettere le capacità su singole immagini.

Xiaochen Yang, Hao Fang, Jiawei Kong, Yaoxin Mao, Bin Chen, Shu-Tao Xia2026-03-10💻 cs

SODA: Sensitivity-Oriented Dynamic Acceleration for Diffusion Transformer

Il paper propone SODA, un metodo di accelerazione dinamica e adattiva per i Diffusion Transformer che, modellando la sensibilità a livello fine-granularità e ottimizzando la cache e il pruning tramite programmazione dinamica, supera i limiti delle strategie fisse esistenti raggiungendo uno stato dell'arte nel compromesso tra velocità di inferenza e fedeltà della generazione.

Tong Shao, Yusen Fu, Guoying Sun, Jingde Kong, Zhuotao Tian, Jingyong Su2026-03-10💻 cs

Retinex Meets Language: A Physics-Semantics-Guided Underwater Image Enhancement Network

Il paper propone PSG-UIENet, una rete innovativa per il miglioramento delle immagini subacquee che combina la correzione dell'illuminazione basata sulla teoria Retinex con guide semantiche testuali derivate da CLIP, supportata dal nuovo dataset multimodale LUIQD-TD e da una funzione di perdita per la similarità semantica, ottenendo prestazioni superiori rispetto ai metodi esistenti.

Shixuan Xu, Yabo Liu, Junyu Dong, Xinghui Dong2026-03-10💻 cs

Facial Expression Generation Aligned with Human Preference for Natural Dyadic Interaction

Questo articolo propone un metodo per la generazione di espressioni facciali allineate alle preferenze umane per interazioni dialogiche naturali, che utilizza un ciclo di feedback chiuso e un apprendimento per rinforzo guidato da feedback umano per addestrare un modello visione-linguaggio-azione capace di produrre risposte espressive contestualmente appropriate e libere da bias identitari.

Xu Chen, Rui Gao, Xinjie Zhang, Haoyu Zhang, Che Sun, Zhi Gao, Yuwei Wu, Yunde Jia2026-03-10💻 cs

Efficient Chest X-ray Representation Learning via Semantic-Partitioned Contrastive Learning

Il paper presenta S-PCL, un framework di apprendimento auto-supervisionato efficiente per le radiografie toraciche che, partizionando semanticamente i patch di un'immagine per creare viste complementari, supera i limiti dei metodi esistenti eliminando la necessità di aumentazioni pesanti e decodificatori ausiliari, ottenendo così prestazioni superiori con un costo computazionale ridotto.

Wangyu Feng, Shawn Young, Lijian Xu2026-03-10💻 cs

Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge

Il paper presenta EyExIn, un framework efficiente che supera le lacune di conoscenza specifica nel dominio oftalmico dei modelli visione-linguaggio, integrando un meccanismo di iniezione profonda di esperti per ancorare il ragionamento a evidenze visive accurate e raggiungere prestazioni all'avanguardia nella diagnosi retinica.

Shuai Lu, Meng Wang, Jia Guo, Jiawei Du, Bo Liu, Shengzhu Yang, Weihang Zhang, Huazhu Fu, Huiqi Li2026-03-10💻 cs

The Model Knows Which Tokens Matter: Automatic Token Selection via Noise Gating

Il paper presenta AutoSelect, un metodo che riformula la potatura dei token visivi come comunicazione a capacità vincolata, utilizzando un gate di rumore e un denoiser per selezionare automaticamente i token più rilevanti durante l'addestramento, ottenendo un'accelerazione significativa dell'inferenza nei modelli visione-linguaggio con una minima perdita di accuratezza e senza necessità di obiettivi di addestramento aggiuntivi.

Landi He, Xiaoyu Yang, Lijian Xu2026-03-10💻 cs

CanoVerse: 3D Object Scalable Canonicalization and Dataset for Generation and Pose

Il paper presenta CanoVerse, un vasto dataset canonico di 320.000 oggetti 3D e un nuovo framework di canonizzazione ad alta efficienza che risolve l'ambiguità rotazionale per migliorare la generazione 3D, il recupero di forme e la stima dell'orientamento.

Li Jin, Yuchen Yang, Weikai Chen, Yujie Wang, Dehao Hao, Tanghui Jia, Yingda Yin, Zeyu Hu, Runze Zhang, Keyang Luo, Li Yuan, Long Quan, Xin Wang, Xueying Qin2026-03-10💻 cs

LiveWorld: Simulating Out-of-Sight Dynamics in Generative Video World Models

Il paper presenta LiveWorld, un nuovo framework che risolve il problema della dinamica "fuori vista" nei modelli di mondo video generativi introducendo uno stato globale persistente e un meccanismo di monitoraggio che permette agli oggetti di evolvere anche quando non sono osservati, garantendo così una coerenza temporale e spaziale a lungo termine.

Zicheng Duan, Jiatong Xia, Zeyu Zhang, Wenbo Zhang, Gengze Zhou, Chenhui Gou, Yefei He, Feng Chen, Xinyu Zhang, Lingqiao Liu2026-03-10💻 cs