AdaGen: Learning Adaptive Policy for Image Synthesis

Il paper presenta AdaGen, un framework generalizzabile e adattivo basato sull'apprendimento per rinforzo che ottimizza il processo di sintesi iterativa delle immagini attraverso una politica adattiva e una ricompensa avversariale, superando le limitazioni degli scheduli statici e migliorando significativamente qualità ed efficienza in diversi paradigmi generativi.

Zanlin Ni, Yulin Wang, Yeguo Hua, Renping Zhou, Jiayi Guo, Jun Song, Bo Zheng, Gao Huang2026-03-10💻 cs

TrajPred: Trajectory-Conditioned Joint Embedding Prediction for Surgical Instrument-Tissue Interaction Recognition in Vision-Language Models

Il paper presenta TrajPred, un nuovo framework basato su modelli visione-linguaggio che migliora il riconoscimento delle interazioni tra strumenti e tessuti in chirurgia robotica integrando le traiettorie degli strumenti per catturare meglio le informazioni temporali e i dettagli delle azioni.

Jiajun Cheng, Xiaofan Yu, Subarna, Sainan Liu, Shan Lin2026-03-10💻 cs

OV-DEIM: Real-time DETR-Style Open-Vocabulary Object Detection with GridSynthetic Augmentation

Il paper presenta OV-DEIM, un rilevatore open-vocabulary basato su DETR che, grazie all'architettura DEIMv2, a una strategia di supplemento delle query e all'augmentazione dati GridSynthetic, raggiunge prestazioni all'avanguardia e una maggiore efficienza nel rilevamento di oggetti in tempo reale, superando i limiti attuali dei metodi basati su YOLO.

Leilei Wang, Longfei Liu, Xi Shen, Xuanlong Yu, Ying Tiffany He, Fei Richard Yu, Yingyi Chen2026-03-10💻 cs

Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation

Il paper propone CAPL, un framework strutturato che combina un meccanismo di attenzione calibrato per le interazioni tra immagini e un'ottimizzazione basata sulle preferenze per mitigare le allucinazioni nei modelli visione-linguaggio su compiti multi-immagine, migliorando le prestazioni senza compromettere le capacità su singole immagini.

Xiaochen Yang, Hao Fang, Jiawei Kong, Yaoxin Mao, Bin Chen, Shu-Tao Xia2026-03-10💻 cs

SODA: Sensitivity-Oriented Dynamic Acceleration for Diffusion Transformer

Il paper propone SODA, un metodo di accelerazione dinamica e adattiva per i Diffusion Transformer che, modellando la sensibilità a livello fine-granularità e ottimizzando la cache e il pruning tramite programmazione dinamica, supera i limiti delle strategie fisse esistenti raggiungendo uno stato dell'arte nel compromesso tra velocità di inferenza e fedeltà della generazione.

Tong Shao, Yusen Fu, Guoying Sun, Jingde Kong, Zhuotao Tian, Jingyong Su2026-03-10💻 cs

Retinex Meets Language: A Physics-Semantics-Guided Underwater Image Enhancement Network

Il paper propone PSG-UIENet, una rete innovativa per il miglioramento delle immagini subacquee che combina la correzione dell'illuminazione basata sulla teoria Retinex con guide semantiche testuali derivate da CLIP, supportata dal nuovo dataset multimodale LUIQD-TD e da una funzione di perdita per la similarità semantica, ottenendo prestazioni superiori rispetto ai metodi esistenti.

Shixuan Xu, Yabo Liu, Junyu Dong, Xinghui Dong2026-03-10💻 cs

Facial Expression Generation Aligned with Human Preference for Natural Dyadic Interaction

Questo articolo propone un metodo per la generazione di espressioni facciali allineate alle preferenze umane per interazioni dialogiche naturali, che utilizza un ciclo di feedback chiuso e un apprendimento per rinforzo guidato da feedback umano per addestrare un modello visione-linguaggio-azione capace di produrre risposte espressive contestualmente appropriate e libere da bias identitari.

Xu Chen, Rui Gao, Xinjie Zhang, Haoyu Zhang, Che Sun, Zhi Gao, Yuwei Wu, Yunde Jia2026-03-10💻 cs

Efficient Chest X-ray Representation Learning via Semantic-Partitioned Contrastive Learning

Il paper presenta S-PCL, un framework di apprendimento auto-supervisionato efficiente per le radiografie toraciche che, partizionando semanticamente i patch di un'immagine per creare viste complementari, supera i limiti dei metodi esistenti eliminando la necessità di aumentazioni pesanti e decodificatori ausiliari, ottenendo così prestazioni superiori con un costo computazionale ridotto.

Wangyu Feng, Shawn Young, Lijian Xu2026-03-10💻 cs

Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge

Il paper presenta EyExIn, un framework efficiente che supera le lacune di conoscenza specifica nel dominio oftalmico dei modelli visione-linguaggio, integrando un meccanismo di iniezione profonda di esperti per ancorare il ragionamento a evidenze visive accurate e raggiungere prestazioni all'avanguardia nella diagnosi retinica.

Shuai Lu, Meng Wang, Jia Guo, Jiawei Du, Bo Liu, Shengzhu Yang, Weihang Zhang, Huazhu Fu, Huiqi Li2026-03-10💻 cs

The Model Knows Which Tokens Matter: Automatic Token Selection via Noise Gating

Il paper presenta AutoSelect, un metodo che riformula la potatura dei token visivi come comunicazione a capacità vincolata, utilizzando un gate di rumore e un denoiser per selezionare automaticamente i token più rilevanti durante l'addestramento, ottenendo un'accelerazione significativa dell'inferenza nei modelli visione-linguaggio con una minima perdita di accuratezza e senza necessità di obiettivi di addestramento aggiuntivi.

Landi He, Xiaoyu Yang, Lijian Xu2026-03-10💻 cs