PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment

Il paper presenta PaLMR, un framework che allinea il processo di ragionamento multimodale attraverso dati percettivamente coerenti e una funzione di ricompensa gerarchica, riducendo le allucinazioni visive e migliorando l'affidabilità dei modelli senza comprometterne le prestazioni.

Yantao Li, Qiang Hui, Chenyang Yan, Kanzhi Cheng, Fang Zhao, Chao Tan, Huanling Gao, Jianbing Zhang, Kai Wang, Xinyu Dai, Shiguo Lian2026-03-10💻 cs

GameVerse: Can Vision-Language Models Learn from Video-based Reflection?

Il paper presenta GameVerse, un benchmark che dimostra come i modelli visione-linguaggio possano migliorare le proprie strategie di gioco attraverso un ciclo di riflessione basato su video, combinando traiettorie di fallimento e tutorial esperti in un approccio privo di addestramento analogo al reinforcement learning e al fine-tuning supervisionato.

Kuan Zhang, Dongchen Liu, Qiyue Zhao, Jinkun Hou, Xinran Zhang, Qinlei Xie, Miao Liu, Yiming Li2026-03-10💻 cs

ASMIL: Attention-Stabilized Multiple Instance Learning for Whole Slide Imaging

Il paper introduce ASMIL, un nuovo framework unificato che stabilizza le dinamiche di attenzione nel deep learning per l'analisi di immagini digitali intere (WSI) mediante un modello di riferimento e funzioni di attivazione modificate, superando così i problemi di instabilità, sovraccarico e sovrapposizione per ottenere prestazioni superiori rispetto agli stati dell'arte.

Linfeng Ye, Shayan Mohajer Hamidi, Zhixiang Chi, Guang Li, Mert Pilanci, Takahiro Ogawa, Miki Haseyama, Konstantinos N. Plataniotis2026-03-10💻 cs

Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine

Questo studio rivela che, nel contesto medico, il ragionamento a catena di pensiero (CoT) spesso peggiora le prestazioni rispetto alla risposta diretta a causa di un collo di bottiglia nella percezione visiva, ma dimostra che interventi di ancoraggio percettivo e grounding descrittivo possono ripristinare l'accuratezza migliorando l'allineamento cross-modale.

Yuan Wu, Zongxian Yang, Jiayu Qian, Songpan Gao, Guanxing Chen, Qiankun Li, Yu-An Huang, Zhi-An Huang2026-03-10💻 cs

SJD-PV: Speculative Jacobi Decoding with Phrase Verification for Autoregressive Image Generation

Il paper presenta SJD-PV, un metodo di accelerazione senza addestramento per la generazione di immagini autoregressiva che riduce la latenza fino al 30% verificando speculativamente gruppi di token correlati (frasi) invece di singoli token, preservando al contempo la qualità visiva.

Zhehao Yu, Baoquan Zhang, Bingqi Shan, Xinhao Liu, Dongliang Zhou, Guotao Liang, Guangming Ye, Yunming Ye2026-03-10💻 cs

Does Semantic Noise Initialization Transfer from Images to Videos? A Paired Diagnostic Study

Lo studio dimostra che, sebbene l'inizializzazione con rumore semantico mostri un lieve trend positivo su alcune dimensioni temporali nella generazione video, i risultati complessivi non superano significativamente la baseline con rumore gaussiano a causa di un segnale debole e instabile, suggerendo l'adozione di valutazioni accoppiate e diagnosi nello spazio del rumore come pratica standard.

Yixiao Jing, Chaoyu Zhang, Zixuan Zhong, Peizhou Huang2026-03-10💻 cs

Unmixing microinfrared spectroscopic images of cross-sections of historical oil paintings

Questo articolo presenta un autoencoder CNN non supervisionato, dotato di una funzione di perdita basata sulla distanza angolare spettrale ponderata (WSAD), per l'analisi non distruttiva e l'identificazione automatica dei componenti nei campioni stratificati di dipinti storici, come dimostrato su una sezione trasversale del Polittico di Gand.

Shivam Pande, Nicolas Nadisic, Francisco Mederos-Henry, Aleksandra Pizurica2026-03-10🤖 cs.LG

AutoFigure-Edit: Generating Editable Scientific Illustration

Il paper presenta AutoFigure-Edit, un sistema end-to-end che genera illustrazioni scientifiche completamente modificabili e adattabili stilisticamente partendo da testi lunghi, combinando la comprensione del contesto, lo stile guidato da riferimenti e la modifica nativa in SVG.

Zhen Lin, Qiujie Xie, Minjun Zhu, Shichen Li, Qiyao Sun, Enhao Gu, Yiran Ding, Ke Sun, Fang Guo, Panzhong Lu, Zhiyuan Ning, Yixuan Weng, Yue Zhang2026-03-10💻 cs

ECHO: Event-Centric Hypergraph Operations via Multi-Agent Collaboration for Multimedia Event Extraction

Il paper propone ECHO, un framework multi-agente che utilizza operazioni su ipergrafi condivisi e una strategia di collegamento prima del vincolo per migliorare l'estrazione di eventi multimodali riducendo gli errori di propagazione e superando le prestazioni dello stato dell'arte.

Hailong Chu, Shuo Zhang, Yunlong Chu, Shutai Huang, Xingyue Zhang, Tinghe Yan, Jinsong Zhang, Lei Li2026-03-10💻 cs