Alchemist: Turning Public Text-to-Image Data into Generative Gold

Il paper presenta "Alchemist", un nuovo metodo per creare dataset di affinamento supervisionato (SFT) generali ed efficaci sfruttando modelli generativi pre-addestrati come stimatori di campioni ad alto impatto, producendo un piccolo dataset di 3.350 campioni che migliora significativamente la qualità estetica e l'allineamento di diversi modelli text-to-image pubblici.

Valerii Startsev, Alexander Ustyuzhanin, Alexey Kirillov, Dmitry Baranchuk, Sergey Kastryulin2026-03-09💻 cs

Instance Data Condensation for Image Super-Resolution

Questo articolo propone un nuovo framework di condensazione dei dati a livello di istanza (IDC) per la super-risoluzione delle immagini, che utilizza l'estrazione di caratteristiche di Fourier locali casuali e il matching delle distribuzioni di caratteristiche multilivello per generare un dataset sintetico condensato al 10% su DIV2K, ottenendo prestazioni comparabili a quelle del dataset originale completo.

Tianhao Peng, Ho Man Kwan, Yuxuan Jiang, Ge Gao, Fan Zhang, Xiaozhong Xu, Shan Liu, David Bull2026-03-09💻 cs

SPARC: Concept-Aligned Sparse Autoencoders for Cross-Model and Cross-Modal Interpretability

Il paper introduce SPARC, un framework che utilizza autoencoder sparsi allineati per creare uno spazio latente unificato che permette di interpretare e confrontare direttamente concetti ad alto livello tra modelli e modalità diverse, migliorando drasticamente l'allineamento concettuale e abilitando nuove applicazioni come la localizzazione spaziale guidata dal testo.

Ali Nasiri-Sarvi, Hassan Rivaz, Mahdi S. Hosseini2026-03-09🤖 cs.AI

A Multi-Agent System Enables Versatile Information Extraction from the Chemical Literature

Questo lavoro presenta un sistema multi-agente basato su modelli linguistici multimodali che supera significativamente lo stato dell'arte nell'estrazione automatica di informazioni chimiche da grafiche e testi scientifici, garantendo la creazione di database strutturati di alta qualità per la ricerca chimica guidata dall'intelligenza artificiale.

Yufan Chen, Ching Ting Leung, Bowen Yu, Jianwei Sun, Yong Huang, Linyan Li, Hao Chen, Hanyu Gao2026-03-09🤖 cs.AI

MAP: Mitigating Hallucinations in Large Vision-Language Models with Map-Level Attention Processing

Questo lavoro introduce MAP, un metodo di decodifica senza addestramento che mitiga le allucinazioni nei modelli visione-linguaggio su larga scala trattando gli stati nascosti come mappe semantiche 2D e applicando operazioni di attenzione a livello di mappa per migliorare la coerenza fattuale.

Chenxi Li, Yichen Guo, Benfang Qian, Jinhao You, Kai Tang, Yaosong Du, Zonghao Zhang, Xiande Huang2026-03-09🤖 cs.AI

VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models

Il paper presenta VLMQ, un framework di quantizzazione post-allenamento specifico per i modelli visione-linguaggio che, identificando e mitigando la sovrarappresentazione visiva e il divario tra modalità, utilizza un fattore di importanza guidato dal gradiente per selezionare i token salienti e ottenere prestazioni all'avanguardia, specialmente nelle configurazioni a basso numero di bit.

Yufei Xue, Yushi Huang, Jiawei Shao, Lunjie Zhu, Chi Zhang, Xuelong Li, Jun Zhang2026-03-09🤖 cs.AI

SGDFuse: SAM-Guided Diffusion Model for High-Fidelity Infrared and Visible Image Fusion

Il paper presenta SGDFuse, un modello di diffusione condizionato guidato da SAM che utilizza maschere semantiche come priori espliciti per fondere immagini a infrarossi e visibili, ottenendo risultati ad alta fedeltà e privi di artefatti che superano gli stati dell'arte sia nella valutazione soggettiva che oggettiva.

Xiaoyang Zhang, jinjiang Li, Guodong Fan, Yakun Ju, Linwei Fan, Jun Liu, Alex C. Kot2026-03-09🤖 cs.AI

Multivariate Fields of Experts for Convergent Image Reconstruction

Il paper introduce i "Multivariate Fields of Experts", un nuovo framework per l'apprendimento di priori delle immagini che, grazie a funzioni potenziali multivariate basate su involucri di Moreau, supera i modelli univariati e si avvicina alle prestazioni dei metodi deep learning offrendo al contempo maggiore velocità, efficienza dei parametri, interpretabilità e garanzie teoriche di convergenza per vari problemi inversi di ricostruzione.

Stanislas Ducotterd, Michael Unser2026-03-09🤖 cs.LG

DianJin-OCR-R1: Enhancing OCR Capabilities via a Reasoning-and-Tool Interleaved Vision-Language Model

Il paper presenta DianJin-OCR-R1, un modello visione-linguaggio potenziato dal ragionamento che combina capacità di riconoscimento interne con l'uso di strumenti esterni e un processo di "ripresa" visiva per ridurre le allucinazioni e migliorare l'accuratezza nell'OCR rispetto ai modelli tradizionali e ai VLM non ragionanti.

Qian Chen, Xianyin Zhang, Lifan Guo, Feng Chen, Chi Zhang2026-03-09💻 cs