A Multi-Agent System Enables Versatile Information Extraction from the Chemical Literature

Questo lavoro presenta un sistema multi-agente basato su modelli linguistici multimodali che supera significativamente lo stato dell'arte nell'estrazione automatica di informazioni chimiche da grafiche e testi scientifici, garantendo la creazione di database strutturati di alta qualità per la ricerca chimica guidata dall'intelligenza artificiale.

Yufan Chen, Ching Ting Leung, Bowen Yu, Jianwei Sun, Yong Huang, Linyan Li, Hao Chen, Hanyu Gao2026-03-09🤖 cs.AI

MAP: Mitigating Hallucinations in Large Vision-Language Models with Map-Level Attention Processing

Questo lavoro introduce MAP, un metodo di decodifica senza addestramento che mitiga le allucinazioni nei modelli visione-linguaggio su larga scala trattando gli stati nascosti come mappe semantiche 2D e applicando operazioni di attenzione a livello di mappa per migliorare la coerenza fattuale.

Chenxi Li, Yichen Guo, Benfang Qian, Jinhao You, Kai Tang, Yaosong Du, Zonghao Zhang, Xiande Huang2026-03-09🤖 cs.AI

VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models

Il paper presenta VLMQ, un framework di quantizzazione post-allenamento specifico per i modelli visione-linguaggio che, identificando e mitigando la sovrarappresentazione visiva e il divario tra modalità, utilizza un fattore di importanza guidato dal gradiente per selezionare i token salienti e ottenere prestazioni all'avanguardia, specialmente nelle configurazioni a basso numero di bit.

Yufei Xue, Yushi Huang, Jiawei Shao, Lunjie Zhu, Chi Zhang, Xuelong Li, Jun Zhang2026-03-09🤖 cs.AI

SGDFuse: SAM-Guided Diffusion Model for High-Fidelity Infrared and Visible Image Fusion

Il paper presenta SGDFuse, un modello di diffusione condizionato guidato da SAM che utilizza maschere semantiche come priori espliciti per fondere immagini a infrarossi e visibili, ottenendo risultati ad alta fedeltà e privi di artefatti che superano gli stati dell'arte sia nella valutazione soggettiva che oggettiva.

Xiaoyang Zhang, jinjiang Li, Guodong Fan, Yakun Ju, Linwei Fan, Jun Liu, Alex C. Kot2026-03-09🤖 cs.AI

LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference

Il paper introduce LikePhys, un metodo senza addestramento che valuta la comprensione della fisica intuitiva nei modelli di diffusione video misurando la preferenza di verosimiglianza su un benchmark curato, dimostrando che tale capacità migliora con la scalabilità del modello nonostante le attuali difficoltà con dinamiche complesse.

Jianhao Yuan, Fabio Pizzati, Francesco Pinto, Lars Kunze, Ivan Laptev, Paul Newman, Philip Torr, Daniele De Martini2026-03-09🤖 cs.AI

Just-In-Time Objectives: A General Approach for Specialized AI Interactions

Questo paper introduce un approccio chiamato "obiettivi just-in-time" che infere e ottimizza in tempo reale le intenzioni dell'utente per trasformare i modelli linguistici generici in strumenti specializzati di alta qualità, superando significativamente le prestazioni dei chatbot LLM standard.

Michelle S. Lam, Omar Shaikh, Hallie Xu, Alice Guo, Diyi Yang, Jeffrey Heer, James A. Landay, Michael S. Bernstein2026-03-09🤖 cs.AI

Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views

Il paper presenta 3DThinker, un framework innovativo che permette ai modelli visione-linguaggio di effettuare un ragionamento spaziale tridimensionale basato sull'immaginazione geometrica partendo da viste limitate, senza richiedere dati 3D espliciti o input 3D preliminari.

Zhangquan Chen, Manyuan Zhang, Xinlei Yu, Xufang Luo, Mingze Sun, Zihao Pan, Xiang An, Yan Feng, Peng Pei, Xunliang Cai, Ruqi Huang2026-03-09🤖 cs.AI

Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People

Questo articolo presenta il compito di dialogo "Collaborative Battleship" e strategie di inferenza Monte Carlo ispirate alla progettazione sperimentale bayesiana per migliorare le capacità di agenti linguistici nell'esplorazione strategica e nel processo decisionale sotto incertezza, permettendo loro di superare sia i giocatori umani che i modelli all'avanguardia in compiti come Battleship e Guess Who?.

Gabriel Grand, Valerio Pepe, Jacob Andreas, Joshua B. Tenenbaum2026-03-09🤖 cs.AI

REx86: A Local Large Language Model for Assisting in x86 Assembly Reverse Engineering

Il paper presenta REx86, un modello linguistico locale open-weight basato su Qwen2.5-Coder-7B e ottimizzato tramite fine-tuning su un dataset specifico, che dimostra di migliorare significativamente l'efficienza e l'accuratezza nel reverse engineering di codice assembly x86, offrendo un'alternativa sicura e performante rispetto ai modelli cloud chiusi.

Darrin Lea, James Ghawaly, Golden Richard + 2 more2026-03-09🤖 cs.AI

LA-MARRVEL: A Knowledge-Grounded, Language-Aware LLM Framework for Clinically Robust Rare Disease Gene Prioritization

Il paper presenta LA-MARRVEL, un framework basato su LLM che integra conoscenze cliniche e consapevolezza linguistica per migliorare significativamente la priorità dei geni nelle malattie rare, offrendo spiegazioni tracciabili e allineate alle linee guida ACMG senza alterare i flussi di lavoro diagnostici esistenti.

Jaeyeon Lee, Lin Yao, Hyun-Hwan Jeong, Zhandong Liu2026-03-09🤖 cs.AI

The Persistence of Cultural Memory: Investigating Multimodal Iconicity in Diffusion Models

Questo studio introduce un quadro di valutazione basato sulla metrica CRT per analizzare come i modelli di diffusione gestiscano l'iconicità multimodale, distinguendo tra il riconoscimento dei riferimenti culturali e la loro realizzazione visiva, e rivelando che tale comportamento dipende da fattori quali la frequenza dei dati, l'unicità testuale e la popolarità del riferimento.

Maria-Teresa De Rosa Palmini, Eva Cetinic2026-03-09🤖 cs.AI

XR-DT: Extended Reality-Enhanced Digital Twin for Safe Motion Planning via Human-Aware Model Predictive Path Integral Control

Questo articolo presenta XR-DT, un framework di Gemello Digitale potenziato dalla Realtà Estesa che integra un modello di controllo predittivo HA-MPPI e un sistema di previsione delle traiettorie umane basato su Transformer per garantire una pianificazione sicura ed efficiente della navigazione robotica in ambienti condivisi con esseri umani.

Tianyi Wang, Jiseop Byeon, Ahmad Yehia, Yiming Xu, Jihyung Park, Tianyi Zeng, Sikai Chen, Ziran Wang, Junfeng Jiao, Christian Claudel2026-03-09🤖 cs.AI

Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity

Questo lavoro propone un metodo basato sulla divergenza α\alpha per allineare i modelli linguistici a una distribuzione target ottenuta filtrando le risposte errate, permettendo di controllare esplicitamente il compromesso tra precisione e diversità e superando gli approcci precedenti nel benchmark di dimostrazione di teoremi Lean.

Germán Kruszewski, Pierre Erbacher, Jos Rozen, Marc Dymetman2026-03-09🤖 cs.AI