Safety Mirage: How Spurious Correlations Undermine VLM Safety Fine-Tuning and Can Be Mitigated by Machine Unlearning

Il paper rivela come il fine-tuning supervisionato per la sicurezza dei modelli visione-linguaggio crei un "miraggio di sicurezza" basato su correlazioni spurie che possono essere aggirate o causano rifiuti eccessivi, dimostrando che l'apprendimento non supervisionato (machine unlearning) è una soluzione più efficace per rimuovere le conoscenze dannose preservando le capacità generali del modello.

Yiwei Chen, Yuguang Yao, Yihua Zhang + 3 more2026-03-06💻 cs

Enhancing multimodal analogical reasoning with Logic Augmented Generation

Questo paper propone un framework di generazione potenziata dalla logica (LAG) che combina grafi di conoscenza semantica ed euristiche di prompt per migliorare il ragionamento analogico multimodale, dimostrando prestazioni superiori rispetto ai baselines e agli umani in compiti di rilevamento e comprensione di metafore, sebbene con limitazioni residue nelle metafore specifiche di dominio.

Anna Sofia Lippolis, Andrea Giovanni Nuzzolese, Aldo Gangemi2026-03-06💻 cs

Balancing Progress and Safety: A Novel Risk-Aware Objective for RL in Autonomous Driving

Questo lavoro propone un nuovo obiettivo di ricompensa consapevole del rischio per l'apprendimento per rinforzo nella guida autonoma, che integra una struttura gerarchica di obiettivi e un'estensione della sicurezza RSS, dimostrando una riduzione del 21% delle collisioni e un miglioramento delle prestazioni rispetto ai metodi tradizionali.

Ahmed Abouelazm, Jonas Michel, Helen Gremmelmaier + 3 more2026-03-06💻 cs

ShIOEnv: A Command Evaluation Environment for Grammar-Constrained Synthesis and Execution Behavior Modeling

Il paper presenta ShIOEnv, un ambiente Bash basato su Gymnasium che, sfruttando la sintesi vincolata alla grammatica e un segnale di irreducibilità auto-supervisionato, genera un dataset di 2,1 milioni di coppie input-output per migliorare l'accuratezza dei modelli nel prevedere il comportamento di esecuzione dei comandi rispetto alle basi di riferimento senza esecuzione.

Jarrod Ragsdale, Rajendra Boppana2026-03-06💻 cs

VTool-R1: VLMs Learn to Think with Images via Reinforcement Learning on Multimodal Tool Use

Il paper presenta VTool-R1, un framework pionieristico che addestra i modelli visione-linguaggio a generare catene di pensiero multimodali intercalando testo e passaggi visivi intermedi tramite l'uso strategico di strumenti di editing grafico e apprendimento per rinforzo, migliorando così le capacità di ragionamento su dati strutturati come grafici e tabelle.

Mingyuan Wu, Jingcheng Yang, Jize Jiang + 6 more2026-03-06💻 cs

HSG-12M: A Large-Scale Benchmark of Spatial Multigraphs from the Energy Spectra of Non-Hermitian Crystals

Il paper introduce HSG-12M, un dataset su larga scala di 16,7 milioni di grafi multigrafo spaziali derivati dagli spettri energetici di cristalli non hermitiani, generato tramite il nuovo strumento automatizzato Poly2Graph per colmare il divario tra fisica della materia condensata e apprendimento automatico geometrico.

Xianquan Yan, Hakan Akgün, Kenji Kawaguchi + 2 more2026-03-06🔬 cond-mat.mes-hall

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

Il paper presenta InterActHuman, un nuovo framework che supera i limiti delle animazioni umane esistenti permettendo la generazione end-to-end di video con più soggetti e interazioni, garantendo un controllo preciso e allineato al layout attraverso l'associazione di condizioni multimodali (testo, immagine, audio) a specifiche regioni spaziali e temporali.

Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang + 7 more2026-03-06💻 cs

Bures-Wasserstein Flow Matching for Graph Generation

Questo articolo introduce BWFlow, un framework di flow matching per la generazione di grafi che supera le limitazioni delle interpolazioni lineari tradizionali modellando l'evoluzione congiunta di nodi e archi attraverso campi casuali di Markov e il trasporto ottimo di Wasserstein, garantendo così percorsi probabilistici più lisci, una convergenza di addestramento migliorata e un campionamento efficiente.

Keyue Jiang, Jiahao Cui, Xiaowen Dong + 1 more2026-03-06💻 cs