ShIOEnv: A Command Evaluation Environment for Grammar-Constrained Synthesis and Execution Behavior Modeling

Il paper presenta ShIOEnv, un ambiente Bash basato su Gymnasium che, sfruttando la sintesi vincolata alla grammatica e un segnale di irreducibilità auto-supervisionato, genera un dataset di 2,1 milioni di coppie input-output per migliorare l'accuratezza dei modelli nel prevedere il comportamento di esecuzione dei comandi rispetto alle basi di riferimento senza esecuzione.

Jarrod Ragsdale, Rajendra Boppana2026-03-06💻 cs

VTool-R1: VLMs Learn to Think with Images via Reinforcement Learning on Multimodal Tool Use

Il paper presenta VTool-R1, un framework pionieristico che addestra i modelli visione-linguaggio a generare catene di pensiero multimodali intercalando testo e passaggi visivi intermedi tramite l'uso strategico di strumenti di editing grafico e apprendimento per rinforzo, migliorando così le capacità di ragionamento su dati strutturati come grafici e tabelle.

Mingyuan Wu, Jingcheng Yang, Jize Jiang + 6 more2026-03-06💻 cs

HSG-12M: A Large-Scale Benchmark of Spatial Multigraphs from the Energy Spectra of Non-Hermitian Crystals

Il paper introduce HSG-12M, un dataset su larga scala di 16,7 milioni di grafi multigrafo spaziali derivati dagli spettri energetici di cristalli non hermitiani, generato tramite il nuovo strumento automatizzato Poly2Graph per colmare il divario tra fisica della materia condensata e apprendimento automatico geometrico.

Xianquan Yan, Hakan Akgün, Kenji Kawaguchi + 2 more2026-03-06🔬 cond-mat.mes-hall

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

Il paper presenta InterActHuman, un nuovo framework che supera i limiti delle animazioni umane esistenti permettendo la generazione end-to-end di video con più soggetti e interazioni, garantendo un controllo preciso e allineato al layout attraverso l'associazione di condizioni multimodali (testo, immagine, audio) a specifiche regioni spaziali e temporali.

Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang + 7 more2026-03-06💻 cs

Bures-Wasserstein Flow Matching for Graph Generation

Questo articolo introduce BWFlow, un framework di flow matching per la generazione di grafi che supera le limitazioni delle interpolazioni lineari tradizionali modellando l'evoluzione congiunta di nodi e archi attraverso campi casuali di Markov e il trasporto ottimo di Wasserstein, garantendo così percorsi probabilistici più lisci, una convergenza di addestramento migliorata e un campionamento efficiente.

Keyue Jiang, Jiahao Cui, Xiaowen Dong + 1 more2026-03-06💻 cs

Design and Experimental Validation of Sensorless 4-Channel Bilateral Teleoperation for Low-Cost Manipulators

Questo articolo presenta e convalida sperimentalmente un sistema di teleoperazione bilaterale a 4 canali senza sensori di forza per manipolatori a basso costo, dimostrando che tale approccio consente un'interazione stabile ad alta velocità e migliora significativamente l'apprendimento per imitazione fornendo dati di dimostrazione arricchiti da informazioni di forza.

Koki Yamane, Yunhan Li, Masashi Konosu + 4 more2026-03-06💻 cs

In-Training Defenses against Emergent Misalignment in Language Models

Questo studio presenta la prima analisi sistematica di misure di sicurezza durante l'addestramento per mitigare il disallineamento emergente nei modelli linguistici, dimostrando che l'intercalazione di dati selezionati in base al divario di perplessità tra modelli allineati e disallineati rappresenta la strategia più efficace per prevenire comportamenti dannosi senza compromettere le prestazioni su compiti benigni.

David Kaczér, Magnus Jørgenvåg, Clemens Vetter + 4 more2026-03-06💻 cs

LHM-Humanoid: Learning a Unified Policy for Long-Horizon Humanoid Whole-Body Loco-Manipulation in Diverse Messy Environments

Il paper introduce LHM-Humanoid, un framework di apprendimento e benchmark che addestra un'unica politica end-to-end per il controllo olistico di humanoid in ambienti disordinati, permettendo loro di navigare, manipolare e trasportare oggetti in episodi lunghi e complessi senza reset, superando le prestazioni dei metodi precedenti grazie a una forte generalizzazione cross-scena.

Haozhuo Zhang, Jingkai Sun, Michele Caprio + 4 more2026-03-06💻 cs