cs.AI articoli | Gist.Science

Automatic Curriculum Learning for Driving Scenarios: Towards Robust and Efficient Reinforcement Learning

Questo paper propone un framework di apprendimento curricolare automatico che genera dinamicamente scenari di guida adattivi per migliorare l'efficienza e la generalizzazione degli agenti di guida autonoma basati sul reinforcement learning, superando i limiti delle metodologie tradizionali come la randomizzazione del dominio.

Ahmed Abouelazm, Tim Weinstein, Tim Joseph + 2 more2026-03-06💻 cs

Ice Cream Doesn't Cause Drowning: Benchmarking LLMs Against Statistical Pitfalls in Causal Inference

Il paper introduce CausalPitfalls, un benchmark completo progettato per valutare rigorosamente le capacità di ragionamento causale statistico dei modelli linguistici di grandi dimensioni, evidenziando le loro attuali limitazioni nel superare errori comuni come la paradosso di Simpson e il bias di selezione.

Jin Du, Li Chen, Xun Xian + 6 more2026-03-06💻 cs

ShIOEnv: A Command Evaluation Environment for Grammar-Constrained Synthesis and Execution Behavior Modeling

Il paper presenta ShIOEnv, un ambiente Bash basato su Gymnasium che, sfruttando la sintesi vincolata alla grammatica e un segnale di irreducibilità auto-supervisionato, genera un dataset di 2,1 milioni di coppie input-output per migliorare l'accuratezza dei modelli nel prevedere il comportamento di esecuzione dei comandi rispetto alle basi di riferimento senza esecuzione.

Jarrod Ragsdale, Rajendra Boppana2026-03-06💻 cs

VTool-R1: VLMs Learn to Think with Images via Reinforcement Learning on Multimodal Tool Use

Il paper presenta VTool-R1, un framework pionieristico che addestra i modelli visione-linguaggio a generare catene di pensiero multimodali intercalando testo e passaggi visivi intermedi tramite l'uso strategico di strumenti di editing grafico e apprendimento per rinforzo, migliorando così le capacità di ragionamento su dati strutturati come grafici e tabelle.

Mingyuan Wu, Jingcheng Yang, Jize Jiang + 6 more2026-03-06💻 cs

SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models

Il paper introduce SealQA, un nuovo benchmark che valuta le capacità di ragionamento e accuratezza fattuale dei modelli linguistici potenziati dalla ricerca web, rivelando che anche i modelli più avanzati faticano a gestire risultati di ricerca conflittuali, rumorosi o contesti lunghi.

Thinh Pham, Nguyen Nguyen, Pratibha Zunjare + 3 more2026-03-06💻 cs

RoboPARA: Dual-Arm Robot Planning with Parallel Allocation and Recomposition Across Tasks

Il paper presenta RoboPARA, un innovativo framework guidato da modelli linguistici su larga scala che ottimizza la pianificazione parallela per robot a due bracci attraverso la generazione di candidati basata su grafi di dipendenza e la rielaborazione del grafo, supportato dal nuovo dataset X-DAPT per la valutazione in scenari diversificati.

Shiying Duan, Pei Ren, Nanxiang Jiang + 5 more2026-03-06💻 cs

A Signal Contract for Online Language Grounding and Discovery in Decision-Making

Il paper presenta LUCIFER, un middleware che implementa un "contratto di segnale" per tradurre in tempo reale aggiornamenti linguistici umani in segnali di controllo decouplati, migliorando sicurezza ed efficienza nella raccolta di informazioni in sistemi autonomi senza accoppiare la comprensione del linguaggio ai pianificatori decisionali.

Dimitris Panagopoulos, Adolfo Perrusquia, Weisi Guo2026-03-06💻 cs

HSG-12M: A Large-Scale Benchmark of Spatial Multigraphs from the Energy Spectra of Non-Hermitian Crystals

Il paper introduce HSG-12M, un dataset su larga scala di 16,7 milioni di grafi multigrafo spaziali derivati dagli spettri energetici di cristalli non hermitiani, generato tramite il nuovo strumento automatizzato Poly2Graph per colmare il divario tra fisica della materia condensata e apprendimento automatico geometrico.

Xianquan Yan, Hakan Akgün, Kenji Kawaguchi + 2 more2026-03-06🔬 cond-mat.mes-hall

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

Il paper presenta InterActHuman, un nuovo framework che supera i limiti delle animazioni umane esistenti permettendo la generazione end-to-end di video con più soggetti e interazioni, garantendo un controllo preciso e allineato al layout attraverso l'associazione di condizioni multimodali (testo, immagine, audio) a specifiche regioni spaziali e temporali.

Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang + 7 more2026-03-06💻 cs

Bures-Wasserstein Flow Matching for Graph Generation

Questo articolo introduce BWFlow, un framework di flow matching per la generazione di grafi che supera le limitazioni delle interpolazioni lineari tradizionali modellando l'evoluzione congiunta di nodi e archi attraverso campi casuali di Markov e il trasporto ottimo di Wasserstein, garantendo così percorsi probabilistici più lisci, una convergenza di addestramento migliorata e un campionamento efficiente.

Keyue Jiang, Jiahao Cui, Xiaowen Dong + 1 more2026-03-06💻 cs

Structured Kolmogorov-Arnold Neural ODEs for Interpretable Learning and Symbolic Discovery of Nonlinear Dynamics

Il paper propone SKANODEs, un framework che integra Kolmogorov-Arnold Networks nelle Neural ODE per apprendere dinamiche non lineari interpretabili, recuperando stati fisici latenti e scoprendo automaticamente le equazioni simboliche governanti con prestazioni superiori rispetto ai metodi tradizionali.

Wei Liu, Kiran Bacsa, Loon Ching Tang + 1 more2026-03-06🔬 physics

Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective

Questo studio dimostra che il Reinforcement Fine-Tuning (RFT) preserva meglio la conoscenza preesistente rispetto al Supervised Fine-Tuning (SFT) perché i dati di addestramento generati dall'RFT sono più allineati alla distribuzione probabilistica del modello base, riducendo l'interferenza e il fenomeno dell'oblio catastrofico.

Zhihao Zhang, Qiaole Dong, Qi Zhang + 12 more2026-03-06💻 cs

MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining

Il paper introduce MuRating, un framework scalabile che trasferisce segnali di qualità dai dati inglesi per addestrare un valutatore multilingue, permettendo la selezione di subset di dati equilibrati che migliorano significativamente le prestazioni dei modelli linguistici su compiti sia in inglese che multilingue.

Zhixun Chen, Ping Guo, Wenhan Han + 10 more2026-03-06💻 cs

Design and Experimental Validation of Sensorless 4-Channel Bilateral Teleoperation for Low-Cost Manipulators

Questo articolo presenta e convalida sperimentalmente un sistema di teleoperazione bilaterale a 4 canali senza sensori di forza per manipolatori a basso costo, dimostrando che tale approccio consente un'interazione stabile ad alta velocità e migliora significativamente l'apprendimento per imitazione fornendo dati di dimostrazione arricchiti da informazioni di forza.

Koki Yamane, Yunhan Li, Masashi Konosu + 4 more2026-03-06💻 cs

Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

Questo lavoro introduce TreeBench, un benchmark diagnostico per valutare il ragionamento visivo fondato su prove tracciabili, e TreeVGR, un paradigma di addestramento basato sul reinforcement learning che migliora significativamente le capacità di localizzazione e ragionamento dei modelli visivi.

Haochen Wang, Xiangtai Li, Zilong Huang + 9 more2026-03-06💻 cs

Overtone: Cyclic Patch Modulation for Clean, Efficient, and Flexible Physics Emulators

Il paper presenta Overtone, un approccio innovativo che utilizza una modulazione ciclica dinamica delle dimensioni delle patch per mitigare gli errori armonici e adattare il costo computazionale nei sostituti delle equazioni differenziali parziali basati su Transformer, ottenendo prestazioni superiori rispetto ai modelli a patch fisse.

Payel Mukhopadhyay, Michael McCabe, Ruben Ohana + 1 more2026-03-06💻 cs

In-Training Defenses against Emergent Misalignment in Language Models

Questo studio presenta la prima analisi sistematica di misure di sicurezza durante l'addestramento per mitigare il disallineamento emergente nei modelli linguistici, dimostrando che l'intercalazione di dati selezionati in base al divario di perplessità tra modelli allineati e disallineati rappresenta la strategia più efficace per prevenire comportamenti dannosi senza compromettere le prestazioni su compiti benigni.

David Kaczér, Magnus Jørgenvåg, Clemens Vetter + 4 more2026-03-06💻 cs

Vevo2: A Unified and Controllable Framework for Speech and Singing Voice Generation

Il documento presenta Vevo2, un framework unificato e controllabile per la generazione di voce parlata e cantata che supera le limitazioni dei dati annotati e garantisce un controllo flessibile su prosodia, stile e timbro grazie a nuovi tokenizzatori audio e strategie di addestramento congiunto.

Xueyao Zhang, Junan Zhang, Yuancheng Wang + 5 more2026-03-06💻 cs

LHM-Humanoid: Learning a Unified Policy for Long-Horizon Humanoid Whole-Body Loco-Manipulation in Diverse Messy Environments

Il paper introduce LHM-Humanoid, un framework di apprendimento e benchmark che addestra un'unica politica end-to-end per il controllo olistico di humanoid in ambienti disordinati, permettendo loro di navigare, manipolare e trasportare oggetti in episodi lunghi e complessi senza reset, superando le prestazioni dei metodi precedenti grazie a una forte generalizzazione cross-scena.

Haozhuo Zhang, Jingkai Sun, Michele Caprio + 4 more2026-03-06💻 cs

A Geometric Perspective on the Difficulties of Learning GNN-based SAT Solvers

Questo paper dimostra che la curvatura di Ricci negativa intrinseca ai grafi bipartiti derivati da formule k-SAT causa un fenomeno di "oversquashing" che limita l'efficacia dei risoluti basati su GNN, proponendo tale curvatura come indicatore geometrico chiave per prevedere la complessità del problema e l'errore di generalizzazione.

Geri Skenderi2026-03-06🔬 physics

← Precedente Successivo →