cs.AI articoli | Gist.Science

Assessing the Impact of Code Changes on the Fault Localizability of Large Language Models

Questo studio presenta un nuovo framework di valutazione su larga scala che, attraverso l'iniezione di mutazioni semantiche, dimostra come la capacità dei Large Language Models di localizzare i difetti sia spesso fragile e dipenda da indizi sintattici irrilevanti piuttosto che da una profonda comprensione della semantica del programma.

Sabaat Haroon, Ahmad Faraz Khan, Ahmad Humayun + 5 more2026-03-06💻 cs

ms-Mamba: Multi-scale Mamba for Time-Series Forecasting

Il paper presenta ms-Mamba, una nuova architettura basata su Mamba che utilizza multipli blocchi con diversi tassi di campionamento per catturare scale temporali multiple, ottenendo prestazioni superiori rispetto agli stati dell'arte su diverse metriche e dataset con un'efficienza computazionale e parametrica ridotta.

Yusuf Meric Karadag, Ismail Talaz, Ipek Gursel Dino + 1 more2026-03-06💻 cs

Enhancing multimodal analogical reasoning with Logic Augmented Generation

Questo paper propone un framework di generazione potenziata dalla logica (LAG) che combina grafi di conoscenza semantica ed euristiche di prompt per migliorare il ragionamento analogico multimodale, dimostrando prestazioni superiori rispetto ai baselines e agli umani in compiti di rilevamento e comprensione di metafore, sebbene con limitazioni residue nelle metafore specifiche di dominio.

Anna Sofia Lippolis, Andrea Giovanni Nuzzolese, Aldo Gangemi2026-03-06💻 cs

Foam-Agent: Towards Automated Intelligent CFD Workflows

Il paper presenta Foam-Agent, un framework multi-agente basato su modelli linguistici che automatizza l'intero flusso di lavoro della fluidodinamica computazionale (CFD) partendo da un prompt in linguaggio naturale, riducendo significativamente le barriere all'ingresso e ottenendo un tasso di successo del 88,2% senza intervento umano.

Ling Yue, Nithin Somasekharan, Tingwen Zhang + 4 more2026-03-06💻 cs

ReactDance: Hierarchical Representation for High-Fidelity and Coherent Long-Form Reactive Dance Generation

Il paper presenta ReactDance, un framework di diffusione basato su uno spazio latente gerarchico che utilizza la quantizzazione scalare finita gerarchica (HFSQ) e una strategia di campionamento contestuale locale a blocchi (BLC) per generare danze reattive a lungo termine ad alta fedeltà e coerenti.

Jingzhong Lin, Xinru Li, Yuanyuan Qi + 8 more2026-03-06💻 cs

Balancing Progress and Safety: A Novel Risk-Aware Objective for RL in Autonomous Driving

Questo lavoro propone un nuovo obiettivo di ricompensa consapevole del rischio per l'apprendimento per rinforzo nella guida autonoma, che integra una struttura gerarchica di obiettivi e un'estensione della sicurezza RSS, dimostrando una riduzione del 21% delle collisioni e un miglioramento delle prestazioni rispetto ai metodi tradizionali.

Ahmed Abouelazm, Jonas Michel, Helen Gremmelmaier + 3 more2026-03-06💻 cs

Boundary-Guided Trajectory Prediction for Road Aware and Physically Feasible Autonomous Driving

Questo paper propone un nuovo framework per la previsione delle traiettorie nella guida autonoma che, guidando la regressione attraverso i confini stradali e vincoli cinematici, garantisce previsioni fisicamente fattibili e robuste riducendo drasticamente le uscite dalla carreggiata anche in scenari avversi.

Ahmed Abouelazm, Mianzhi Liu, Christian Hubschneider + 3 more2026-03-06💻 cs

Automatic Curriculum Learning for Driving Scenarios: Towards Robust and Efficient Reinforcement Learning

Questo paper propone un framework di apprendimento curricolare automatico che genera dinamicamente scenari di guida adattivi per migliorare l'efficienza e la generalizzazione degli agenti di guida autonoma basati sul reinforcement learning, superando i limiti delle metodologie tradizionali come la randomizzazione del dominio.

Ahmed Abouelazm, Tim Weinstein, Tim Joseph + 2 more2026-03-06💻 cs

Ice Cream Doesn't Cause Drowning: Benchmarking LLMs Against Statistical Pitfalls in Causal Inference

Il paper introduce CausalPitfalls, un benchmark completo progettato per valutare rigorosamente le capacità di ragionamento causale statistico dei modelli linguistici di grandi dimensioni, evidenziando le loro attuali limitazioni nel superare errori comuni come la paradosso di Simpson e il bias di selezione.

Jin Du, Li Chen, Xun Xian + 6 more2026-03-06💻 cs

ShIOEnv: A Command Evaluation Environment for Grammar-Constrained Synthesis and Execution Behavior Modeling

Il paper presenta ShIOEnv, un ambiente Bash basato su Gymnasium che, sfruttando la sintesi vincolata alla grammatica e un segnale di irreducibilità auto-supervisionato, genera un dataset di 2,1 milioni di coppie input-output per migliorare l'accuratezza dei modelli nel prevedere il comportamento di esecuzione dei comandi rispetto alle basi di riferimento senza esecuzione.

Jarrod Ragsdale, Rajendra Boppana2026-03-06💻 cs

VTool-R1: VLMs Learn to Think with Images via Reinforcement Learning on Multimodal Tool Use

Il paper presenta VTool-R1, un framework pionieristico che addestra i modelli visione-linguaggio a generare catene di pensiero multimodali intercalando testo e passaggi visivi intermedi tramite l'uso strategico di strumenti di editing grafico e apprendimento per rinforzo, migliorando così le capacità di ragionamento su dati strutturati come grafici e tabelle.

Mingyuan Wu, Jingcheng Yang, Jize Jiang + 6 more2026-03-06💻 cs

SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models

Il paper introduce SealQA, un nuovo benchmark che valuta le capacità di ragionamento e accuratezza fattuale dei modelli linguistici potenziati dalla ricerca web, rivelando che anche i modelli più avanzati faticano a gestire risultati di ricerca conflittuali, rumorosi o contesti lunghi.

Thinh Pham, Nguyen Nguyen, Pratibha Zunjare + 3 more2026-03-06💻 cs

RoboPARA: Dual-Arm Robot Planning with Parallel Allocation and Recomposition Across Tasks

Il paper presenta RoboPARA, un innovativo framework guidato da modelli linguistici su larga scala che ottimizza la pianificazione parallela per robot a due bracci attraverso la generazione di candidati basata su grafi di dipendenza e la rielaborazione del grafo, supportato dal nuovo dataset X-DAPT per la valutazione in scenari diversificati.

Shiying Duan, Pei Ren, Nanxiang Jiang + 5 more2026-03-06💻 cs

A Signal Contract for Online Language Grounding and Discovery in Decision-Making

Il paper presenta LUCIFER, un middleware che implementa un "contratto di segnale" per tradurre in tempo reale aggiornamenti linguistici umani in segnali di controllo decouplati, migliorando sicurezza ed efficienza nella raccolta di informazioni in sistemi autonomi senza accoppiare la comprensione del linguaggio ai pianificatori decisionali.

Dimitris Panagopoulos, Adolfo Perrusquia, Weisi Guo2026-03-06💻 cs

HSG-12M: A Large-Scale Benchmark of Spatial Multigraphs from the Energy Spectra of Non-Hermitian Crystals

Il paper introduce HSG-12M, un dataset su larga scala di 16,7 milioni di grafi multigrafo spaziali derivati dagli spettri energetici di cristalli non hermitiani, generato tramite il nuovo strumento automatizzato Poly2Graph per colmare il divario tra fisica della materia condensata e apprendimento automatico geometrico.

Xianquan Yan, Hakan Akgün, Kenji Kawaguchi + 2 more2026-03-06🔬 cond-mat.mes-hall

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

Il paper presenta InterActHuman, un nuovo framework che supera i limiti delle animazioni umane esistenti permettendo la generazione end-to-end di video con più soggetti e interazioni, garantendo un controllo preciso e allineato al layout attraverso l'associazione di condizioni multimodali (testo, immagine, audio) a specifiche regioni spaziali e temporali.

Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang + 7 more2026-03-06💻 cs

Bures-Wasserstein Flow Matching for Graph Generation

Questo articolo introduce BWFlow, un framework di flow matching per la generazione di grafi che supera le limitazioni delle interpolazioni lineari tradizionali modellando l'evoluzione congiunta di nodi e archi attraverso campi casuali di Markov e il trasporto ottimo di Wasserstein, garantendo così percorsi probabilistici più lisci, una convergenza di addestramento migliorata e un campionamento efficiente.

Keyue Jiang, Jiahao Cui, Xiaowen Dong + 1 more2026-03-06💻 cs

Structured Kolmogorov-Arnold Neural ODEs for Interpretable Learning and Symbolic Discovery of Nonlinear Dynamics

Il paper propone SKANODEs, un framework che integra Kolmogorov-Arnold Networks nelle Neural ODE per apprendere dinamiche non lineari interpretabili, recuperando stati fisici latenti e scoprendo automaticamente le equazioni simboliche governanti con prestazioni superiori rispetto ai metodi tradizionali.

Wei Liu, Kiran Bacsa, Loon Ching Tang + 1 more2026-03-06🔬 physics

Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective

Questo studio dimostra che il Reinforcement Fine-Tuning (RFT) preserva meglio la conoscenza preesistente rispetto al Supervised Fine-Tuning (SFT) perché i dati di addestramento generati dall'RFT sono più allineati alla distribuzione probabilistica del modello base, riducendo l'interferenza e il fenomeno dell'oblio catastrofico.

Zhihao Zhang, Qiaole Dong, Qi Zhang + 12 more2026-03-06💻 cs

MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining

Il paper introduce MuRating, un framework scalabile che trasferisce segnali di qualità dai dati inglesi per addestrare un valutatore multilingue, permettendo la selezione di subset di dati equilibrati che migliorano significativamente le prestazioni dei modelli linguistici su compiti sia in inglese che multilingue.

Zhixun Chen, Ping Guo, Wenhan Han + 10 more2026-03-06💻 cs

← Precedente Successivo →