cs.AI articoli | Gist.Science

RoboPARA: Dual-Arm Robot Planning with Parallel Allocation and Recomposition Across Tasks

Il paper presenta RoboPARA, un innovativo framework guidato da modelli linguistici su larga scala che ottimizza la pianificazione parallela per robot a due bracci attraverso la generazione di candidati basata su grafi di dipendenza e la rielaborazione del grafo, supportato dal nuovo dataset X-DAPT per la valutazione in scenari diversificati.

Shiying Duan, Pei Ren, Nanxiang Jiang + 5 more2026-03-06💻 cs

A Signal Contract for Online Language Grounding and Discovery in Decision-Making

Il paper presenta LUCIFER, un middleware che implementa un "contratto di segnale" per tradurre in tempo reale aggiornamenti linguistici umani in segnali di controllo decouplati, migliorando sicurezza ed efficienza nella raccolta di informazioni in sistemi autonomi senza accoppiare la comprensione del linguaggio ai pianificatori decisionali.

Dimitris Panagopoulos, Adolfo Perrusquia, Weisi Guo2026-03-06💻 cs

HSG-12M: A Large-Scale Benchmark of Spatial Multigraphs from the Energy Spectra of Non-Hermitian Crystals

Il paper introduce HSG-12M, un dataset su larga scala di 16,7 milioni di grafi multigrafo spaziali derivati dagli spettri energetici di cristalli non hermitiani, generato tramite il nuovo strumento automatizzato Poly2Graph per colmare il divario tra fisica della materia condensata e apprendimento automatico geometrico.

Xianquan Yan, Hakan Akgün, Kenji Kawaguchi + 2 more2026-03-06🔬 cond-mat.mes-hall

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

Il paper presenta InterActHuman, un nuovo framework che supera i limiti delle animazioni umane esistenti permettendo la generazione end-to-end di video con più soggetti e interazioni, garantendo un controllo preciso e allineato al layout attraverso l'associazione di condizioni multimodali (testo, immagine, audio) a specifiche regioni spaziali e temporali.

Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang + 7 more2026-03-06💻 cs

Bures-Wasserstein Flow Matching for Graph Generation

Questo articolo introduce BWFlow, un framework di flow matching per la generazione di grafi che supera le limitazioni delle interpolazioni lineari tradizionali modellando l'evoluzione congiunta di nodi e archi attraverso campi casuali di Markov e il trasporto ottimo di Wasserstein, garantendo così percorsi probabilistici più lisci, una convergenza di addestramento migliorata e un campionamento efficiente.

Keyue Jiang, Jiahao Cui, Xiaowen Dong + 1 more2026-03-06💻 cs

Structured Kolmogorov-Arnold Neural ODEs for Interpretable Learning and Symbolic Discovery of Nonlinear Dynamics

Il paper propone SKANODEs, un framework che integra Kolmogorov-Arnold Networks nelle Neural ODE per apprendere dinamiche non lineari interpretabili, recuperando stati fisici latenti e scoprendo automaticamente le equazioni simboliche governanti con prestazioni superiori rispetto ai metodi tradizionali.

Wei Liu, Kiran Bacsa, Loon Ching Tang + 1 more2026-03-06🔬 physics

Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective

Questo studio dimostra che il Reinforcement Fine-Tuning (RFT) preserva meglio la conoscenza preesistente rispetto al Supervised Fine-Tuning (SFT) perché i dati di addestramento generati dall'RFT sono più allineati alla distribuzione probabilistica del modello base, riducendo l'interferenza e il fenomeno dell'oblio catastrofico.

Zhihao Zhang, Qiaole Dong, Qi Zhang + 12 more2026-03-06💻 cs

MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining

Il paper introduce MuRating, un framework scalabile che trasferisce segnali di qualità dai dati inglesi per addestrare un valutatore multilingue, permettendo la selezione di subset di dati equilibrati che migliorano significativamente le prestazioni dei modelli linguistici su compiti sia in inglese che multilingue.

Zhixun Chen, Ping Guo, Wenhan Han + 10 more2026-03-06💻 cs

Design and Experimental Validation of Sensorless 4-Channel Bilateral Teleoperation for Low-Cost Manipulators

Questo articolo presenta e convalida sperimentalmente un sistema di teleoperazione bilaterale a 4 canali senza sensori di forza per manipolatori a basso costo, dimostrando che tale approccio consente un'interazione stabile ad alta velocità e migliora significativamente l'apprendimento per imitazione fornendo dati di dimostrazione arricchiti da informazioni di forza.

Koki Yamane, Yunhan Li, Masashi Konosu + 4 more2026-03-06💻 cs

Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

Questo lavoro introduce TreeBench, un benchmark diagnostico per valutare il ragionamento visivo fondato su prove tracciabili, e TreeVGR, un paradigma di addestramento basato sul reinforcement learning che migliora significativamente le capacità di localizzazione e ragionamento dei modelli visivi.

Haochen Wang, Xiangtai Li, Zilong Huang + 9 more2026-03-06💻 cs

Overtone: Cyclic Patch Modulation for Clean, Efficient, and Flexible Physics Emulators

Il paper presenta Overtone, un approccio innovativo che utilizza una modulazione ciclica dinamica delle dimensioni delle patch per mitigare gli errori armonici e adattare il costo computazionale nei sostituti delle equazioni differenziali parziali basati su Transformer, ottenendo prestazioni superiori rispetto ai modelli a patch fisse.

Payel Mukhopadhyay, Michael McCabe, Ruben Ohana + 1 more2026-03-06💻 cs

In-Training Defenses against Emergent Misalignment in Language Models

Questo studio presenta la prima analisi sistematica di misure di sicurezza durante l'addestramento per mitigare il disallineamento emergente nei modelli linguistici, dimostrando che l'intercalazione di dati selezionati in base al divario di perplessità tra modelli allineati e disallineati rappresenta la strategia più efficace per prevenire comportamenti dannosi senza compromettere le prestazioni su compiti benigni.

David Kaczér, Magnus Jørgenvåg, Clemens Vetter + 4 more2026-03-06💻 cs

Vevo2: A Unified and Controllable Framework for Speech and Singing Voice Generation

Il documento presenta Vevo2, un framework unificato e controllabile per la generazione di voce parlata e cantata che supera le limitazioni dei dati annotati e garantisce un controllo flessibile su prosodia, stile e timbro grazie a nuovi tokenizzatori audio e strategie di addestramento congiunto.

Xueyao Zhang, Junan Zhang, Yuancheng Wang + 5 more2026-03-06💻 cs

LHM-Humanoid: Learning a Unified Policy for Long-Horizon Humanoid Whole-Body Loco-Manipulation in Diverse Messy Environments

Il paper introduce LHM-Humanoid, un framework di apprendimento e benchmark che addestra un'unica politica end-to-end per il controllo olistico di humanoid in ambienti disordinati, permettendo loro di navigare, manipolare e trasportare oggetti in episodi lunghi e complessi senza reset, superando le prestazioni dei metodi precedenti grazie a una forte generalizzazione cross-scena.

Haozhuo Zhang, Jingkai Sun, Michele Caprio + 4 more2026-03-06💻 cs

A Geometric Perspective on the Difficulties of Learning GNN-based SAT Solvers

Questo paper dimostra che la curvatura di Ricci negativa intrinseca ai grafi bipartiti derivati da formule k-SAT causa un fenomeno di "oversquashing" che limita l'efficacia dei risoluti basati su GNN, proponendo tale curvatura come indicatore geometrico chiave per prevedere la complessità del problema e l'errore di generalizzazione.

Geri Skenderi2026-03-06🔬 physics

TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

Il paper propone TSPC, un'architettura a due stadi incentrata sui fonemi che utilizza un set fonemico vietnamita esteso come rappresentazione intermedia per migliorare il riconoscimento del parlato code-switching vietnamita-inglese, ottenendo risultati superiori rispetto alle basi esistenti con una riduzione delle risorse computazionali necessarie.

Tran Nguyen Anh, Truong Dinh Dung, Vo Van Nam + 1 more2026-03-06💻 cs

Quadrotor Navigation using Reinforcement Learning with Privileged Information

Questo articolo presenta un metodo di navigazione per quadricotteri basato sull'apprendimento per rinforzo che, sfruttando informazioni privilegiate come le mappe del tempo di arrivo e una funzione di perdita specifica, supera le limitazioni delle tecniche precedenti nel superare grandi ostacoli, ottenendo un tasso di successo dell'86% in simulazione e validando il sistema in 20 voli reali senza collisioni.

Jonathan Lee, Abhishek Rathod, Kshitij Goel + 2 more2026-03-06💻 cs

Diffusion-Based Impedance Learning for Contact-Rich Manipulation Tasks

Il paper presenta un framework di apprendimento basato su modelli di diffusione che combina la generazione di traiettorie di equilibrio con il controllo di impedenza per abilitare manipolazioni robotiche robuste e adattive in ambienti ricchi di contatti, dimostrando successo in compiti complessi come l'inserimento di perni in fori di geometrie diverse.

Noah Geiger, Tamim Asfour, Neville Hogan + 1 more2026-03-06💻 cs

Conversational Speech Reveals Structural Robustness Failures in SpeechLLM Backbones

Lo studio rivela che i modelli linguistici alla base dei sistemi SpeechLLM mostrano fragilità strutturali nell'elaborazione del discorso conversazionale, tendendo a sovracancellare contenuti fluenti a favore dell'astrazione semantica e dimostrando che la robustezza è plasmata da specifici obiettivi di addestramento piuttosto che dalla semplice scalabilità o dal fine-tuning.

Maria Teleki, Sai Janjur, Haoran Liu + 11 more2026-03-06💻 cs

Complexity-Regularized Proximal Policy Optimization

Il paper propone CR-PPO, un algoritmo di ottimizzazione della politica che sostituisce la regolarizzazione entropica standard con un termine di complessità auto-regolante, dimostrando una maggiore robustezza nell'ipertuning e prestazioni superiori rispetto ai metodi tradizionali.

Luca Serfilippi, Giorgio Franceschelli, Antonio Corradi + 1 more2026-03-06💻 cs

← Precedente Successivo →