cs.AI articoli | Gist.Science

Design and Experimental Validation of Sensorless 4-Channel Bilateral Teleoperation for Low-Cost Manipulators

Questo articolo presenta e convalida sperimentalmente un sistema di teleoperazione bilaterale a 4 canali senza sensori di forza per manipolatori a basso costo, dimostrando che tale approccio consente un'interazione stabile ad alta velocità e migliora significativamente l'apprendimento per imitazione fornendo dati di dimostrazione arricchiti da informazioni di forza.

Koki Yamane, Yunhan Li, Masashi Konosu + 4 more2026-03-06💻 cs

Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

Questo lavoro introduce TreeBench, un benchmark diagnostico per valutare il ragionamento visivo fondato su prove tracciabili, e TreeVGR, un paradigma di addestramento basato sul reinforcement learning che migliora significativamente le capacità di localizzazione e ragionamento dei modelli visivi.

Haochen Wang, Xiangtai Li, Zilong Huang + 9 more2026-03-06💻 cs

Overtone: Cyclic Patch Modulation for Clean, Efficient, and Flexible Physics Emulators

Il paper presenta Overtone, un approccio innovativo che utilizza una modulazione ciclica dinamica delle dimensioni delle patch per mitigare gli errori armonici e adattare il costo computazionale nei sostituti delle equazioni differenziali parziali basati su Transformer, ottenendo prestazioni superiori rispetto ai modelli a patch fisse.

Payel Mukhopadhyay, Michael McCabe, Ruben Ohana + 1 more2026-03-06💻 cs

In-Training Defenses against Emergent Misalignment in Language Models

Questo studio presenta la prima analisi sistematica di misure di sicurezza durante l'addestramento per mitigare il disallineamento emergente nei modelli linguistici, dimostrando che l'intercalazione di dati selezionati in base al divario di perplessità tra modelli allineati e disallineati rappresenta la strategia più efficace per prevenire comportamenti dannosi senza compromettere le prestazioni su compiti benigni.

David Kaczér, Magnus Jørgenvåg, Clemens Vetter + 4 more2026-03-06💻 cs

Vevo2: A Unified and Controllable Framework for Speech and Singing Voice Generation

Il documento presenta Vevo2, un framework unificato e controllabile per la generazione di voce parlata e cantata che supera le limitazioni dei dati annotati e garantisce un controllo flessibile su prosodia, stile e timbro grazie a nuovi tokenizzatori audio e strategie di addestramento congiunto.

Xueyao Zhang, Junan Zhang, Yuancheng Wang + 5 more2026-03-06💻 cs

LHM-Humanoid: Learning a Unified Policy for Long-Horizon Humanoid Whole-Body Loco-Manipulation in Diverse Messy Environments

Il paper introduce LHM-Humanoid, un framework di apprendimento e benchmark che addestra un'unica politica end-to-end per il controllo olistico di humanoid in ambienti disordinati, permettendo loro di navigare, manipolare e trasportare oggetti in episodi lunghi e complessi senza reset, superando le prestazioni dei metodi precedenti grazie a una forte generalizzazione cross-scena.

Haozhuo Zhang, Jingkai Sun, Michele Caprio + 4 more2026-03-06💻 cs

A Geometric Perspective on the Difficulties of Learning GNN-based SAT Solvers

Questo paper dimostra che la curvatura di Ricci negativa intrinseca ai grafi bipartiti derivati da formule k-SAT causa un fenomeno di "oversquashing" che limita l'efficacia dei risoluti basati su GNN, proponendo tale curvatura come indicatore geometrico chiave per prevedere la complessità del problema e l'errore di generalizzazione.

Geri Skenderi2026-03-06🔬 physics

TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

Il paper propone TSPC, un'architettura a due stadi incentrata sui fonemi che utilizza un set fonemico vietnamita esteso come rappresentazione intermedia per migliorare il riconoscimento del parlato code-switching vietnamita-inglese, ottenendo risultati superiori rispetto alle basi esistenti con una riduzione delle risorse computazionali necessarie.

Tran Nguyen Anh, Truong Dinh Dung, Vo Van Nam + 1 more2026-03-06💻 cs

Quadrotor Navigation using Reinforcement Learning with Privileged Information

Questo articolo presenta un metodo di navigazione per quadricotteri basato sull'apprendimento per rinforzo che, sfruttando informazioni privilegiate come le mappe del tempo di arrivo e una funzione di perdita specifica, supera le limitazioni delle tecniche precedenti nel superare grandi ostacoli, ottenendo un tasso di successo dell'86% in simulazione e validando il sistema in 20 voli reali senza collisioni.

Jonathan Lee, Abhishek Rathod, Kshitij Goel + 2 more2026-03-06💻 cs

Diffusion-Based Impedance Learning for Contact-Rich Manipulation Tasks

Il paper presenta un framework di apprendimento basato su modelli di diffusione che combina la generazione di traiettorie di equilibrio con il controllo di impedenza per abilitare manipolazioni robotiche robuste e adattive in ambienti ricchi di contatti, dimostrando successo in compiti complessi come l'inserimento di perni in fori di geometrie diverse.

Noah Geiger, Tamim Asfour, Neville Hogan + 1 more2026-03-06💻 cs

Conversational Speech Reveals Structural Robustness Failures in SpeechLLM Backbones

Lo studio rivela che i modelli linguistici alla base dei sistemi SpeechLLM mostrano fragilità strutturali nell'elaborazione del discorso conversazionale, tendendo a sovracancellare contenuti fluenti a favore dell'astrazione semantica e dimostrando che la robustezza è plasmata da specifici obiettivi di addestramento piuttosto che dalla semplice scalabilità o dal fine-tuning.

Maria Teleki, Sai Janjur, Haoran Liu + 11 more2026-03-06💻 cs

Complexity-Regularized Proximal Policy Optimization

Il paper propone CR-PPO, un algoritmo di ottimizzazione della politica che sostituisce la regolarizzazione entropica standard con un termine di complessità auto-regolante, dimostrando una maggiore robustezza nell'ipertuning e prestazioni superiori rispetto ai metodi tradizionali.

Luca Serfilippi, Giorgio Franceschelli, Antonio Corradi + 1 more2026-03-06💻 cs

BridgeDrive: Diffusion Bridge Policy for Closed-Loop Trajectory Planning in Autonomous Driving

Il paper presenta BridgeDrive, una nuova politica di pianificazione basata su un ponte di diffusione guidato da ancoraggi che garantisce coerenza teorica e prestazioni all'avanguardia nella guida autonoma a ciclo chiuso trasformando traiettorie grezze in piani contestuali in tempo reale.

Shu Liu, Wenlin Chen, Weihao Li + 7 more2026-03-06💻 cs

Towards Understanding Subliminal Learning: When and How Hidden Biases Transfer

Questo studio dimostra che l'apprendimento subliminale, ovvero il trasferimento di bias nascosti dai modelli insegnanti a quelli studenti durante la distillazione, non dipende dalla fuoriuscita di informazioni logit ma da un piccolo insieme di token di divergenza critici nei primi livelli del modello, la cui rimozione o modifica rende il fenomeno fragile e facilmente sopprimibile.

Simon Schrodi, Elias Kempf, Fazl Barez + 1 more2026-03-06💻 cs

BeyondBench: Contamination-Resistant Evaluation of Reasoning in Language Models

Il paper introduce BeyondBench, un framework di valutazione resistente alla contaminazione che utilizza la generazione algoritmica dinamica di problemi matematici per testare in modo affidabile le capacità di ragionamento di oltre 100 modelli linguistici, rivelando significative carenze nelle prestazioni su compiti complessi.

Gaurav Srivastava, Aafiya Hussain, Zhenyu Bi + 5 more2026-03-06💻 cs

Pretraining Large Language Models with NVFP4

Questo studio introduce un metodo innovativo per l'addestramento stabile ed efficiente di grandi modelli linguistici in formato NVFP4, combinando trasformate di Hadamard casuali, quantizzazione bidimensionale e arrotondamento stocastico, che permette di addestrare un modello da 12 miliardi di parametri su 10 trilioni di token con prestazioni comparabili alla base FP8.

NVIDIA, Felix Abecassis, Anjulie Agrusa + 87 more2026-03-06💻 cs

PrefDisco: Benchmarking Proactive Personalized Reasoning

Il paper introduce PrefDisco, un nuovo metodo di valutazione e metrica (PrefAlign) che trasforma i benchmark statici in compiti interattivi per dimostrare come i modelli linguistici debbano sviluppare un ragionamento personalizzato proattivo, basato su domande strategiche per allinearsi alle preferenze individuali degli utenti in scenari senza dati storici, superando i limiti degli approcci attuali che trattano separatamente la risoluzione dei compiti e l'allineamento alle preferenze.

Shuyue Stella Li, Avinandan Bose, Faeze Brahman + 4 more2026-03-06💻 cs

EgoTraj-Bench: Towards Robust Trajectory Prediction Under Ego-view Noisy Observations

Il paper presenta EgoTraj-Bench, il primo benchmark real-world che allinea osservazioni storiche rumorose in prima persona con traiettorie future pulite, e propone BiFlow, un modello a doppio flusso che supera lo stato dell'arte nella previsione di traiettorie robuste in ambienti umani.

Jiayi Liu, Jiaming Zhou, Ke Ye + 3 more2026-03-06💻 cs

Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs

Il paper introduce Graph2Eval, un framework basato su grafi della conoscenza che genera automaticamente e in modo scalabile compiti multimodali affidabili per agenti AI, superando i limiti dei dataset statici e delle allucinazioni dei LLM attraverso un processo di campionamento e filtraggio strutturato.

Yurun Chen, Xavier Hu, Yuhan Liu + 8 more2026-03-06💻 cs

SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus

Questo lavoro presenta SpineMed, un ecosistema co-progettato con chirurghi che include il dataset SpineMed-450k e il benchmark SpineBench, sviluppando un modello che supera le attuali limitazioni nel ragionamento livello-specifico per la diagnosi e la pianificazione chirurgica delle patologie spinali.

Ming Zhao, Wenhui Dong, Yang Zhang + 23 more2026-03-06💻 cs

← Precedente Successivo →