Learning Physical Systems: Symplectification via Gauge Fixing in Dirac Structures

Questo lavoro introduce le Presymplectification Networks (PSN), un nuovo framework che risolve il problema della degenerazione della forma simplettica nei sistemi meccanici vincolati e dissipativi, come i robot quadrupedi, mappandoli su una varietà di fase aumentata tramite strutture di Dirac per garantire la conservazione dell'energia e la stabilità nelle previsioni a lungo termine.

Aristotelis Papatheodorou, Pranav Vaidhyanathan, Natalia Ares + 1 more2026-03-06💻 cs

Parameter Stress Analysis in Reinforcement Learning: Applying Synaptic Filtering to Policy Networks

Questo studio analizza la robustezza delle politiche di apprendimento per rinforzo applicando filtri sinaptici come stress interno e attacchi avversariali come stress esterno, permettendo di classificare i parametri della rete in fragili, robusti o antifragili e dimostrando come i parametri antifragili possano migliorare le prestazioni in ambienti di controllo continuo.

Zain ul Abdeen, Ming Jin2026-03-06💻 cs

TIC-GRPO: Provable and Efficient Optimization for Reinforcement Learning from Human Feedback

Il paper introduce TIC-GRPO, un algoritmo di ottimizzazione per l'apprendimento da feedback umano che, sostituendo i rapporti di importanza a livello di token con un rapporto a livello di traiettoria, garantisce una stima non distorta del gradiente, una convergenza più rapida e prestazioni superiori rispetto al GRPO originale, pur mantenendo la struttura priva di critic.

Lei Pang, Jun Luo, Ruinan Jin2026-03-06💻 cs

In-Training Defenses against Emergent Misalignment in Language Models

Questo studio presenta la prima analisi sistematica di misure di sicurezza durante l'addestramento per mitigare il disallineamento emergente nei modelli linguistici, dimostrando che l'intercalazione di dati selezionati in base al divario di perplessità tra modelli allineati e disallineati rappresenta la strategia più efficace per prevenire comportamenti dannosi senza compromettere le prestazioni su compiti benigni.

David Kaczér, Magnus Jørgenvåg, Clemens Vetter + 4 more2026-03-06💻 cs

Dropping Just a Handful of Preferences Can Change Top Large Language Model Rankings

Lo studio dimostra che i sistemi di classificazione dei modelli linguistici più avanzati, come Chatbot Arena, sono estremamente sensibili alla rimozione di una frazione minima di dati di preferenza, rivelando che l'ordine dei modelli leader può cambiare drasticamente con la perdita di appena lo 0,003% dei dati, mentre le valutazioni basate su esperti risultano più robuste.

Jenny Y. Huang, Yunyi Shen, Dennis Wei + 1 more2026-03-06💻 cs

Multi-Agent Reinforcement Learning in Intelligent Transportation Systems: A Comprehensive Survey

Questo articolo presenta un'indagine esaustiva sull'applicazione dell'Apprendimento per Rinforzo Multi-Agente (MARL) nei Sistemi di Trasporto Intelligenti, offrendo una tassonomia strutturata, una revisione delle applicazioni chiave e delle piattaforme di simulazione, e identificando le principali sfide per il dispiegamento nel mondo reale.

Rexcharles Donatus, Kumater Ter, Daniel Udekwe2026-03-06💻 cs