MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

Il paper presenta MUSE, una piattaforma open-source per la valutazione unificata della sicurezza multimodale dei grandi modelli linguistici che integra la generazione automatica di payload cross-modali, algoritmi di attacco multi-turno e un sistema di giudizio basato su LLM, rivelando come le strategie di attacco multi-turno e il cambio di modalità tra i turni possano compromettere significativamente le difese dei modelli anche quando questi mostrano un alto tasso di rifiuto negli input singoli.

Zhongxi Wang, Yueqian Lin, Jingyang Zhang + 2 more2026-03-04⚡ eess

What Capable Agents Must Know: Selection Theorems for Robust Decision-Making under Uncertainty

Il documento dimostra che agenti capaci di agire con competenza in condizioni di incertezza devono necessariamente implementare stati interni strutturati e predittivi, poiché un basso rimpianto medio su compiti di previsione condizionale impone la distinzione tra esiti ad alto margine, portando al recupero approssimato del kernel di transizione interventivo o di stati di memoria simili a credenze.

Aran Nayebi2026-03-04🧬 q-bio

Thermodynamic Regulation of Finite-Time Gibbs Training in Energy-Based Models: A Restricted Boltzmann Machine Study

Questo studio propone un quadro di regolazione termodinamica endogena per l'addestramento delle Restricted Boltzmann Machines, in cui la temperatura evolve dinamicamente per mitigare l'instabilità strutturale e il congelamento dei campioni, garantendo la stabilità globale dei parametri e migliorando le prestazioni di normalizzazione rispetto ai metodi a temperatura fissa.

Görkem Can Süleymanoğlu2026-03-04🤖 cs.LG

Functional Properties of the Focal-Entropy

Questo lavoro fornisce una fondazione teorica per la funzione di focal-loss, analizzandone le proprietà dell'entropia focale per dimostrare come essa amplifichi le probabilità intermedie, sopprima quelle elevate e induca una sovrastima della soppressione in scenari di forte squilibrio di classe, offrendo così una comprensione sistematica dei compromessi introdotti nell'apprendimento imbalanced.

Jaimin Shah, Martina Cardone, Alex Dytso2026-03-04📊 stat

Give me scissors: Collision-Free Dual-Arm Surgical Assistive Robot for Instrument Delivery

Questo articolo presenta un robot assistivo chirurgico a due bracci in grado di consegnare strumenti in modo autonomo e privo di collisioni, utilizzando modelli linguaggio-visione per interpretare i comandi e un framework di programmazione quadratica per evitare ostacoli in tempo reale, raggiungendo un tasso di successo dell'83,33% in ambienti dinamici.

Xuejin Luo, Shiquan Sun, Runshi Zhang + 2 more2026-03-04🤖 cs.LG

Wasserstein Proximal Policy Gradient

Il paper introduce il Wasserstein Proximal Policy Gradient (WPPG), un metodo per l'apprendimento per rinforzo con azioni continue e regolarizzazione dell'entropia che, sfruttando la geometria di Wasserstein e un'alternanza tra trasporto ottimo e convoluzione gaussiana, evita la valutazione della densità logaritmica della politica garantendo al contempo una convergenza lineare globale e prestazioni competitive.

Zhaoyu Zhu, Shuhan Zhang, Rui Gao + 1 more2026-03-04🤖 cs.LG