Characterizing MARL for Energy Control: A Multi-KPI Benchmark on the CityLearn Environment

Questo lavoro stabilisce un nuovo standard di benchmarking per l'Apprendimento per Rinforzo Multi-Agente (MARL) nella gestione energetica urbana utilizzando l'ambiente CityLearn, dimostrando che le strategie decentralizzate (DTDE) superano quelle centralizzate (CTDE) e proponendo nuove metriche per valutare la sostenibilità e la resilienza dei sistemi.

Aymen Khouja, Imen Jendoubi, Oumayma Mahjoub, Oussama Mahfoudhi, Ruan De Kock, Siddarth Singh, Claude Formanek2026-03-10🤖 cs.LG

RAmmStein: Regime Adaptation in Mean-reverting Markets with Stein Thresholds -- Optimal Impulse Control in Concentrated AMMs

Questo articolo presenta RAmmStein, un metodo di apprendimento per rinforzo profondo che risolve il problema del controllo impulsivo nella fornitura di liquidità concentrata, ottimizzando il timing di ribilanciamento e la larghezza delle posizioni per massimizzare il ROI riducendo drasticamente i costi operativi grazie a una strategia "regime-aware" che sfrutta la mediazione dei prezzi.

Pranay Anchuri2026-03-10🤖 cs.LG

MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation

Il paper introduce MrBERT, una famiglia di encoder multilingue basata sull'architettura ModernBERT e pre-addestrata su 35 lingue, che combina prestazioni di punta in domini specifici e linguaggi locali con l'efficienza operativa grazie all'apprendimento di rappresentazioni Matryoshka (MRL).

Daniel Tamayo, Iñaki Lacunza, Paula Rivera-Hidalgo, Severino Da Dalt, Javier Aula-Blasco, Aitor Gonzalez-Agirre, Marta Villegas2026-03-10🤖 cs.LG

Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments

Questo articolo descrive come l'uso di un modello LLM specializzato per generare milioni di etichette di rilevanza testuale abbia permesso di migliorare significativamente il ranking dell'App Store, superando la scarsità di dati etichettati manualmente e ottenendo un aumento del tasso di conversione, specialmente per le query a coda lunga.

Evangelia Christakopoulou, Vivekkumar Patel, Hemanth Velaga, Sandip Gaikwad, Sean Suchter, Venkat Sundaranatha2026-03-10🤖 cs.LG

How Well Do Multimodal Models Reason on ECG Signals?

Questo lavoro introduce un framework riproducibile per valutare il ragionamento dei modelli multimodali sui segnali ECG, scomponendolo in percezione (verificata tramite codice generato da agenti) e deduzione (validata contro criteri clinici strutturati) per superare i limiti delle attuali metriche di valutazione.

Maxwell A. Xu, Harish Haresamudram, Catherine W. Liu, Patrick Langer, Jathurshan Pradeepkumar, Wanting Mao, Sunita J. Ferns, Aradhana Verma, Jimeng Sun, Paul Schmiedmayer, Xin Liu, Daniel McDuff, Emily B. Fox, James M. Rehg2026-03-10🤖 cs.LG

Opponent State Inference Under Partial Observability: An HMM-POMDP Framework for 2026 Formula 1 Energy Strategy

Questo lavoro presenta un framework ibrido HMM-POMDP per la strategia energetica della Formula 1 del 2026, che combina un modello a stati nascosti per inferire lo stato dei rivali da dati parzialmente osservabili con una rete neurale profonda per ottimizzare le decisioni di deployment energetico e rilevare strategie ingannevoli come la "counter-harvest trap".

Kalliopi Kleisarchaki2026-03-10🤖 cs.LG