Data-driven robust Markov decision processes on Borel spaces: performance guarantees via an axiomatic approach

Il documento presenta un approccio assiomatico ai processi decisionali di Markov robusti su spazi di Borel con distribuzioni di disturbo sconosciute, dimostrando che l'uso di insiemi di ambiguità basati su distanze empiriche garantisce la convergenza verso il valore ottimo vero e fornisce limiti di prestazione fuori campione con alta probabilità per dimensioni campionarie finite, superando le carenze dei processi decisionali empirici standard.

Sivaramakrishnan RamaniWed, 11 Ma🤖 cs.LG

MAPLE: Elevating Medical Reasoning from Statistical Consensus to Process-Led Alignment

Il paper introduce MAPLE, un nuovo paradigma di addestramento che integra modelli di ricompensa del processo medico (Med-RPM) con l'apprendimento per rinforzo a tempo di test (TTRL) per sostituire l'affidamento alla votazione maggioritaria con una supervisione guidata dall'accuratezza clinica, migliorando significativamente le prestazioni dei modelli di intelligenza artificiale medica.

Kailong Fan, Anqi Pu, Yichen Wu, Wanhua Li, Yicong Li, Hanspeter Pfister, Huafeng Liu, Xiang Li, Quanzheng Li, Ning GuoWed, 11 Ma🤖 cs.LG

The Coupling Within: Flow Matching via Distilled Normalizing Flows

Il paper propone Normalized Flow Matching (NFM), un nuovo metodo che distilla l'accoppiamento quasi-deterministico di modelli di Flussi Normalizzanti preaddestrati per addestrare modelli di Flow Matching studenti, ottenendo prestazioni superiori sia rispetto ai tradizionali accoppiamenti indipendenti o di trasporto ottimo, sia rispetto al modello insegnante stesso.

David Berthelot, Tianrong Chen, Jiatao Gu, Marco Cuturi, Laurent Dinh, Bhavik Chandna, Michal Klein, Josh Susskind, Shuangfei ZhaiWed, 11 Ma🤖 cs.LG

An accurate flatness measure to estimate the generalization performance of CNN models

Questo lavoro propone una misura di piattezza esatta e fedele all'architettura per le CNN, derivando un'espressione in forma chiusa per la traccia dell'Hessiano e specializzandola per i livelli convoluzionali, dimostrando empiricamente la sua efficacia come strumento robusto per stimare le prestazioni di generalizzazione e guidare la progettazione dei modelli.

Rahman Taleghani, Maryam Mohammadi, Francesco MarchettiWed, 11 Ma🤖 cs.LG

SCALAR: Learning and Composing Skills through LLM Guided Symbolic Planning and Deep RL Grounding

Il paper introduce SCALAR, un framework bidirezionale che combina la pianificazione simbolica guidata da LLM con l'apprendimento per rinforzo profondo per iterativamente affinare le specifiche delle abilità e migliorare l'agente nel grounding del linguaggio verso il controllo di basso livello, ottenendo risultati significativi sul benchmark Craftax.

Renos Zabounidis, Yue Wu, Simon Stepputtis, Woojun Kim, Yuanzhi Li, Tom Mitchell, Katia SycaraWed, 11 Ma🤖 cs.LG

FlexServe: A Fast and Secure LLM Serving System for Mobile Devices with Flexible Resource Isolation

Il paper presenta FlexServe, un sistema di inferenza per LLM su dispositivi mobili che sfrutta l'isolamento flessibile delle risorse (Flex-Mem e Flex-NPU) all'interno di ARM TrustZone per garantire sicurezza e alte prestazioni, ottenendo significativi miglioramenti nella velocità di generazione rispetto a soluzioni esistenti.

Yinpeng Wu, Yitong Chen, Lixiang Wang, Jinyu Gu, Zhichao Hua, Yubin XiaWed, 11 Ma🤖 cs.LG

From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

Il paper presenta Sentinel, un agente AI autonomo che supera i limiti di scalabilità della sorveglianza clinica tradizionale analizzando i dati dei pazienti remoti con una sensibilità superiore a quella dei singoli medici e a un costo irrisorio, offrendo così una soluzione praticabile per ridurre la mortalità.

Seunghwan Kim (AnsibleHealth Inc., San Francisco, USA), Tiffany H. Kung (AnsibleHealth Inc., San Francisco, USA, Stanford School of Medicine, Stanford, USA), Heena Verma (AnsibleHealth Inc., San Francisco, USA), Dilan Edirisinghe (AnsibleHealth Inc., San Francisco, USA), Kaveh Sedehi (AnsibleHealth Inc., San Francisco, USA), Johanna Alvarez (AnsibleHealth Inc., San Francisco, USA), Diane Shilling (AnsibleHealth Inc., San Francisco, USA), Audra Lisa Doyle (AnsibleHealth Inc., San Francisco, USA), Ajit Chary (AnsibleHealth Inc., San Francisco, USA), William Borden (AnsibleHealth Inc., San Francisco, USA, George Washington University, Washington, D.C., USA), Ming Jack Po (AnsibleHealth Inc., San Francisco, USA)Wed, 11 Ma🤖 cs.AI

Sim2Act: Robust Simulation-to-Decision Learning via Adversarial Calibration and Group-Relative Perturbation

Il paper propone Sim2Act, un framework robusto per l'apprendimento simulazione-decisione che combina una calibrazione avversariale e una strategia di perturbazione relativa ai gruppi per migliorare l'affidabilità delle politiche in contesti critici come le catene di approvvigionamento, superando i limiti degli approcci esistenti che spesso sacrificano azioni ad alto rischio e alto rendimento.

Hongyu Cao, Jinghan Zhang, Kunpeng Liu, Dongjie Wang, Feng Xia, Haifeng Chen, Xiaohua Hu, Yanjie FuWed, 11 Ma🤖 cs.AI

Quality over Quantity: Demonstration Curation via Influence Functions for Data-Centric Robot Learning

Il paper propone "Quality over Quantity" (QoQ), un metodo sistematico che utilizza le funzioni di influenza per identificare e selezionare automaticamente le dimostrazioni di addestramento più efficaci nel robot learning, migliorando le prestazioni della politica rispetto ai metodi di selezione dati precedenti sia in simulazione che nel mondo reale.

Haeone Lee, Taywon Min, Junsu Kim, Sinjae Kang, Fangchen Liu, Lerrel Pinto, Kimin LeeWed, 11 Ma🤖 cs.LG

Adaptive Active Learning for Online Reliability Prediction of Satellite Electronics

Questo articolo propone un innovativo framework di apprendimento attivo adattivo, basato su un modello di degradazione di Wiener e uno schema di campionamento a due stadi, che migliora significativamente l'accuratezza della previsione dell'affidabilità online dell'elettronica satellitare riducendo al contempo i requisiti di dati, come dimostrato da esperimenti numerici e da un caso studio sulla stazione spaziale Tiangong.

Shixiang Li, Yubin Tian, Dianpeng Wang, Piao Chen, Mengying RenWed, 11 Ma🤖 cs.LG

Verifying Good Regulator Conditions for Hypergraph Observers: Natural Gradient Learning from Causal Invariance via Established Theorems

Questo lavoro verifica che gli osservatori persistenti in substrati di ipergrafi causali soddisfano il Teorema del Buono Regolatore di Conant-Ashby, dimostrando che la discesa del gradiente naturale è l'unica regola di apprendimento ammissibile e derivando una formula chiusa per il parametro di regime di Vanchurin, sebbene tale risultato dipenda fortemente dal modello di convergenza scelto.

Max ZhuravlevWed, 11 Ma🤖 cs.LG

Not All News Is Equal: Topic- and Event-Conditional Sentiment from Finetuned LLMs for Aluminum Price Forecasting

Questo studio dimostra che l'integrazione di dati di sentiment estratti da un modello LLM finetunato (Qwen3) da notizie in inglese e cinese migliora significativamente la previsione dei prezzi dell'alluminio, specialmente durante i periodi di alta volatilità, superando i modelli basati esclusivamente su dati tabulari tradizionali.

Alvaro Paredes Amorin, Andre Python, Christoph WeisserWed, 11 Ma🤖 cs.AI