Latent World Models for Automated Driving: A Unified Taxonomy, Evaluation Framework, and Open Challenges

Questo articolo propone un quadro unificato per i modelli di mondo latenti nella guida automatizzata, presentando una tassonomia che organizza le rappresentazioni latenti, delineando cinque meccanismi interni fondamentali, introducendo un framework di valutazione per colmare il divario tra scenari open-loop e closed-loop e identificando le sfide aperte per sistemi decisionali verificabili ed efficienti.

Rongxiang Zeng, Yongqi DongWed, 11 Ma🤖 cs.AI

Overcoming Valid Action Suppression in Unmasked Policy Gradient Algorithms

Questo articolo identifica e dimostra teoricamente come l'addestramento non mascherato nei gradienti di politica sopprima sistematicamente azioni valide in stati non ancora visitati a causa della condivisione dei parametri, proponendo la classificazione di fattibilità come soluzione efficace per superare tale limite senza ricorrere a maschere oracolo.

Renos Zabounidis, Roy Siegelmann, Mohamad Qadri, Woojun Kim, Simon Stepputtis, Katia P. SycaraWed, 11 Ma🤖 cs.LG

Probabilistic Hysteresis Factor Prediction for Electric Vehicle Batteries with Graphite Anodes Containing Silicon

Questo lavoro presenta un approccio basato sui dati per la previsione probabilistica del fattore di isteresi nelle batterie con anodi in silicio-grafite, utilizzando un framework di armonizzazione dei dati e modelli di apprendimento statistico e profondo per migliorare l'affidabilità della stima dello stato di carica (SoC) considerando incertezze ed efficienza computazionale.

Runyao Yu, Viviana Kleine, Philipp Gromotka, Thomas Rudolf, Adrian Eisenmann, Gautham Ram Chandra Mouli, Peter Palensky, Jochen L. CremerWed, 11 Ma🤖 cs.LG

Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

Il paper propone DCPO, un framework che risolve il conflitto di gradiente tra accuratezza e calibrazione nel Reinforcement Learning da ricompense verificabili, disaccoppiando gli obiettivi di ragionamento e calibrazione per eliminare l'eccessiva sicurezza degli LLM mantenendo al contempo elevate prestazioni.

Zhengzhao Ma, Xueru Wen, Boxi Cao, Yaojie Lu, Hongyu Lin, Jinglin Yang, Min He, Xianpei Han, Le SunWed, 11 Ma🤖 cs.LG

Causally Sufficient and Necessary Feature Expansion for Class-Incremental Learning

Il paper propone un metodo di regolarizzazione basato sulla Probabilità di Necessità e Sufficienza (PNS), esteso al contesto di apprendimento incrementale di classe (CIL), che utilizza un generatore controfattuale per mitigare le collisioni tra feature causate da correlazioni spurie intra- e inter-task, garantendo così la completezza causale e la separabilità delle rappresentazioni.

Zhen Zhang, Jielei Chu, Tianrui LiWed, 11 Ma🤖 cs.AI

Latent-DARM: Bridging Discrete Diffusion And Autoregressive Models For Reasoning

Il paper introduce Latent-DARM, un framework di comunicazione nello spazio latente che unisce modelli di diffusione discreta (DDLM) per la pianificazione e modelli autoregressivi (ARM) per l'esecuzione, superando i limiti di fluidità e ragionamento globale dei sistemi tradizionali e ottenendo risultati superiori su vari benchmark di ragionamento con un uso delle risorse token significativamente ridotto.

Lina Berrayana, Ahmed Heakl, Abdullah Sohail, Thomas Hofmann, Salman Khan, Wei ChenWed, 11 Ma🤖 cs.AI

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

Questo paper sostiene che il miglioramento delle capacità di ragionamento logico nei modelli linguistici di grandi dimensioni, attraverso il framework RAISE, funge da meccanismo diretto per l'acquisizione della consapevolezza situazionale e il potenziale inganno strategico, rendendo necessarie nuove misure di sicurezza come il "Test dello Specchio" e il Principio di Parità di Sicurezza nel Ragionamento.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya ChaudharyWed, 11 Ma🤖 cs.AI

The Radio-Frequency Transformer for Signal Separation

Il paper presenta un separatore di segnali completamente basato sui dati che utilizza un tokenizzatore discreto modificato e un transformer addestrato con perdita cross-entropy per isolare con successo segnali di interesse da interferenze non gaussiane, ottenendo risultati superiori rispetto alle tecniche tradizionali e mostrando potenziale di generalizzazione zero-shot in ambiti scientifici come le onde gravitazionali.

Egor Lifar, Semyon Savkin, Rachana Madhukara, Tejas Jayashankar, Yury Polyanskiy, Gregory W. WornellWed, 11 Ma🤖 cs.LG

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

Il paper presenta MM-Zero, il primo framework basato sul reinforcement learning che permette l'auto-evoluzione a partire da zero dati per i modelli visione-linguaggio, introducendo un innovativo sistema multi-ruolo (Propositore, Programmatore e Risolutore) che genera concetti visivi astratti, li traduce in codice eseguibile e li utilizza per il ragionamento multimodale senza necessità di dati iniziali.

Zongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao LiuWed, 11 Ma🤖 cs.LG

Strategically Robust Multi-Agent Reinforcement Learning with Linear Function Approximation

Il paper propone \texttt{RQRE-OVI}, un algoritmo di iterazione dei valori ottimistico basato su approssimazione lineare che calcola l'Equilibrio di Risposta Quantale Sensibile al Rischio (RQRE) in giochi di Markov a somma generale, offrendo un compromesso controllabile tra prestazioni ottimali e robustezza rispetto agli errori di approssimazione e alla molteplicità degli equilibri.

Jake Gonzales, Max Horwitz, Eric Mazumdar, Lillian J. RatliffWed, 11 Ma🤖 cs.LG

Beyond Test-Time Training: Learning to Reason via Hardware-Efficient Optimal Control

Il paper presenta il layer Test-Time Control (TTC), un componente hardware-efficiente basato sul controllo ottimo che integra la pianificazione direttamente nell'architettura dei modelli linguistici, migliorando significativamente le capacità di ragionamento matematico senza ricorrere all'addestramento al momento del test.

Peihao Wang, Shan Yang, Xijun Wang, Tesi Xiao, Xin Liu, Changlong Yu, Yu Lou, Pan Li, Zhangyang Wang, Ming Lin, René VidalWed, 11 Ma🤖 cs.LG

A Generative Sampler for distributions with possible discrete parameter based on Reversibility

Il paper propone un quadro unificato di campionamento generativo basato sulla reversibilità temporale e sulla minimizzazione della discrepanza MMD tra traiettorie forward e backward, che permette di campionare distribuzioni complesse su spazi continui, discreti o misti senza richiedere gradienti del target o rilassamenti continui, utilizzando solo valutazioni energetiche.

Lei Li, Zhen Wang, Lishuo ZhangWed, 11 Ma🤖 cs.LG