Probabilistic Hysteresis Factor Prediction for Electric Vehicle Batteries with Graphite Anodes Containing Silicon

Deze studie introduceert een datagedreven, probabilistische aanpak voor het voorspellen van hysterese in batterijen met silicium-graafietanodes, waarbij een data-harmonisatiekader en machine learning-modellen worden gebruikt om de nauwkeurige schatting van de laadtoestand te verbeteren onder onzekerheid en beperkte rekenkracht.

Runyao Yu, Viviana Kleine, Philipp Gromotka, Thomas Rudolf, Adrian Eisenmann, Gautham Ram Chandra Mouli, Peter Palensky, Jochen L. CremerWed, 11 Ma🤖 cs.LG

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

RubiCap is een nieuw reinforcement learning-framework dat de uitdagingen van dichte beeldbeschrijving oplost door gebruik te maken van door LLM's geschreven rubrieken voor gestructureerde, veelzijdige beloningssignalen, waardoor het superieure resultaten bereikt ten opzichte van bestaande methoden en zelfs modellen die zijn getraind op data van propriëtaire modellen.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot BilkhuWed, 11 Ma🤖 cs.AI

The Radio-Frequency Transformer for Signal Separation

Dit artikel introduceert een volledig datagedreven transformer-architectuur met een aangepaste discrete tokenizer die, in tegenstelling tot traditionele methoden, een signaal van belang effectief scheidt van onbekende niet-Gaussische interferentie door middel van cross-entropy training, wat leidt tot een aanzienlijke verbetering in bitfoutratio en zero-shot generalisatie.

Egor Lifar, Semyon Savkin, Rachana Madhukara, Tejas Jayashankar, Yury Polyanskiy, Gregory W. WornellWed, 11 Ma🤖 cs.LG

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

Dit paper introduceert MM-Zero, het eerste RL-gebaseerde framework dat Vision Language Models zonder enige trainingsdata zelf kan laten evolueren door middel van een unieke drie-rollen architectuur (voorsteller, coder en solver) die samenwerken om visuele concepten te genereren en redeneervermogen te verbeteren.

Zongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao LiuWed, 11 Ma🤖 cs.LG

Strategically Robust Multi-Agent Reinforcement Learning with Linear Function Approximation

Deze paper introduceert \texttt{RQRE-OVI}, een nieuw algoritme dat Risk-Sensitive Quantal Response Equilibrium (RQRE) berekent in grote Markov-games met lineaire functiebenadering, waardoor een unieke en stabiele oplossing wordt gevonden die een waardevolle afweging biedt tussen prestatie en robuustheid ten opzichte van traditionele Nash-evenwichten.

Jake Gonzales, Max Horwitz, Eric Mazumdar, Lillian J. RatliffWed, 11 Ma🤖 cs.LG

Beyond Test-Time Training: Learning to Reason via Hardware-Efficient Optimal Control

Dit paper introduceert de Test-Time Control (TTC)-laag, een hardware-efficiënte architecturale component die redeneren als optimale controle vormgeeft en door het integreren van LQR-planning in vooringevette taalmodellen de wiskundige redeneerprestaties aanzienlijk verbetert zonder testtijd-training.

Peihao Wang, Shan Yang, Xijun Wang, Tesi Xiao, Xin Liu, Changlong Yu, Yu Lou, Pan Li, Zhangyang Wang, Ming Lin, René VidalWed, 11 Ma🤖 cs.LG

A Generative Sampler for distributions with possible discrete parameter based on Reversibility

Deze paper introduceert een uniek generatief steekproefkader dat, door het minimaliseren van de Maximum Mean Discrepancy tussen voorwaartse en achterwaartse Markov-trajecten onder de beperking van reversibiliteit, het mogelijk maakt om te leren van complexe, niet-genormaliseerde verdelingen in continue, discrete en hybride ruimtes zonder gebruik te maken van gradients of scorefuncties.

Lei Li, Zhen Wang, Lishuo ZhangWed, 11 Ma🤖 cs.LG