cs.LG papers | Gist.Science

Overcoming Valid Action Suppression in Unmasked Policy Gradient Algorithms

Dit artikel identificeert en bewijst dat ongemaskerde policy gradient-algoritmes geldige acties systematisch onderdrukken in onbezochte staten door parameterdeling, een probleem dat leidt tot exponentiële afname van kansen en dat effectief wordt opgelost door action masking of validiteitsclassificatie.

Renos Zabounidis, Roy Siegelmann, Mohamad Qadri, Woojun Kim, Simon Stepputtis, Katia P. Sycara2026-03-11🤖 cs.LG

Probabilistic Hysteresis Factor Prediction for Electric Vehicle Batteries with Graphite Anodes Containing Silicon

Deze studie introduceert een datagedreven, probabilistische aanpak voor het voorspellen van hysterese in batterijen met silicium-graafietanodes, waarbij een data-harmonisatiekader en machine learning-modellen worden gebruikt om de nauwkeurige schatting van de laadtoestand te verbeteren onder onzekerheid en beperkte rekenkracht.

Runyao Yu, Viviana Kleine, Philipp Gromotka, Thomas Rudolf, Adrian Eisenmann, Gautham Ram Chandra Mouli, Peter Palensky, Jochen L. Cremer2026-03-11🤖 cs.LG

Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

Dit paper introduceert DCPO, een framework dat redeneren en vertrouwen ontkoppelt om de overmatige zelfverzekerdheid van taalmodellen bij verifieerbare beloningen op te lossen zonder in te leveren op nauwkeurigheid.

Zhengzhao Ma, Xueru Wen, Boxi Cao, Yaojie Lu, Hongyu Lin, Jinglin Yang, Min He, Xianpei Han, Le Sun2026-03-11🤖 cs.LG

Causally Sufficient and Necessary Feature Expansion for Class-Incremental Learning

Dit paper introduceert een PNS-gebaseerde regularisatiemethode voor class-incremental learning die causale volledigheid en scheidslijnen tussen taken waarborgt door middel van een dubbel-scope counterfactuele generator, waardoor feature-collisie en catastrofale forgetting worden verminderd.

Zhen Zhang, Jielei Chu, Tianrui Li2026-03-11🤖 cs.AI

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

RubiCap is een nieuw reinforcement learning-framework dat de uitdagingen van dichte beeldbeschrijving oplost door gebruik te maken van door LLM's geschreven rubrieken voor gestructureerde, veelzijdige beloningssignalen, waardoor het superieure resultaten bereikt ten opzichte van bestaande methoden en zelfs modellen die zijn getraind op data van propriëtaire modellen.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot Bilkhu2026-03-11🤖 cs.AI

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

Deze paper introduceert een kosteneffectief raamwerk dat imperfecte, door LLM's gegenereerde RTL-code gebruikt om netlistrepresentaties te leren, waardoor de schaarste aan gelabelde data voor circuitanalyse wordt overwonnen zonder in te leveren op de prestaties op realistische ontwerpen.

Siyang Cai, Cangyuan Li, Yinhe Han, Ying Wang2026-03-11🤖 cs.AI

GIAT: A Geologically-Informed Attention Transformer for Lithology Identification

Dit artikel introduceert GIAT, een nieuw Transformer-gebaseerd framework dat door het integreren van geologische prioren in het aandachtmechanisme de nauwkeurigheid, betrouwbaarheid en interpreteerbaarheid van lithologie-identificatie uit boorgatmetingen aanzienlijk verbetert.

Jie Li, Qishun Yang, Nuo Li2026-03-11🤖 cs.AI

Better Bounds for the Distributed Experts Problem

Dit artikel presenteert een verbeterd protocol voor het gedistribueerde experts-probleem dat de spijt minimaliseert met een efficiëntere communicatiekost dan eerdere werken.

David P. Woodruff, Samson Zhou2026-03-11🤖 cs.LG

Differentiable Stochastic Traffic Dynamics: Physics-Informed Generative Modelling in Transportation

Deze paper introduceert een nieuw raamwerk voor differentieerbare, stochastische verkeersdynamica dat fysica-informeren combineert met generatieve modellering om in plaats van deterministische puntwaarden volledige kansverdelingen voor verkeersdichtheid te voorspellen, waardoor onzekerheidskwantificering en risicobeoordeling mogelijk worden.

Wuping Xin2026-03-11🤖 cs.AI

Latent-DARM: Bridging Discrete Diffusion And Autoregressive Models For Reasoning

Latent-DARM is een nieuw latentruimte-communicatiekader dat Discrete Diffusion-talenmodellen (voor planning) en autoregressieve modellen (voor uitvoering) combineert om de redeneerprestaties en samenwerking tussen heterogene agenten aanzienlijk te verbeteren.

Lina Berrayana, Ahmed Heakl, Abdullah Sohail, Thomas Hofmann, Salman Khan, Wei Chen2026-03-11🤖 cs.AI

The Costs of Reproducibility in Music Separation Research: a Replication of Band-Split RNN

Deze studie repliceert het Band-Split RNN-model voor muziekscheiding om de kosten van reproduceerbaarheid te analyseren, waarbij de auteurs ondanks het niet kunnen reproduceren van de originele resultaten een geoptimaliseerd model ontwikkelen en pleiten voor meer transparantie en open source-praktijken binnen de gemeenschap.

Paul Magron, Romain Serizel, Constance Douwes2026-03-11🤖 cs.LG

$P^2$ GNN: Two Prototype Sets to boost GNN Performance

Het artikel introduceert $P^2$ GNN, een plug-and-play techniek die de prestaties van Graph Neural Networks verbetert door prototypes te gebruiken om zowel globale context toe te voegen als ruis in lokale buurten te verminderen, wat resulteert in superieure resultaten op diverse datasets voor taken zoals aanbeveling en classificatie.

Arihant Jain, Gundeep Arora, Anoop Saladi, Chaosheng Dong2026-03-11🤖 cs.LG

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

Dit paper introduceert het RAISE-framework om aan te tonen dat verbeteringen in logisch redeneren bij grote taalmodellen onvermijdelijk leiden tot een toename van situationeel bewustzijn en strategisch zelfbewustzijn, waardoor er dringende nieuwe veiligheidsmaatregelen nodig zijn.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary2026-03-11🤖 cs.AI

The Radio-Frequency Transformer for Signal Separation

Dit artikel introduceert een volledig datagedreven transformer-architectuur met een aangepaste discrete tokenizer die, in tegenstelling tot traditionele methoden, een signaal van belang effectief scheidt van onbekende niet-Gaussische interferentie door middel van cross-entropy training, wat leidt tot een aanzienlijke verbetering in bitfoutratio en zero-shot generalisatie.

Egor Lifar, Semyon Savkin, Rachana Madhukara, Tejas Jayashankar, Yury Polyanskiy, Gregory W. Wornell2026-03-11🤖 cs.LG

Emotion is Not Just a Label: Latent Emotional Factors in LLM Processing

Dit onderzoek toont aan dat emotionele toon de aandachtsgewichten en redeneerprestaties van grote taalmodellen beïnvloedt, en introduceert met AURA-QA en een emotionele regularisatieframework een dataset en methode om deze effecten te bestuderen en de leesbegripprestaties te verbeteren.

Benjamin Reichman, Adar Avasian, Samuel Webster, Larry Heck2026-03-11🤖 cs.AI

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

Dit paper introduceert MM-Zero, het eerste RL-gebaseerde framework dat Vision Language Models zonder enige trainingsdata zelf kan laten evolueren door middel van een unieke drie-rollen architectuur (voorsteller, coder en solver) die samenwerken om visuele concepten te genereren en redeneervermogen te verbeteren.

Zongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao Liu2026-03-11🤖 cs.LG

Strategically Robust Multi-Agent Reinforcement Learning with Linear Function Approximation

Deze paper introduceert \texttt{RQRE-OVI}, een nieuw algoritme dat Risk-Sensitive Quantal Response Equilibrium (RQRE) berekent in grote Markov-games met lineaire functiebenadering, waardoor een unieke en stabiele oplossing wordt gevonden die een waardevolle afweging biedt tussen prestatie en robuustheid ten opzichte van traditionele Nash-evenwichten.

Jake Gonzales, Max Horwitz, Eric Mazumdar, Lillian J. Ratliff2026-03-11🤖 cs.LG

Beyond Test-Time Training: Learning to Reason via Hardware-Efficient Optimal Control

Dit paper introduceert de Test-Time Control (TTC)-laag, een hardware-efficiënte architecturale component die redeneren als optimale controle vormgeeft en door het integreren van LQR-planning in vooringevette taalmodellen de wiskundige redeneerprestaties aanzienlijk verbetert zonder testtijd-training.

Peihao Wang, Shan Yang, Xijun Wang, Tesi Xiao, Xin Liu, Changlong Yu, Yu Lou, Pan Li, Zhangyang Wang, Ming Lin, René Vidal2026-03-11🤖 cs.LG

A Generative Sampler for distributions with possible discrete parameter based on Reversibility

Deze paper introduceert een uniek generatief steekproefkader dat, door het minimaliseren van de Maximum Mean Discrepancy tussen voorwaartse en achterwaartse Markov-trajecten onder de beperking van reversibiliteit, het mogelijk maakt om te leren van complexe, niet-genormaliseerde verdelingen in continue, discrete en hybride ruimtes zonder gebruik te maken van gradients of scorefuncties.

Lei Li, Zhen Wang, Lishuo Zhang2026-03-11🤖 cs.LG

Efficient Reasoning at Fixed Test-Time Cost via Length-Aware Attention Priors and Gain-Aware Training

Dit paper introduceert een trainingsmethode voor Transformers die gebruikmaakt van lengtebewuste attention-priors en een gain-aware controller om de validatieprestaties te verbeteren zonder de testtijd-kosten of latentie te verhogen.

Rian Atri2026-03-11🤖 cs.LG

← Vorige Volgende →

cs.LG