cs.LG papers | Gist.Science

Scaling Strategy, Not Compute: A Stand-Alone, Open-Source StarCraft II Benchmark for Accessible Reinforcement Learning Research

Deze paper introduceert de Two-Bridge Map Suite, een open-source benchmark voor StarCraft II die als tussenliggend niveau fungeert tussen de volledige game en mini-games, waardoor onderzoekers tactische vaardigheden kunnen bestuderen zonder de hoge rekenkosten van de volledige game.

Sourav Panda, Shreyash Kale, Tanmay Ambadkar, Abhinav Verma, Jonathan Dodge2026-03-10🤖 cs.LG

Valid Feature-Level Inference for Tabular Foundation Models via the Conditional Randomization Test

Dit artikel introduceert een praktische methode die de Conditionele Randomisatietest combineert met het tabulaire foundationmodel TabPFN om geldige p-waarden te genereren voor het testen van de relevantie van individuele kenmerken, zelfs in complexe, niet-lineaire en gecorreleerde scenario's zonder dat hertraining of parametrische aannames nodig zijn.

Mohamed Salem2026-03-10🤖 cs.LG

CapTrack: Multifaceted Evaluation of Forgetting in LLM Post-Training

Dit paper introduceert CapTrack, een kadersysteem dat vergeten in LLMs na post-training definieert als systematische gedragsdrift in plaats van alleen feitelijke kennisverlies, en via een grote empirische studie aantoont dat instructie-finetuning de grootste drift veroorzaakt terwijl voorkeursoptimalisatie conservatiever is.

Lukas Thede, Stefan Winzeck, Zeynep Akata, Jonathan Richard Schwarz2026-03-10🤖 cs.LG

A Novel Approach for Testing Water Safety Using Deep Learning Inference of Microscopic Images of Unincubated Water Samples

Dit paper introduceert DeepScope, een diep-leringsysteem dat microscopische beelden van niet-geïncubeerde watermonsters analyseert om fecale vervuiling binnen seconden met 93% nauwkeurigheid te detecteren, waardoor de testtijd met meer dan 98% wordt verkort en de kosten dalen tot $0,44 per test.

Sanjay Srinivasan2026-03-10🤖 cs.LG

Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness

Dit paper concludeert dat het vermeerderen van inferentieberekeningen via crowd-wisdom-strategieën de waarheidsgetrouwheid van taalmodellen in niet-verifieerbare domeinen niet verbetert, omdat de fouten van modellen sterk gecorreleerd zijn en aggregatie vaak gedeelde misvattingen versterkt in plaats van de waarheid te onthullen.

Yegor Denisov-Blanch, Joshua Kazdan, Jessica Chudnovsky, Rylan Schaeffer, Sheng Guan, Soji Adeshina, Sanmi Koyejo2026-03-10🤖 cs.LG

OptiRoulette Optimizer: A New Stochastic Meta-Optimizer for up to 5.3x Faster Convergence

Dit paper introduceert OptiRoulette, een nieuwe stochastische meta-optimizer die tijdens het trainen dynamisch update-regels selecteert en hiermee de convergentie tot 5,3 keer versnelt en de testnauwkeurigheid op diverse beeldclassificatiedatasets aanzienlijk verbetert ten opzichte van de standaard AdamW-baseline.

Stamatis Mastromichalakis2026-03-10🤖 cs.LG

Correlation Analysis of Generative Models

Dit paper introduceert een uniforme representatie voor generatieve modellen zoals diffusion en flow matching, en toont aan dat een soms zwakke correlatie tussen ruis en het voorspelde doel de leerprocessen kan beïnvloeden.

Zhengguo Li, Chaobing Zheng, Wei Wang2026-03-10🤖 cs.LG

Annealed Co-Generation: Disentangling Variables via Progressive Pairwise Modeling

Dit paper introduceert het Annealed Co-Generation (ACG)-framework, dat multivariate co-generatie in wetenschappelijke toepassingen efficiënter maakt door complexe gezamenlijke modellering te vervangen door een samenstellende reeks van laag-dimensionale, paarsgewijze diffusiemodellen die via een drie-fase-annealingsproces worden gekoppeld.

Hantao Zhang, Jieke Wu, Mingda Xu, Xiao Hu, Yingxuan You, Pascal Fua2026-03-10🤖 cs.LG

RACER: Risk-Aware Calibrated Efficient Routing for Large Language Models

Dit paper introduceert RACER, een risicobewuste en gekalibreerde routeringsmethode voor grote taalmodellen die query's naar sets van modellen routeert om de misroutingrisico's te beheersen en de downstream-nauwkeurigheid te verbeteren zonder afhankelijk te zijn van specifieke verdelingsaannames.

Sai Hao, Hao Zeng, Hongxin Wei, Bingyi Jing2026-03-10🤖 cs.LG

Evo: Autoregressive-Diffusion Large Language Models with Evolving Balance

Dit paper introduceert Evo, een nieuw type groot taalmodel dat autoregressieve en diffusiemethoden verenigt in een continu evolutionair raamwerk om zowel hoge generatiekwaliteit als snelle inferentie te bereiken.

Junde Wu, Minhao Hu, Jiayuan Zhu, Yuyuan Liu, Tianyi Zhang, Kang Li, Jingkun Chen, Jiazhen Pan, Min Xu, Yueming Jin2026-03-10🤖 cs.LG

Distilling and Adapting: A Topology-Aware Framework for Zero-Shot Interaction Prediction in Multiplex Biological Networks

Deze paper introduceert een nieuw topology-bewust kader dat kennisdistillatie en contextbewuste representatielering combineert om zero-shot interactievoorspelling in multiplex biologische netwerken te verbeteren, waardoor de beperkingen van bestaande methoden worden overwonnen en de ontdekking van nieuwe biologische interacties voor gepersonaliseerde therapieën wordt bevorderd.

Alana Deng, Sugitha Janarthanan, Yan Sun, Zihao Jing, Pingzhao Hu2026-03-10🤖 cs.LG

Not all tokens are needed(NAT): token efficient reinforcement learning

Het artikel introduceert NAT (Not All Tokens Are Needed), een framework dat de trainingskosten van reinforcement learning voor lange redeneringen verlaagt door alleen een subset van tokens te updaten via Horvitz-Thompson-herschaling, terwijl het prestatieniveau van volledige token-training behouden blijft.

Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang2026-03-10🤖 cs.LG

GraphSkill: Documentation-Guided Hierarchical Retrieval-Augmented Coding for Complex Graph Reasoning

Dit paper introduceert GraphSkill, een agentisch raamwerk dat hiërarchische documentretrieval en zelf-debugging combineert om de kwaliteit en efficiëntie van codegeneratie voor complexe grafenredenering te verbeteren, ondersteund door een nieuw evaluatiedataset.

Fali Wang, Chenglin Weng, Xianren Zhang, Siyuan Hong, Hui Liu, Suhang Wang2026-03-10🤖 cs.LG

Reward Under Attack: Analyzing the Robustness and Hackability of Process Reward Models

Deze studie toont aan dat Process Reward Models (PRMs) kwetsbaar zijn voor adversariale aanvallen en eerder functioneren als fluwheidsdetectoren dan als betrouwbare verifiers van redenering, waardoor de auteurs een drielaags diagnostisch framework en PRM-BiasBench introduceren om deze zwaktes te kwantificeren en op te lossen.

Rishabh Tiwari, Aditya Tomar, Udbhav Bamba, Monishwaran Maheswaran, Heng Yang, Michael W. Mahoney, Kurt Keutzer, Amir Gholami2026-03-10🤖 cs.LG

From ARIMA to Attention: Power Load Forecasting Using Temporal Deep Learning

Dit artikel toont aan dat het Transformer-model, dat gebruikmaakt van zelf-attentie, superieure prestaties levert voor het voorspellen van kortetermijnstroomverbruik in vergelijking met traditionele statistische modellen en andere deep learning-architecturen zoals ARIMA, LSTM en BiLSTM.

Suhasnadh Reddy Veluru, Sai Teja Erukude, Viswa Chaitanya Marella2026-03-10🤖 cs.LG

Advances in GRPO for Generation Models: A Survey

Dit survey biedt een uitgebreide review van Flow-GRPO, een raamwerk dat Group Relative Policy Optimization uitbreidt naar generatieve modellen om hun output effectief af te stemmen op menselijke voorkeuren en specifieke doelen via methodologische verbeteringen en toepassing in diverse domeinen.

Zexiang Liu, Xianglong He, Yangguang Li2026-03-10🤖 cs.LG

Exploration Space Theory: Formal Foundations for Prerequisite-Aware Location-Based Recommendation

Dit artikel introduceert Exploration Space Theory, een formeel raamwerk dat Kennisruimte-theorie vertaalt naar locatiegebaseerde aanbevelingssystemen om via een distributieve roosterstructuur en Birkhoff's representatiestelling wiskundig gegarandeerde, logisch onderbouwde en verklaarbare routes voor bezoekers te genereren.

Madjid Sadallah2026-03-10🤖 cs.LG

Pavement Missing Condition Data Imputation through Collective Learning-Based Graph Neural Networks

Dit artikel presenteert een collectieve leer-methode op basis van Graph Convolutional Networks die de onderlinge afhankelijkheden tussen aangrenzende wegsecties benut om ontbrekende wegconditiegegevens effectief te imputeren, wat leidt tot betere resultaten dan bestaande methoden.

Ke Yu, Lu Gao2026-03-10🤖 cs.LG

Grouter: Decoupling Routing from Representation for Accelerated MoE Training

Dit paper introduceert Grouter, een methode die routering ontkoppelt van weegupdates door structurele priors te distilleren, waardoor MoE-training aanzienlijk sneller converteert en tot 33,5% meer doorvoersnelheid bereikt.

Yuqi Xu, Rizhen Hu, Zihan Liu, Mou Sun, Kun Yuan2026-03-10🤖 cs.LG

T-REX: Transformer-Based Category Sequence Generation for Grocery Basket Recommendation

Dit paper introduceert T-REX, een transformer-gebaseerd model dat door het combineren van korte-termijn boodschappenmand-afhankelijkheden en lange-termijn gebruikersvoorkeuren, gepersonaliseerde categorie-voorstellingen genereert voor online supermarkten en significant betere prestaties boekt dan bestaande systemen.

Soroush Mokhtari, Muhammad Tayyab Asif, Sergiy Zubatiy2026-03-10🤖 cs.LG

← Vorige Volgende →