cs.LG papers | Gist.Science

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

Deze paper introduceert EDU-PRM, een nieuw trainingsframework dat gebruikmaakt van entropie-gedreven onzekerheid om complexe redeneerstappen automatisch te segmenteren zonder dure handmatige annotaties, waardoor het op het ProcessBench-benchmark presteert met slechts 1,5% van de trainingsdata en tegelijkertijd de nauwkeurigheid verhoogt terwijl het tokenverbruik met 32% daalt.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong Li2026-03-10🤖 cs.LG

Enhancing Metabolic Syndrome Prediction with Hybrid Data Balancing and Counterfactuals

Deze studie verbetert de voorspelling van metabool syndroom door een nieuw hybride framework genaamd MetaBoost te introduceren dat geavanceerde databalanceringstechnieken combineert met contrafactuele analyse om zowel de nauwkeurigheid van machine learning-modellen te verhogen als klinisch relevante inzichten te bieden over risicofactoren zoals bloedsuiker en triglyceriden.

Sanyam Paresh Shah, Abdullah Mamun, Shovito Barua Soumma + 1 more2026-03-10🤖 cs.AI

Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

Dit onderzoek toont aan dat het combineren van Large Language Models voor het extraheren van cognitieve en taalkundige kenmerken met boomgebaseerde machine learning-algoritmen een nauwkeuriger methode biedt om de moeilijkheidsgraad van K-5 wiskunde- en leesitems te voorspellen dan directe schattingen door LLM's, waardoor de afhankelijkheid van uitgebreide veldtests kan worden verminderd.

Pooya Razavi, Sonya Powers2026-03-10🤖 cs.LG

A Champion-level Vision-based Reinforcement Learning Agent for Competitive Racing in Gran Turismo 7

Dit paper introduceert een vision-based reinforcement learning-agent die uitsluitend op camerabeelden en aan boord sensoren vertrouwt om in Gran Turismo 7 kampioensniveau-raceprestaties te behalen, waarmee voor het eerst supermenselijke prestaties worden geleverd zonder externe localisatie.

Hojoon Lee, Takuma Seno, Jun Jet Tai, Kaushik Subramanian, Kenta Kawamoto, Peter Stone, Peter R. Wurman2026-03-10🤖 cs.LG

Structural Inference: Interpreting Small Language Models with Susceptibilities

Deze paper introduceert een lineair responsframework dat een klein taalmodel als een Bayesiaans statistisch mechanisch systeem behandelt, waarbij susceptibiliteiten worden gebruikt om functionele modules zoals multigram- en inductiehoofden te identificeren en te attribueren.

Garrett Baker, George Wang, Jesse Hoogland, Daniel Murfet2026-03-10🤖 cs.LG

Learning to Rank Critical Road Segments via Heterogeneous Graphs with Origin-Destination Flow Integration

Dit paper introduceert HetGL2R, een heterogeen grafiekleringskader dat oorsprong-bestemmingstromen en routes integreert via een tripartiete grafiek en een Transformer-architectuur om de rangschikking van kritieke wegsegmenten significant te verbeteren ten opzichte van bestaande methoden.

Ming Xu, Jinrong Xiang, Zilong Xie + 1 more2026-03-10🤖 cs.LG

From LLM Reasoning to Autonomous AI Agents: A Comprehensive Review

Dit paper biedt een uitgebreid overzicht van de evolutie van LLM-reasoning naar autonome AI-agenten door een gestandaardiseerde taxonomie van benchmarks, een analyse van frameworks, een inventarisatie van real-world toepassingen en een evaluatie van samenwerkingsprotocollen te presenteren, gevolgd door aanbevelingen voor toekomstig onderzoek.

Mohamed Amine Ferrag, Norbert Tihanyi, Merouane Debbah2026-03-10🤖 cs.LG

StablePCA: Distributionally Robust Learning of Shared Representations from Multi-Source Data

Dit paper introduceert StablePCA, een distributioneel robuust raamwerk voor het leren van gedeelde representaties uit multi-bron data, waarbij een convex relaxatie en een efficiënt Mirror-Prox-algoritme worden ontwikkeld om de uitdagingen van de niet-convexe rangbeperking te overwinnen met gegarandeerde convergentie.

Zhenyu Wang, Molei Liu, Jing Lei, Francis Bach, Zijian Guo2026-03-10🤖 cs.LG

Reinforcement Learning for Individual Optimal Policy from Heterogeneous Data

Dit paper introduceert een geïndividualiseerd offline versterkingsleerframework voor heterogene populaties, genaamd P4L, dat via een model met individuele latente variabelen en een gepenaliseerde pessimistische aanpak een snelle regret-convergentie garandeert en superieure prestaties laat zien ten opzichte van bestaande methoden.

Rui Miao, Babak Shahbaba, Annie Qu2026-03-10🤖 cs.LG

Distilled Circuits: A Mechanistic Study of Internal Restructuring in Knowledge Distillation

Dit onderzoek toont aan dat kennisdistillatie, hoewel het de output van grotere modellen behoudt, leidt tot significante interne herschikkingen waarbij studentenonderdelen worden gecomprimeerd en herorganiseerd, wat gevolgen heeft voor de robuustheid en generalisatie van deze modellen.

Reilly Haskins, Benjamin Adams2026-03-10🤖 cs.LG

Ready2Unlearn: A Learning-Time Approach for Preparing Models with Future Unlearning Readiness

Dit paper introduceert Ready2Unlearn, een proactieve trainingsmethode die machine learning-modellen voorbereidt op toekomstige verwijderingsverzoeken door meta-learning-principes toe te passen, waardoor het unlearning-proces later efficiënter en principieel verloopt.

Hanyu Duan, Yi Yang, Ahmed Abbasi, Kar Yan Tam2026-03-10🤖 cs.LG

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

Dit paper introduceert EgoDex, het grootste en meest diverse dataset tot nu toe van dexterous manipulatie met 829 uur egocentrisch video en gepaarde 3D-handtracking, verzameld met Apple Vision Pro om imitatieleer voor robotica en computerzicht te bevorderen.

Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian Zhang2026-03-10🤖 cs.LG

FreeKV: Boosting KV Cache Retrieval for Efficient LLM Inference

FreeKV is een trainingsvrije, co-geoptimaliseerde framework dat de efficiëntie van KV-cache-retrieval voor grote taalmodellen aanzienlijk verbetert door speculatieve retrieval en hybride geheugenlayouts te combineren, waardoor een snelheidswinst tot 13x wordt bereikt met minimale nauwkeurigheidsverlies.

Guangda Liu, Chengwei Li, Zhenyu Ning, Jing Lin, Yiwu Yao, Danning Ke, Minyi Guo, Jieru Zhao2026-03-10🤖 cs.LG

Online Decision-Focused Learning

Deze paper introduceert twee nieuwe online algoritmen voor decision-focused learning in dynamische omgevingen, die door middel van regularisatie en perturbatietechnieken de uitdagingen van niet-convexe en niet-differentieerbare doelfuncties overwinnen en voor het eerst wiskundige prestatiegaranties bieden.

Aymeric Capitaine, Maxime Haddouche, Eric Moulines, Michael I. Jordan, Etienne Boursier, Alain Durmus2026-03-10🤖 cs.LG

Vid2World: Crafting Video Diffusion Models to Interactive World Models

Dit paper introduceert Vid2World, een methode die voorgeöefende videodiffusiemodellen omvormt tot interactieve wereldmodellen door causaliteit en causale actiesturing te integreren, waardoor deze modellen schaalbaar en effectief kunnen worden ingezet voor complexe besluitvormingstaken zoals robotbesturing en navigatie.

Siqiao Huang, Jialong Wu, Qixing Zhou, Shangchen Miao, Mingsheng Long2026-03-10🤖 cs.LG

MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision

Het paper introduceert MAS-ZERO, het eerste zelfevoluerende raamwerk voor het ontwerpen van multi-agent systemen zonder toezicht dat tijdens de inferentie dynamisch agentconfiguraties aanpast en verfijnt op basis van meta-feedback, waardoor het aanzienlijk beter presteert dan bestaande handmatige en automatische methoden op diverse complexe taken.

Zixuan Ke, Austin Xu, Yifei Ming, Xuan-Phi Nguyen, Ryan Chin, Caiming Xiong, Shafiq Joty2026-03-10🤖 cs.LG

HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases

Dit paper introduceert HDLxGraph, een nieuw framework dat Large Language Models koppelt aan HDL-repositories via grafische databases en Abstract Syntax Trees om de beperkingen van traditionele RAG-systemen bij complexe hardware-beschrijvingsopdrachten te overwinnen, ondersteund door een nieuw benchmark-dataset genaamd HDLSearch.

Pingqing Zheng (Katie), Jiayin Qin (Katie), Fuqi Zhang (Katie), Niraj Chitla (Katie), Zishen Wan (Katie), Shang Wu (Katie), Yu Cao (Katie), Caiwen Ding (Katie), Yang (Katie), Zhao2026-03-10🤖 cs.LG

WikiDBGraph: A Data Management Benchmark Suite for Collaborative Learning over Database Silos

Dit paper introduceert WikiDBGraph, een uitgebreide benchmarksuite gebaseerd op 100.000 real-world databases, om de kloof tussen bestaande methoden voor collaboratief leren en de complexe realiteit van gefragmenteerde en niet-uitgelijnde databasesiloes te dichten.

Zhaomin Wu, Ziyang Wang, Bingsheng He2026-03-10🤖 cs.LG

The Cell Must Go On: Agar.io for Continual Reinforcement Learning

Deze paper introduceert AgarCL, een nieuw onderzoeksplatform voor continu versterkingsleren gebaseerd op het spel Agar.io, dat complexe, niet-episodische dynamiek biedt en aantoont dat bestaande methoden voor continu leren weinig verbetering bieden ten opzichte van standaard algoritmen.

Mohamed A. Mohamed, Kateryna Nekhomiazh, Vedant Vyas, Marcos M. Jose, Andrew Patterson, Marlos C. Machado2026-03-10🤖 cs.LG

X-MethaneWet: A Cross-scale Global Wetland Methane Emission Benchmark Dataset for Advancing Science Discovery with AI

Dit paper introduceert X-MethaneWet, het eerste cross-schaal wereldwijde benchmarkdataset voor methaanemissies uit wetlands dat fysiek gebaseerde simulaties en waarnemingen combineert om AI-modellen te trainen en transfer learning-technieken te evalueren voor verbeterde klimaatmodellering.

Yiming Sun, Shuo Chen, Shengyu Chen, Chonghao Qiu, Licheng Liu, Youmi Oh, Sparkle L. Malone, Gavin McNicol, Qianlai Zhuang, Chris Smith, Yiqun Xie, Xiaowei Jia2026-03-10🤖 cs.LG

← Vorige Volgende →