cs.LG papers | Gist.Science

Not all tokens are needed(NAT): token efficient reinforcement learning

Het artikel introduceert NAT (Not All Tokens Are Needed), een framework dat de trainingskosten van reinforcement learning voor lange redeneringen verlaagt door alleen een subset van tokens te updaten via Horvitz-Thompson-herschaling, terwijl het prestatieniveau van volledige token-training behouden blijft.

Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang2026-03-10🤖 cs.LG

GraphSkill: Documentation-Guided Hierarchical Retrieval-Augmented Coding for Complex Graph Reasoning

Dit paper introduceert GraphSkill, een agentisch raamwerk dat hiërarchische documentretrieval en zelf-debugging combineert om de kwaliteit en efficiëntie van codegeneratie voor complexe grafenredenering te verbeteren, ondersteund door een nieuw evaluatiedataset.

Fali Wang, Chenglin Weng, Xianren Zhang, Siyuan Hong, Hui Liu, Suhang Wang2026-03-10🤖 cs.LG

Reward Under Attack: Analyzing the Robustness and Hackability of Process Reward Models

Deze studie toont aan dat Process Reward Models (PRMs) kwetsbaar zijn voor adversariale aanvallen en eerder functioneren als fluwheidsdetectoren dan als betrouwbare verifiers van redenering, waardoor de auteurs een drielaags diagnostisch framework en PRM-BiasBench introduceren om deze zwaktes te kwantificeren en op te lossen.

Rishabh Tiwari, Aditya Tomar, Udbhav Bamba, Monishwaran Maheswaran, Heng Yang, Michael W. Mahoney, Kurt Keutzer, Amir Gholami2026-03-10🤖 cs.LG

From ARIMA to Attention: Power Load Forecasting Using Temporal Deep Learning

Dit artikel toont aan dat het Transformer-model, dat gebruikmaakt van zelf-attentie, superieure prestaties levert voor het voorspellen van kortetermijnstroomverbruik in vergelijking met traditionele statistische modellen en andere deep learning-architecturen zoals ARIMA, LSTM en BiLSTM.

Suhasnadh Reddy Veluru, Sai Teja Erukude, Viswa Chaitanya Marella2026-03-10🤖 cs.LG

Advances in GRPO for Generation Models: A Survey

Dit survey biedt een uitgebreide review van Flow-GRPO, een raamwerk dat Group Relative Policy Optimization uitbreidt naar generatieve modellen om hun output effectief af te stemmen op menselijke voorkeuren en specifieke doelen via methodologische verbeteringen en toepassing in diverse domeinen.

Zexiang Liu, Xianglong He, Yangguang Li2026-03-10🤖 cs.LG

Exploration Space Theory: Formal Foundations for Prerequisite-Aware Location-Based Recommendation

Dit artikel introduceert Exploration Space Theory, een formeel raamwerk dat Kennisruimte-theorie vertaalt naar locatiegebaseerde aanbevelingssystemen om via een distributieve roosterstructuur en Birkhoff's representatiestelling wiskundig gegarandeerde, logisch onderbouwde en verklaarbare routes voor bezoekers te genereren.

Madjid Sadallah2026-03-10🤖 cs.LG

Pavement Missing Condition Data Imputation through Collective Learning-Based Graph Neural Networks

Dit artikel presenteert een collectieve leer-methode op basis van Graph Convolutional Networks die de onderlinge afhankelijkheden tussen aangrenzende wegsecties benut om ontbrekende wegconditiegegevens effectief te imputeren, wat leidt tot betere resultaten dan bestaande methoden.

Ke Yu, Lu Gao2026-03-10🤖 cs.LG

Grouter: Decoupling Routing from Representation for Accelerated MoE Training

Dit paper introduceert Grouter, een methode die routering ontkoppelt van weegupdates door structurele priors te distilleren, waardoor MoE-training aanzienlijk sneller converteert en tot 33,5% meer doorvoersnelheid bereikt.

Yuqi Xu, Rizhen Hu, Zihan Liu, Mou Sun, Kun Yuan2026-03-10🤖 cs.LG

T-REX: Transformer-Based Category Sequence Generation for Grocery Basket Recommendation

Dit paper introduceert T-REX, een transformer-gebaseerd model dat door het combineren van korte-termijn boodschappenmand-afhankelijkheden en lange-termijn gebruikersvoorkeuren, gepersonaliseerde categorie-voorstellingen genereert voor online supermarkten en significant betere prestaties boekt dan bestaande systemen.

Soroush Mokhtari, Muhammad Tayyab Asif, Sergiy Zubatiy2026-03-10🤖 cs.LG

Leakage Safe Graph Features for Interpretable Fraud Detection in Temporal Transaction Networks

Dit artikel introduceert een lekveilig protocol voor het extraheren van causale grafkenmerken uit tijdsafhankelijke transactienetwerken, dat als interpreteerbare aanvulling op transactie-attributen dient voor het detecteren van frauduleuze entiteiten met een hoge nauwkeurigheid.

Hamideh Khaleghpour, Brett McKinney2026-03-10🤖 cs.LG

A new Uncertainty Principle in Machine Learning

Dit paper introduceert een nieuw onzekerheidsprincipe in het machine learning dat de onvermijdelijke degeneratie van Heaviside- en sigmoid-expansies beschrijft, waarbij scherpere minima leiden tot gladdere 'canyons' die steepest-descent-algoritmen in de val laten lopen, en benadrukt dat deze uitdagingen fundamenteel natuurkundig van aard zijn in plaats van puur informatica.

V. Dolotin, A. Morozov2026-03-10🤖 cs.LG

Graph Property Inference in Small Language Models: Effects of Representation and Inference Strategy

Deze studie toont aan dat de prestaties van kleine taalmodellen bij het afleiden van graf-eigenschappen sterk afhangen van de manier waarop relationele informatie wordt weergegeven en het gekozen redeneerstrategie, waarbij het behoud van buurstructuur en multi-branch redenering de betrouwbaarheid aanzienlijk verbeteren.

Michal Podstawski2026-03-10🤖 cs.LG

SmartBench: Evaluating LLMs in Smart Homes with Anomalous Device States and Behavioral Contexts

Dit paper introduceert SmartBench, het eerste dataset en benchmark voor het evalueren van de prestaties van grote taalmodellen bij het detecteren van abnormale toestanden in slimme huishoudens, waarbij de resultaten aantonen dat huidige state-of-the-art modellen hierin nog aanzienlijk tekortschieten.

Qingsong Zou, Zhi Yan, Zhiyao Xu, Kuofeng Gao, Jingyu Xiao, Yong Jiang2026-03-10🤖 cs.LG

HEARTS: Benchmarking LLM Reasoning on Health Time Series

Dit paper introduceert HEARTS, een unificerend benchmark voor het evalueren van het hiërarchische redeneervermogen van grote taalmodellen op diverse gezondheids-tijdsreeksen, en toont aan dat deze modellen momenteel aanzienlijk onderpresteren ten opzichte van gespecialiseerde modellen en worstelen met complexe temporele redenering.

Sirui Li, Shuhan Xiao, Mihir Joshi, Ahmed Metwally, Daniel McDuff, Wei Wang, Yuzhe Yang2026-03-10🤖 cs.LG

RECAP: Local Hebbian Prototype Learning as a Self-Organizing Readout for Reservoir Dynamics

Het artikel introduceert RECAP, een bio-geïnspireerde methode voor beeldherkenning die ongeleide reservoir-dynamica combineert met een lokaal Hebbiaans prototype-leesmechanisme om robuuste classificatie te bereiken zonder gebruik van backpropagation.

Heng Zhang2026-03-10🤖 cs.LG

Roots Beneath the Cut: Uncovering the Risk of Concept Revival in Pruning-Based Unlearning for Diffusion Models

Deze paper onthult dat pruning-based unlearning in diffusion-modellen kwetsbaar is voor conceptherstel via een data- en trainingsvrije aanval, omdat de locaties van de verwijderde gewichten als bijkanaal fungeren die de gewiste concepten verraad.

Ci Zhang, Zhaojun Ding, Chence Yang, Jun Liu, Xiaoming Zhai, Shaoyi Huang, Beiwen Li, Xiaolong Ma, Jin Lu, Geng Yuan2026-03-10🤖 cs.LG

SR-TTT: Surprisal-Aware Residual Test-Time Training

Het artikel introduceert SR-TTT, een verbeterde Test-Time Training-architectuur die het probleem van vergeten cruciale informatie oplost door een verlies-gedreven, sparsere geheugenmechanisme toe te passen dat alleen onverwachte tokens naar een traditionele cache routeert, waardoor de O(1)-geheugenvoordeel behouden blijft terwijl de nauwkeurigheid bij exacte herinneringstaken wordt hersteld.

Swamynathan V P2026-03-10🤖 cs.LG

Quantum Deep Learning: A Comprehensive Review

Dit artikel biedt een uitgebreide review van Quantum Deep Learning door een operationele definitie en taxonomie te presenteren, de theoretische principes en hardware-implementaties te analyseren, claims van quantumvoordeel kritisch te beoordelen, en een roadmap te schetsen voor de overgang van huidige demonstraties naar schaalbare, fouttolerante systemen.

Yanjun Ji, Zhao-Yun Chen, Marco Roth, David A. Kreplin, Christian Schiffer, Martin King, Oliver Anton, M. Sahnawaz Alam, Markus Krutzik, Dennis Willsch, Ludwig Mathey, Frank K. Wilhelm, Guo-Ping Guo2026-03-10⚛️ quant-ph

Trust Aware Federated Learning for Secure Bone Healing Stage Interpretation in e-Health

Dit paper introduceert een vertrouwensbewust federatief leerframework dat een adaptief mechanisme voor het schalen en filteren van vertrouwen gebruikt om de interpretatie van botgenezing in e-Health te beveiligen tegen onbetrouwbare deelnemers en zo de modelintegriteit en voorspellingsprestaties te verbeteren.

Paul Shepherd, Tasos Dagiuklas, Bugra Alkan, Joaquim Bastos, Jonathan Rodriguez2026-03-10🤖 cs.LG

HURRI-GAN: A Novel Approach for Hurricane Bias-Correction Beyond Gauge Stations using Generative Adversarial Networks

Dit paper introduceert HURRI-GAN, een nieuw AI-gestuurd model dat fysieke simulaties van orkanen corrigeert met generatieve adversariale netwerken om de rekentijd te verkorten en nauwkeurige voorspellingen te genereren, zelfs op locaties waar geen meetstations aanwezig zijn.

Noujoud Nadera, Hadi Majed, Stefanos Giaremis, Rola El Osta, Clint Dawson, Carola Kaiser, Hartmut Kaiser2026-03-10🤖 cs.LG

← Vorige Volgende →