cs.LG papers | Gist.Science

Graph-GRPO: Training Graph Flow Models with Reinforcement Learning

Dit paper introduceert Graph-GRPO, een online reinforcement learning-framework dat grafstroommodellen effectief traint door een analytische uitdrukking voor transitiekansen te gebruiken en een verfijningstrategie voor lokale exploratie, wat leidt tot state-of-the-art prestaties in grafgeneratie en moleculaire optimalisatie.

Baoheng Zhu, Deyu Bo, Delvin Ce Zhang, Xiao Wang2026-03-12🤖 cs.LG

On the Learning Dynamics of Two-layer Linear Networks with Label Noise SGD

Dit paper analyseert de leer-dynamiek van twee-laags lineaire netwerken getraind met labelruis-SGD en onthult een tweefasig proces waarbij de ruis de overgang van het 'lazy' naar het 'rich' regime drijft, wat de verbeterde generalisatie empirisch verklaart.

Tongcheng Zhang, Zhanpeng Zhou, Mingze Wang, Andi Han, Wei Huang, Taiji Suzuki, Junchi Yan2026-03-12🤖 cs.LG

Designing Service Systems from Textual Evidence

Deze paper introduceert PP-LUCB, een efficiënt algoritme dat de beste serviceconfiguratie identificeert door goedkope, maar bevooroordeelde LLM-gebaseerde scores te combineren met strategisch ingekochte dure menselijke audits, waardoor de auditkosten met 90% worden verlaagd terwijl de nauwkeurigheid behouden blijft.

Ruicheng Ao, Hongyu Chen, Siyang Gao, Hanwei Li, David Simchi-Levi2026-03-12🤖 cs.LG

Effective Dataset Distillation for Spatio-Temporal Forecasting with Bi-dimensional Compression

Deze paper introduceert STemDist, de eerste dataset-distillatiemethode die specifiek is ontworpen voor spatio-temporale voorspelling door zowel de ruimtelijke als temporale dimensies te comprimeren, wat resulteert in aanzienlijk snellere training, lager geheugengebruik en hogere voorspellingsnauwkeurigheid.

Taehyung Kwon, Yeonje Choi, Yeongho Kim, Kijung Shin2026-03-12🤖 cs.LG

Domain-Adaptive Health Indicator Learning with Degradation-Stage Synchronized Sampling and Cross-Domain Autoencoder

Dit artikel introduceert een domeinadaptief raamwerk met gedegradeerde-stadia gesynchroniseerde bemonstering en een kruis-domein gealigneerde grote autoencoder om de prestaties van gezondheidsindicatoren voor prognostiek en gezondheidsbeheer aanzienlijk te verbeteren door distributiemismatches en beperkingen in het vastleggen van lange-termijn tijdsafhankelijkheden aan te pakken.

Jungho Choo, Hanbyeol Park, Gawon Lee, Yunkyung Park, Hyerim Bae2026-03-12🤖 cs.LG

Adaptive Active Learning for Regression via Reinforcement Learning

Dit paper introduceert WiGS, een adaptieve actieve leermethode voor regressie die op basis van versterkingslearning een dynamisch, additief criterium toepast om de labelkosten te verlagen en de nauwkeurigheid te verbeteren, vooral in domeinen met onregelmatige datadichtheid waar bestaande methoden tekortschieten.

Simon D. Nguyen, Troy Russo, Kentaro Hoffman, Tyler H. McCormick2026-03-12📊 stat

GGMPs: Generalized Gaussian Mixture Processes

Dit paper introduceert Generalized Gaussian Mixture Processes (GGMPs), een schaalbaar en tractabel raamwerk op basis van Gaussische processen dat multimodale en heteroscedastische conditionele dichtheidsramingen mogelijk maakt door lokale mengsels te combineren met componentuitlijning en per-component training, waardoor de beperkingen van standaard unimodale Gaussische processen worden overwonnen.

Vardaan Tekriwal, Mark D. Risser, Hengrui Luo, Marcus M. Noack2026-03-12🤖 cs.LG

The Curse and Blessing of Mean Bias in FP4-Quantized LLM Training

Dit paper toont aan dat het verwijderen van een coherent gemiddelde bias in FP4-gequantiseerde LLM-training de numerieke stabiliteit aanzienlijk verbetert en de prestaties herstelt door de dynamische bereikinflatie veroorzaakt door anisotropie te elimineren.

Hengjie Cao, Zhendong Huang, Mengyi Chen, Yifeng Yang, Fanqi Yu, Ruijun Huang, Fang Dong, Xin Zhang, Jixian Zhou, Anrui Chen, Mingzhi Dong, Yujiang Wang, Jinlong Hou, Qin Lv, Yuan Cheng, Tun Lu, Fan Yang, Li Shang2026-03-12🤖 cs.LG

Unlearning the Unpromptable: Prompt-free Instance Unlearning in Diffusion Models

Dit paper introduceert een effectieve, prompt-vrije methode voor het selectief "vergeten" van specifieke, niet-tekstueel te specificeren outputs (zoals individuele gezichten) in diffusiemodellen door gebruik te maken van een surrogaatbenadering met afbeeldingsbewerking, timestepspecifieke weging en gradiëntchirurgie, terwijl de integriteit van de resterende generaties behouden blijft.

Kyungryeol Lee, Kyeonghyun Lee, Seongmin Hong, Byung Hyun Lee, Se Young Chun2026-03-12🤖 cs.LG

Brenier Isotonic Regression

Dit paper introduceert Brenier-isotone regressie, een methode die isotone regressie uitbreidt naar meervoudige uitvoer door de regressiefunctie te modelleren als een cyclisch monotoon veld via optimal transport, wat leidt tot superieure prestaties in waarschijnlijkheidskalibratie en veralgemeende lineaire modellen.

Han Bao, Amirreza Eshraghi, Yutong Wang2026-03-12📊 stat

Spatio-Temporal Forecasting of Retaining Wall Deformation: Mitigating Error Accumulation via Multi-Resolution ConvLSTM Stacking Ensemble

Deze studie presenteert een ensemble-framework met multi-resolutie ConvLSTM-modellen dat, getraind op een uitgebreide dataset van PLAXIS2D-simulaties, de foutopbouw bij langetermijnvoorspellingen van wandvervormingen tijdens gefaseerde bouwputuitgravingen effectief vermindert en de nauwkeurigheid ten opzichte van individuele modellen verbetert.

Jihoon Kim (Department of Civil,Environmental Engineering, Hongik University, Seoul, Republic of Korea), Heejung Youn (Department of Civil,Environmental Engineering, Hongik University, Seoul, Republic of Korea)2026-03-12🤖 cs.LG

Beam-Plasma Collective Oscillations in Intense Charged-Particle Beams: Dielectric Response Theory, Langmuir Wave Dispersion, and Unsupervised Detection via Prometheus

Dit artikel presenteert een theoretisch en computationeel raamwerk voor collectieve oscillaties in intense geladen-deeltjesbundels, waarbij via een Vlasov-Poisson-benadering en machine learning-validatie met Prometheus de existentie van ongedempte Langmuir-golven, de onafhankelijkheid van de plasmafrequentie van de deeltjesverdeling, en de overgang naar een 3D-Ising-universaliteitsklasse worden aangetoond.

Brandon Yee, Wilson Collins, Michael Iofin, Jiayi Fu2026-03-12🔬 physics

Muscle Synergy Priors Enhance Biomechanical Fidelity in Predictive Musculoskeletal Locomotion Simulation

Deze studie toont aan dat het integreren van fysiologisch geïnformeerde spiersynergie-priors in een versterkingsleerframework de biomechanische nauwkeurigheid en generalisatie van voorspellende simulaties van menselijke locomotie aanzienlijk verbetert, zelfs met beperkte experimentele data.

Ilseung Park (Carnegie Mellon University), Eunsik Choi (Seoul National University), Jangwhan Ahn (UNC-Chapel Hill and NC State University), Jooeun Ahn (Seoul National University)2026-03-12🤖 cs.LG

Dual Space Preconditioning for Gradient Descent in the Overparameterized Regime

Dit artikel bewijst dat Dual Space Preconditioned Gradient Descent in het overgeparametriseerde regime convergeert naar een oplossing die de trainingsdata perfect fit, en toont aan dat voor isotrope preconditioners deze oplossing identiek is aan die van standaard gradient descent, terwijl voor algemene preconditioners de afstand tot de initialisatie binnen een constante factor van die van gradient descent blijft.

Reza Ghane, Danil Akhtiamov, Babak Hassibi2026-03-12📊 stat

JEDI: Jointly Embedded Inference of Neural Dynamics

Dit artikel introduceert JEDI, een hiërarchisch model dat neurale dynamica over verschillende taken en contexten heen analyseert door een gedeelde inbeddingsruimte te leren, waardoor robuuste en schaalbare inzichten in hersenmechanismen mogelijk worden vanuit beperkte experimentele data.

Anirudh Jamkhandi, Ali Korojy, Olivier Codol, Guillaume Lajoie, Matthew G. Perich2026-03-12🧬 q-bio

A Universal Nearest-Neighbor Estimator for Intrinsic Dimensionality

Deze paper introduceert een universele schatter voor intrinsieke dimensie die, gebaseerd op verhoudingen van afstanden tot de dichtstbijzijnde buren, theoretisch bewezen convergeert naar de ware dimensie ongeacht de onderliggende dataverdeling en state-of-the-art resultaten behaalt.

Eng-Jon Ong, Omer Bobrowski, Gesine Reinert, Primoz Skraba2026-03-12🤖 cs.LG

VERI-DPO: Evidence-Aware Alignment for Clinical Summarization via Claim Verification and Direct Preference Optimization

Dit paper introduceert VERI-DPO, een methode die claimverificatie en Direct Preference Optimization combineert om klinische samenvattingen uit EHR-data te genereren die zowel informatief als strikt gefundeerd zijn, waardoor het aantal niet-onderbouwde beweringen aanzienlijk daalt.

Weixin Liu, Congning Ni, Qingyuan Song, Susannah L. Rose, Christopher Symons, Murat Kantarcioglu, Bradley A. Malin, Zhijun Yin2026-03-12💬 cs.CL

A New Tensor Network: Tubal Tensor Train and Its Applications

Dit artikel introduceert de tubal tensor train (TTT) decompositie, een nieuw tensornetwerkmodel dat t-product algebra en de tensor train-structuur combineert om lineaire opslag te bereiken voor hoge-orde tensoren, en presenteert efficiënte algoritmen voor toepassingen zoals beeld- en videocompressie en hyperspectrale beeldvorming.

Salman Ahmadi-Asl, Valentin Leplat, Anh-Huy Phan, Andrzej Cichocki2026-03-12🔢 math

Resource-constrained Amazons chess decision framework integrating large language models and graph attention

Deze paper introduceert een lichtgewicht hybride framework dat grafische aandacht en grote taalmodellen combineert om een hoogpresterende Amazons-spel-AI te creëren die onder strikte rekenkrachtbeperkingen de prestaties van zijn basismodel overtreft door gebruik te maken van synthetische data en structurele filtering.

Tianhao Qian, Zhuoxuan Li, Jinde Cao, Xinli Shi, Hanjie Liu, Leszek Rutkowski2026-03-12🤖 cs.AI

IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs

Dit paper introduceert IH-Challenge, een reinforcement learning-dataset die de instructiehiërarchie van frontier LLMs verbetert, waardoor de weerbaarheid tegen jailbreaks en prompt-injecties aanzienlijk toeneemt zonder de nuttigheid van het model te verminderen.

Chuan Guo (Michael Pokorny), Juan Felipe Ceron Uribe (Michael Pokorny), Sicheng Zhu (Michael Pokorny), Christopher A. Choquette-Choo (Michael Pokorny), Steph Lin (Michael Pokorny), Nikhil Kandpal (Michael Pokorny), Milad Nasr (Michael Pokorny), Rai (Michael Pokorny), Sam Toyer, Miles Wang, Yaodong Yu, Alex Beutel, Kai Xiao2026-03-12🤖 cs.AI

← Vorige Volgende →