cs.LG papers | Gist.Science

Marginals Before Conditionals

Dit artikel toont aan dat neurale netwerken bij het leren van conditionele relaties eerst een marginaal plateau bereiken dat wordt gestabiliseerd door gradiëntruis, voordat ze een scherpe collectieve overgang maken naar volledige conditionele kennis.

Mihir Sahasrabudhe2026-03-12🤖 cs.LG

Stochastic Port-Hamiltonian Neural Networks: Universal Approximation with Passivity Guarantees

Dit artikel introduceert Stochastic Port-Hamiltonian Neural Networks (SPH-NNs), een architectuur die passiviteit garandeert en universeel de dynamiek van stochastische port-Hamiltoniaanse systemen kan benaderen met verbeterde nauwkeurigheid en energiebehoud op lange termijn vergeleken met standaard netwerken.

Luca Di Persio, Matthias Ehrhardt, Youness Outaleb2026-03-12🤖 cs.LG

Large Spikes in Stochastic Gradient Descent: A Large-Deviations View

Dit artikel biedt een kwantitatieve theorie voor de 'catapult-fase' in SGD-training van ondiepe netwerken, waarbij een expliciete criteriumfunctie $G$ bepaalt of er met hoge waarschijnlijkheid grote spikes optreden of dat de kans hierop exponentieel afneemt.

Benjamin Gess, Daniel Heydecker2026-03-12🤖 cs.LG

Amnesia: Adversarial Semantic Layer Specific Activation Steering in Large Language Models

Dit paper introduceert Amnesia, een lichtgewicht aanvalstechniek die interne transformer-activaties manipuleert om bestaande veiligheidsmechanismen in open-weight grote taalmodellen te omzeilen en zo schadelijke inhoud te genereren zonder aanvullende training.

Ali Raza, Gurang Gupta, Nikolay Matyunin, Jibesh Patra2026-03-12🤖 cs.AI

Mitigating Frequency Learning Bias in Quantum Models via Multi-Stage Residual Learning

Dit paper introduceert een methode voor multi-stadiaresidulair leren in quantummodellen om de 'Fourier-parameteriseringsbias' te mitigeren en zo de expressiviteit voor het leren van meerdere frequentiecomponenten aanzienlijk te verbeteren.

Ammar Daskin2026-03-12⚛️ quant-ph

Digging Deeper: Learning Multi-Level Concept Hierarchies

Dit paper introduceert Multi-Level Concept Splitting (MLCS) en Deep-HiCEMs om diepe, mensinterpreteerbare concepthiërarchieën te ontdekken uit slechts top-niveau supervisie, waardoor modellen zowel nauwkeuriger worden als beter interpreteerbaar en manipuleerbaar op verschillende abstractieniveaus.

Oscar Hill, Mateo Espinosa Zarlenga, Mateja Jamnik2026-03-12🤖 cs.LG

KernelSkill: A Multi-Agent Framework for GPU Kernel Optimization

Het paper introduceert KernelSkill, een multi-agent framework dat de efficiëntie van GPU-kernels verbetert door impliciete heuristieken te vervangen door kennisgedreven vaardigheden en een dubbel niveau van geheugen, wat resulteert in aanzienlijke snelheidswinsten en een hogere succesratio ten opzichte van eerdere methoden.

Qitong Sun, Jun Han, Tianlin Li, Zhe Tang, Sheng Chen, Fei Yang, Aishan Liu, Xianglong Liu, Yang Liu2026-03-12🤖 cs.LG

ES-dLLM: Efficient Inference for Diffusion Large Language Models by Early-Skipping

Deze paper introduceert ES-dLLM, een trainingsvrij raamwerk dat de inferentie van diffusion-taalmodellen versnelt door tokens in vroege lagen te overslaan op basis van variatie in tussentijdse representaties, wat resulteert in een tot 16,8 keer hogere snelheid zonder kwaliteitsverlies.

Zijian Zhu, Fei Ren, Zhanhong Tan, Kaisheng Ma2026-03-12🤖 cs.LG

A Survey of Weight Space Learning: Understanding, Representation, and Generation

Deze survey introduceert Weight Space Learning als een nieuw onderzoeksgebied dat neurale netwerkgewichten als een gestructureerd domein behandelt, en biedt een unificerende taxonomie van methoden voor het begrijpen, representeren en genereren van gewichten om toepassingen zoals modelretrieval en kennisoverdracht te faciliteren.

Xiaolong Han, Zehong Wang, Bo Zhao, Binchi Zhang, Jundong Li, Damian Borth, Rose Yu, Haggai Maron, Yanfang Ye, Lu Yin, Ferrante Neri2026-03-12🤖 cs.LG

Equivariant Asynchronous Diffusion: An Adaptive Denoising Schedule for Accelerated Molecular Conformation Generation

Deze paper introduceert Equivariant Asynchronous Diffusion (EAD), een nieuw diffusion-model dat een adaptief, asynchroon ontmiddelingschema gebruikt om de hiërarchische structuur van moleculen beter te vangen en zo de prestaties bij het genereren van 3D-moleculaire conformaties te verbeteren.

Junyi An, Chao Qu, Yun-Fei Shi, Zhijian Zhou, Fenglei Cao, Yuan Qi2026-03-12🧬 q-bio

Rethinking Adam for Time Series Forecasting: A Simple Heuristic to Improve Optimization under Distribution Shifts

Dit paper introduceert TS_Adam, een lichtgewicht variant van de Adam-optimizer die door het verwijderen van de tweede-orde correctie de prestaties van tijdreeksvoorspellingmodellen aanzienlijk verbetert bij niet-stationaire data met distributiedrift.

Yuze Dong, Jinsong Wu2026-03-12🤖 cs.LG

Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models

Dit paper introduceert Code-Space Response Oracles (CSRO), een nieuw raamwerk dat Large Language Models gebruikt om in plaats van ondoorzichtige neurale netten interpreteerbare, menselijke code te genereren voor multi-agent beleidsstrategieën, waardoor complexe speltheoretische evenwichten transparanter en betrouwbaarder worden.

Daniel Hennes, Zun Li, John Schultz, Marc Lanctot2026-03-12🤖 cs.AI

Denoising the US Census: Succinct Block Hierarchical Regression

Dit paper introduceert BlueDown, een nieuwe post-processing-methode die de nauwkeurigheid en consistentie van de door het Amerikaanse Census Bureau gegenereerde demografische datasets verbetert door een statistisch optimaal hiërarchisch regressie-algoritme te combineren met geavanceerde optimalisatie voor het behoud van privacy en structurele constraints.

Badih Ghazi, Pritish Kamath, Ravi Kumar, Pasin Manurangsi, Adam Sealfon2026-03-12🤖 cs.LG

Hardware Efficient Approximate Convolution with Tunable Error Tolerance for CNNs

Dit paper introduceert een hardware-efficiënte "soft sparsity"-benadering met een instelbare fouttolerantie die, via een aangepaste RISC-V-instructie, de reken- en stroomverbruik van CNN's aanzienlijk verlaagt zonder in te leveren op nauwkeurigheid.

Vishal Shashidhar, Anupam Kumari, Roy P Paily2026-03-12🤖 cs.LG

CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR

Het CLIPO-papier introduceert een contrastief leermethode binnen beleidsoptimalisatie die het RLVR-framework generaliseert door de consistentie van tussenstappen te waarborgen, waardoor hallucinaties worden onderdrukt en de robuustheid en generalisatie van redenerende grote taalmodellen aanzienlijk worden verbeterd.

Sijia Cui, Pengyu Cheng, Jiajun Song, Yongbo Gai, Guojun Zhang, Zhechao Yu, Jianhe Lin, Xiaoxi Jiang, Guanjun Jiang2026-03-12🤖 cs.LG

Lost in the Middle at Birth: An Exact Theory of Transformer Position Bias

Dit artikel toont aan dat het "Lost in the Middle"-fenomeen een inherente geometrische eigenschap is van de architectuur van causal decoders die al bij initialisatie aanwezig is, ongeacht training of positiële encoding, en wordt veroorzaakt door de interactie tussen causale masking en residual connections.

Borun D Chowdhury2026-03-12🤖 cs.LG

Unbalanced Optimal Transport Dictionary Learning for Unsupervised Hyperspectral Image Clustering

Deze paper introduceert een nieuwe methode voor ongecontroleerde clustering van hyperspectrale beelden die onbalans optimaal transport en barycentra gebruikt om de beperkingen van eerdere gebalanceerde benaderingen te overwinnen, waardoor robuustere en scherpere clusterresultaten worden bereikt.

Joshua Lentz, Nicholas Karris, Alex Cloninger, James M. Murphy2026-03-12📊 stat

A neural operator for predicting vibration frequency response curves from limited data

Dit artikel introduceert een neurale operator die, zonder expliciete fysische regularisatie, uit beperkte data de volledige trillingsfrequentieresponscurve van een lineair systeem kan voorspellen met een nauwkeurigheid van 99,87%, waardoor het ontwerp- en testproces van engineeringcomponenten aanzienlijk kan worden versneld.

D. Bluedorn, A. Badawy, B. E. Saunders, D. Roettgen, A. Abdelkefi2026-03-12🤖 cs.LG

Mashup Learning: Faster Finetuning by Remixing Past Checkpoints

Dit paper introduceert Mashup Learning, een methode die door het samenvoegen van de meest relevante historische checkpoints een betere startpositie biedt voor het finetunen van taalmodellen, wat leidt tot hogere nauwkeurigheid en aanzienlijk snellere convergentie vergeleken met training vanaf nul.

Sofia Maria Lo Cicero Vaina, Artem Chumachenko, Max Ryabinin2026-03-12🤖 cs.LG

ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning

Dit paper introduceert ReMix, een nieuwe routeringsmethode voor Mixture-of-LoRAs die het probleem van onbalans in leerbare routingsgewichten oplost door niet-leerbare gewichten te combineren met een onbevooroordeelde gradiëntschatter op basis van reinforcement learning, wat leidt tot een aanzienlijk betere prestatie dan bestaande parameter-efficiënte finetuning-methoden.

Ruizhong Qiu, Hanqing Zeng, Yinglong Xia, Yiwen Meng, Ren Chen, Jiarui Feng, Dongqi Fu, Qifan Wang, Jiayi Liu, Jun Xiao, Xiangjun Fan, Benyu Zhang, Hong Li, Zhining Liu, Hyunsik Yoo, Zhichen Zeng, Tianxin Wei, Hanghang Tong2026-03-12🤖 cs.LG

← Vorige Volgende →