cs.LG papers | Gist.Science

Saddle-to-Saddle Dynamics Explains A Simplicity Bias Across Neural Network Architectures

Dit paper introduceert een theoretisch kader dat de 'simplicity bias' in diverse neurale netwerken verklaart door middel van saddle-to-saddle dynamiek, waarbij het aantoont dat gradient descent oplossingen met toenemende complexiteit (zoals hogere rang, meer knikken of meer attention heads) geleidelijk leert via een iteratief proces dat nabij invariante manieren en zadelpunten verloopt.

Yedi Zhang, Andrew Saxe, Peter E. Latham2026-03-12🤖 cs.LG

Data relativistic uncertainty framework for low-illumination anime scenery image enhancement

Dit artikel introduceert het Data Relativistic Uncertainty (DRU)-framework, dat een nieuw dataset en een op relativistische GAN's gebaseerde aanpak combineert om de kwaliteit van slecht verlichte anime-landschapsbeelden te verbeteren door onzekerheid in de verlichting dynamisch te benutten.

Yiquan Gao, John See2026-03-12🤖 cs.LG

The Bayesian Geometry of Transformer Attention

Dit paper introduceert 'Bayese windtunnels' om aan te tonen dat transformatoren via een specifiek geometrisch mechanisme in hun residual streams en attention-lagen exacte Bayesiaanse inferentie uitvoeren, terwijl vergelijkbare MLP-architecturen hierin falen.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12📊 stat

Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds

Dit artikel onthult dat cross-entropy-training in transformers via een gekoppeld dynamisch systeem van 'voordeel-gebaseerd routeren' en 'verantwoordelijkheids-gewogen updates' de interne geometrie vormgeeft, waardoor optimering leidt tot Bayesiaanse manifolds die in-context probabilistisch redeneren mogelijk maken.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12📊 stat

Geometric Scaling of Bayesian Inference in LLMs

De studie toont aan dat moderne taalmodellen een meetkundige ondergrond behouden die Bayesiaanse inferentie mogelijk maakt, waarbij de onzekerheid wordt gecodeerd in een dominante as die correleert met voorspellende entropie, hoewel deze geometrie meer fungeert als een bevoorrechte afleesmechanisme dan als een enkelvoudig computatieknooppunt.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12🤖 cs.LG

Inferring Clinically Relevant Molecular Subtypes of Pancreatic Cancer from Routine Histopathology Using Deep Learning

Dit artikel introduceert PanSubNet, een interpreteerbaar deep learning-model dat klinisch relevante moleculaire subtypes van pancreaskanker direct en kosteneffectief voorspelt uit standaard H&E-gekleurde weefselpreparaten, waarmee de toepassing van moleculaire stratificatie in de dagelijkse klinische praktijk wordt vergemakkelijkt.

Abdul Rehman Akbar, Alejandro Levya, Ashwini Esnakula, Elshad Hasanov, Anne Noonan, Lingbin Meng, Susan Tsai, Vaibhav Sahai, Midhun Malla, Sarbajit Mukherjee, Upender Manne, Anil Parwani, Wei Chen, Ashish Manne, Muhammad Khalid Khan Niazi2026-03-12⚡ eess

Over-Searching in Search-Augmented Large Language Models

Dit artikel analyseert het fenomeen van 'over-searching' in zoekversterkte grote taalmodellen, introduceert de metriek Tokens Per Correctness (TPC) om de kosten-batenverhouding te kwantificeren, en biedt mitigatiestrategieën om de efficiëntie te verbeteren en hallucinaties te verminderen.

Roy Xie, Deepak Gopinath, David Qiu, Dong Lin, Haitian Sun, Saloni Potdar, Bhuwan Dhingra2026-03-12🤖 cs.LG

Sampling via Stochastic Interpolants by Langevin-based Velocity and Initialization Estimation in Flow ODEs

Deze paper introduceert een nieuwe methode voor het bemonsteren van niet-genormaliseerde Boltzmann-dichtheden door Langevin-samplers te combineren met een stochastisch interpolant-gebaseerde flow ODE, wat leidt tot efficiënte simulatie en robuuste snelheidsschatting met gegarandeerde convergentie.

Chenguang Duan, Yuling Jiao, Gabriele Steidl, Christian Wald, Jerry Zhijian Yang, Ruizhe Zhang2026-03-12📊 stat

Error Analysis of Bayesian Inverse Problems with Generative Priors

Dit artikel presenteert kwantitatieve foutgrenzen voor Bayes' inverse problemen met generatieve priors, waarbij wordt aangetoond dat de posterieure fout onder bepaalde aannames dezelfde convergentiesnelheid volgt als de prior in de Wasserstein-1-afstand, wat wordt gevalideerd door numerieke experimenten.

Bamdad Hosseini, Ziqi Huang2026-03-12📊 stat

Time series forecasting with Hahn Kolmogorov-Arnold networks

Deze paper introduceert HaKAN, een lichtgewicht en interpreteerbaar model voor multivariate tijdsreeksvoorspelling dat Kolmogorov-Arnold-netwerken met Hahn-polynomen combineert om de beperkingen van Transformers en MLPs te overwinnen en state-of-the-art prestaties te behalen.

Md Zahidul Hasan, A. Ben Hamza, Nizar Bouguila2026-03-12📊 stat

Breaking the Stochasticity Barrier: An Adaptive Variance-Reduced Method for Variational Inequalities

Dit artikel introduceert VR-SDA-A, een nieuw adaptief algoritme dat variatie-reductie combineert met een krommingsverificatiemechanisme om de 'stochasticiteitsbarrière' te doorbreken en een optimale convergentiesnelheid te bereiken voor stochastische variatie-ongelijkheden zonder handmatige leerstap-aanpassing.

Yungi Jeong, Takumi Otsuka2026-03-12🤖 cs.LG

Singular Bayesian Neural Networks

Dit paper introduceert Singular Bayesian Neural Networks, een methode die de parameters van Bayesiaanse neurale netwerken drastisch reduceert door weight matrices te parameteriseren als een product van lage-rang matrices, waardoor een singuliere posterior ontstaat die betere generalisatie, kalibratie en out-of-detection prestaties biedt dan traditionele mean-field benaderingen.

Mame Diarra Toure, David A. Stephens2026-03-12📊 stat

Emergence of Distortions in High-Dimensional Guided Diffusion Models

Dit artikel formaliseert de diversiteitsverliesproblematiek bij classifier-free guidance als 'generative distortion', analyseert de overgangsfase waarin deze vervorming optreedt in hoogdimensionale ruimtes met behulp van statistische fysica, en stelt een theoretisch onderbouwde geleidingsstrategie met een negatief-geleidingsvenster voor om dit te mitigeren.

Enrico Ventura, Beatrice Achilli, Luca Ambrogioni, Carlo Lucibello2026-03-12📊 stat

Hallucination is a Consequence of Space-Optimality: A Rate-Distortion Theorem for Membership Testing

Dit paper toont aan dat hallucinaties in grote taalmodellen een onvermijdelijk gevolg zijn van optimale geheugenefficiëntie bij het testen van lidmaatschap, waarbij beperkte capaciteit het model dwingt om met hoge zekerheid onjuiste feiten te genereren als onderdeel van een verliesbeperkende compressiestrategie.

Anxin Guo, Jingwei Li2026-03-12💬 cs.CL

Grounding Generated Videos in Feasible Plans via World Models

Dit paper introduceert GVP-WM, een methode die gegenereerde videoplannen grondt in uitvoerbare acties door ze te projecteren op een dynamisch haalbare latente trajectenmanifold via een wereldmodel, waardoor fysieke inconsistenties in zero-shot videoplanning worden opgelost.

Christos Ziakas, Amir Bar, Alessandra Russo2026-03-12🤖 cs.LG

Expert-Data Alignment Governs Generation Quality in Decentralized Diffusion Models

Dit artikel onthult dat bij gedecentraliseerde diffusiemodellen de kwaliteit van gegenereerde beelden niet wordt bepaald door numerieke stabiliteit, maar door 'expert-data alignment', waarbij het routeren van invoer naar experts die specifiek zijn getraind op de bijbehorende dataclusters essentieel is voor hoogwaardige resultaten.

Marcos Villagra, Bidhan Roy, Raihan Seraj, Zhiying Jiang2026-03-12🤖 cs.LG

A Bandit-Based Approach to Educational Recommender Systems: Contextual Thompson Sampling for Learner Skill Gain Optimization

Dit artikel introduceert een bandit-gebaseerde aanpak met Contextual Thompson Sampling voor het genereren van gepersonaliseerde oefenreeksen in online wiskundeonderwijs, die op basis van leerlingdata en prestaties gericht zijn op het maximaliseren van vaardigheidsgroei.

Lukas De Kerpel, Arthur Thuy, Dries F. Benoit2026-03-12📊 stat

Universality of General Spiked Tensor Models

Dit artikel bewijst dat de asymptotische spectrale eigenschappen en statistische limieten van asymmetrische rank-één spiked tensormodellen met niet-Gaussisch ruis, mits een vierde moment voorhanden is, universeel zijn en overeenkomen met die van het klassieke Gaussische geval.

Yanjin Xiang, Zhihua Zhang2026-03-12📊 stat

BLITZRANK: Principled Zero-shot Ranking Agents with Tournament Graphs

Dit paper introduceert BLITZRANK, een principieel framework voor zero-shot ranking dat via een toernooigrafiek en transitieve afsluiting de top- $m$ items identificeert met 25-40% minder tokens dan bestaande methoden en tot 7 keer minder dan paarwijze vergelijkingen.

Sheshansh Agrawal, Thien Hang Nguyen, Douwe Kiela2026-03-12🤖 cs.LG

Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization

Dit paper introduceert Fine-grained Group Policy Optimization (FGO), een versterkt leer-algoritme dat de inefficiëntie en entropie-inzakking van GRPO oplost en effectieve compressie van Chain-of-Thought-redeneringen mogelijk maakt zonder prestatieverlies.

Xinchen Han, Hossam Afifi, Michel Marot, Xilu Wang, Lu Yin2026-03-12🤖 cs.LG

← Vorige Volgende →