cs.LG Arbeiten | Gist.Science

Marginals Before Conditionals

Die Studie zeigt, dass neuronale Netze bei einer mehrdeutigen Zuordnungsaufgabe zunächst eine marginale Verteilung lernen, die durch eine Plateauphase der Entropie stabilisiert wird, bevor sie durch einen scharfen kollektiven Übergang zur vollständigen bedingten Verteilung übergehen, wobei Rauschen und die Datengröße die Dauer dieses Plateaus bestimmen.

Mihir Sahasrabudhe2026-03-12🤖 cs.LG

Stochastic Port-Hamiltonian Neural Networks: Universal Approximation with Passivity Guarantees

Die Arbeit stellt stochastische Port-Hamiltonsche neuronale Netze (SPH-NNs) vor, die durch die Parametrisierung der Hamilton-Funktion und die Erhaltung passivitätskonformer Strukturen eine universelle Approximation mit garantierten Passivitätseigenschaften ermöglichen und in Experimenten gegenüber herkömmlichen MLPs überlegene Langzeitvorhersagen sowie geringere Energiefehler aufweisen.

Luca Di Persio, Matthias Ehrhardt, Youness Outaleb2026-03-12🤖 cs.LG

Large Spikes in Stochastic Gradient Descent: A Large-Deviations View

Die Arbeit liefert eine quantitative Theorie der „Catapult"-Phase beim SGD-Training flacher Netze im NTK-Limit, indem sie eine explizite Bedingung herleitet, die bestimmt, ob große NTK-verflachende Spikes mit hoher Wahrscheinlichkeit auftreten oder ihre Wahrscheinlichkeit mit der Netzbreite abnimmt.

Benjamin Gess, Daniel Heydecker2026-03-12🤖 cs.LG

Amnesia: Adversarial Semantic Layer Specific Activation Steering in Large Language Models

Die Studie stellt „Amnesia" vor, einen leichten adversarialen Angriff im Aktivierungsraum, der durch Manipulation interner Transformer-Zustände Sicherheitsmechanismen in offenen Large Language Models umgeht und so die Erzeugung schädlicher Inhalte ohne Nachtraining ermöglicht.

Ali Raza, Gurang Gupta, Nikolay Matyunin, Jibesh Patra2026-03-12🤖 cs.AI

Mitigating Frequency Learning Bias in Quantum Models via Multi-Stage Residual Learning

Die vorgestellte Arbeit schlägt eine Methode zur Minderung der Frequenz-Lernverzerrung in Quantenmodellen vor, indem sie das Konzept des mehrstufigen residualen Lernens aus dem klassischen Bereich adaptiert, um die Fähigkeit zur Erfassung komplexer Frequenzkomponenten in parametrisierten Quantenschaltkreisen signifikant zu verbessern.

Ammar Daskin2026-03-12⚛️ quant-ph

Digging Deeper: Learning Multi-Level Concept Hierarchies

Die vorgestellte Arbeit überwindet die Beschränkung flacher Konzeptmodelle durch die Entwicklung von Multi-Level Concept Splitting (MLCS) zur Entdeckung mehrstufiger Konzept-Hierarchien aus nur grober Überwachung und Deep-HiCEMs als Architektur, die diese Hierarchien für interpretierbare Eingriffe auf verschiedenen Abstraktionsebenen nutzbar macht.

Oscar Hill, Mateo Espinosa Zarlenga, Mateja Jamnik2026-03-12🤖 cs.LG

KernelSkill: A Multi-Agent Framework for GPU Kernel Optimization

Das Paper stellt KernelSkill vor, ein Multi-Agenten-Framework mit einer dualen Speicherarchitektur, das durch die Nutzung von wissensbasierten Expertenfähigkeiten anstelle impliziter Heuristiken GPU-Kernel-Optimierungen effizienter und interpretierbarer gestaltet und dabei auf dem KernelBench signifikante Geschwindigkeitssteigerungen erzielt.

Qitong Sun, Jun Han, Tianlin Li, Zhe Tang, Sheng Chen, Fei Yang, Aishan Liu, Xianglong Liu, Yang Liu2026-03-12🤖 cs.LG

ES-dLLM: Efficient Inference for Diffusion Large Language Models by Early-Skipping

Die Arbeit stellt ES-dLLM vor, ein trainingsfreies Beschleunigungsframework für Diffusion-Sprachmodelle, das durch das frühzeitige Überspringen weniger wichtiger Token in den unteren Schichten die Inferenzgeschwindigkeit erheblich steigert, ohne die Generierungsqualität zu beeinträchtigen.

Zijian Zhu, Fei Ren, Zhanhong Tan, Kaisheng Ma2026-03-12🤖 cs.LG

A Survey of Weight Space Learning: Understanding, Representation, and Generation

Diese Arbeit stellt eine umfassende Übersicht über das neuartige Forschungsfeld des Weight Space Learning vor, das neuronale Gewichte als strukturierten Lernraum betrachtet und Methoden zur Analyse, Repräsentation und Generierung von Gewichten systematisch kategorisiert, um Anwendungen wie Modellwiedergewinnung und datenfreie Rekonstruktion zu ermöglichen.

Xiaolong Han, Zehong Wang, Bo Zhao, Binchi Zhang, Jundong Li, Damian Borth, Rose Yu, Haggai Maron, Yanfang Ye, Lu Yin, Ferrante Neri2026-03-12🤖 cs.LG

Equivariant Asynchronous Diffusion: An Adaptive Denoising Schedule for Accelerated Molecular Conformation Generation

Die Arbeit stellt Equivariant Asynchronous Diffusion (EAD) vor, ein neues Diffusionsmodell, das durch einen adaptiven, asynchronen Denoising-Plan die Hierarchie molekularer Strukturen besser erfasst und gleichzeitig einen molekülweiten Horizont bewahrt, um den Stand der Technik bei der Generierung 3D-molekularer Konformationen zu erreichen.

Junyi An, Chao Qu, Yun-Fei Shi, Zhijian Zhou, Fenglei Cao, Yuan Qi2026-03-12🧬 q-bio

Rethinking Adam for Time Series Forecasting: A Simple Heuristic to Improve Optimization under Distribution Shifts

Die Arbeit stellt TS_Adam vor, eine leichte Variante des Adam-Optimierers, die durch das Entfernen der zweiten Ordnungsbias-Korrektur die Anpassungsfähigkeit an nicht-stationäre Zeitreihendaten mit Verteilungsdrift verbessert und dabei die Leistung bei Vorhersageaufgaben signifikant steigert.

Yuze Dong, Jinsong Wu2026-03-12🤖 cs.LG

Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models

Die Arbeit stellt Code-Space Response Oracles (CSRO) vor, ein neuartiges Framework, das in Multi-Agenten-Systemen herkömmliche Reinforcement-Learning-Orakel durch Large Language Models ersetzt, um direkt als menschenlesbarer Code generierte, interpretierbare und wettbewerbsfähige Strategien zu ermöglichen.

Daniel Hennes, Zun Li, John Schultz, Marc Lanctot2026-03-12🤖 cs.AI

Denoising the US Census: Succinct Block Hierarchical Regression

Diese Arbeit stellt BlueDown vor, ein neues post-processing-Verfahren, das durch einen effizienten hierarchischen Regressionsalgorithmus präzisere und konsistente Schätzungen für die US-Volkszählung liefert, während dieselben Datenschutzgarantien und strukturellen Einschränkungen wie beim bestehenden TopDown-Verfahren gewahrt bleiben.

Badih Ghazi, Pritish Kamath, Ravi Kumar, Pasin Manurangsi, Adam Sealfon2026-03-12🤖 cs.LG

Hardware Efficient Approximate Convolution with Tunable Error Tolerance for CNNs

Die Arbeit stellt einen hardwareeffizienten Ansatz für CNNs vor, der mittels einer „weichen Sparsity"-Strategie und einer MSB-basierten Proxy-Methode als RISC-V-Instruktion signifikante Reduktionen bei MAC-Operationen und Energieverbrauch erreicht, ohne dabei die Genauigkeit zu beeinträchtigen.

Vishal Shashidhar, Anupam Kumari, Roy P Paily2026-03-12🤖 cs.LG

CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR

Das Papier stellt CLIPO vor, eine Methode zur Verallgemeinerung von Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) durch kontrastives Lernen, die die Robustheit und Generalisierungsfähigkeit von Large Language Models verbessert, indem sie inkonsistente Zwischenschritte in korrekten Lösungswegen erkennt und Halluzinationen unterdrückt.

Sijia Cui, Pengyu Cheng, Jiajun Song, Yongbo Gai, Guojun Zhang, Zhechao Yu, Jianhe Lin, Xiaoxi Jiang, Guanjun Jiang2026-03-12🤖 cs.LG

Lost in the Middle at Birth: An Exact Theory of Transformer Position Bias

Diese Arbeit beweist, dass die „Lost in the Middle"-Phänomen-U-Kurve bereits bei der Initialisierung von Transformer-Modellen als inhärente geometrische Eigenschaft der kausalen Aufmerksamkeit und Residualverbindungen existiert, unabhängig von Positionscodings oder Training.

Borun D Chowdhury2026-03-12🤖 cs.LG

Unbalanced Optimal Transport Dictionary Learning for Unsupervised Hyperspectral Image Clustering

Dieses Papier schlägt eine Methode zur unüberwachten Hyperspektralbild-Clustering vor, die unbalancierte Wasserstein-Baryzentren nutzt, um eine robuste, niedrigdimensionale Darstellung zu lernen und so die Nachteile herkömmlicher ausbalancierter Ansätze wie Klassenverwischung und Empfindlichkeit gegenüber Ausreißern zu überwinden.

Joshua Lentz, Nicholas Karris, Alex Cloninger, James M. Murphy2026-03-12📊 stat

A neural operator for predicting vibration frequency response curves from limited data

Diese Arbeit stellt einen neuronalen Operator vor, der durch die Integration eines impliziten numerischen Schemas in der Lage ist, aus nur 7 % der Daten die vollständige Frequenzgangkurve eines linearen Einmassenschwingers mit 99,87 % Genauigkeit vorherzusagen, ohne auf physikalische Regularisierungsterme angewiesen zu sein.

D. Bluedorn, A. Badawy, B. E. Saunders, D. Roettgen, A. Abdelkefi2026-03-12🤖 cs.LG

Mashup Learning: Faster Finetuning by Remixing Past Checkpoints

Der vorgestellte Ansatz „Mashup Learning" beschleunigt das Feinabstimmen von Sprachmodellen und verbessert die Genauigkeit, indem er die relevantesten historischen Checkpoints durch Modell-Merging zu einer optimierten Initialisierung für neue Aufgaben kombiniert.

Sofia Maria Lo Cicero Vaina, Artem Chumachenko, Max Ryabinin2026-03-12🤖 cs.LG

ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning

Die Arbeit stellt ReMix vor, einen neuartigen Router für Mixture-of-LoRAs, der durch den Einsatz nicht-lernbarer Routing-Gewichte und einer auf Reinforcement Learning basierenden RLOO-Gradientenschätzung das Problem der unausgewogenen LoRA-Nutzung löst und damit die Leistungsfähigkeit beim Fine-Tuning von LLMs signifikant verbessert.

Ruizhong Qiu, Hanqing Zeng, Yinglong Xia, Yiwen Meng, Ren Chen, Jiarui Feng, Dongqi Fu, Qifan Wang, Jiayi Liu, Jun Xiao, Xiangjun Fan, Benyu Zhang, Hong Li, Zhining Liu, Hyunsik Yoo, Zhichen Zeng, Tianxin Wei, Hanghang Tong2026-03-12🤖 cs.LG

← Zurück Weiter →