cs.LG Arbeiten | Gist.Science

An Optimal Control Approach To Transformer Training

Diese Arbeit stellt einen optimalen Steuerungsansatz für das Transformer-Training vor, der die Architektur als gesteuertes Partikelsystem modelliert, um über einen gehobenen Markov-Entscheidungsprozess globale Optimalität und Robustheit ohne Gradientenabstieg zu gewährleisten.

Ka\u{g}an Akman, Naci Saldı, Serdar Yüksel2026-03-11🤖 cs.LG

SCDP: Learning Humanoid Locomotion from Partial Observations via Mixed-Observation Distillation

Die Arbeit stellt SCDP vor, einen Sensor-geführten Diffusionsansatz, der durch eine gemischte Beobachtungstraining-Methode die robuste Steuerung von humanoider Lokomotion ausschließlich auf Basis onboarder Sensoren ermöglicht und dabei den Bedarf an komplexer Zustandsabschätzung eliminiert.

Milo Carroll, Tianhu Peng, Lingfan Bao, Chengxu Zhou, Zhibin Li2026-03-11🤖 cs.LG

Routing without Forgetting

Die Arbeit stellt „Routing without Forgetting" (RwF) vor, eine Transformer-Architektur, die durch energie-basierte assoziative Abrufschichten dynamische Prompts generiert und so das Problem des Vergessens im Online-Continual-Learning ohne explizite Aufgabenkennungen oder wiederholte Optimierung löst.

Alessio Masano, Giovanni Bellitto, Dipam Goswani, Joost Van de Weijer, Concetto Spampinato2026-03-11🤖 cs.AI

Towards Understanding Adam Convergence on Highly Degenerate Polynomials

Diese Arbeit zeigt, dass der Adam-Optimierer auf hochdegenerierten Polynomen ohne externe Scheduler automatisch konvergiert und durch einen Entkopplungsmechanismus zwischen dem zweiten Moment und dem quadrierten Gradienten eine lineare Konvergenzgeschwindigkeit erreicht, die Gradientenabstieg und Momentum signifikant übertrifft.

Zhiwei Bai, Jiajie Zhao, Zhangchen Zhou, Zhi-Qin John Xu, Yaoyu Zhang2026-03-11🤖 cs.LG

Nonparametric Variational Differential Privacy via Embedding Parameter Clipping

Diese Arbeit stellt eine theoretisch fundierte Parameterverschneidungsmethode vor, die auf der Minimierung der Rényi-Divergenz basiert und in nichtparametrischen variationalen Differentialprivacy-Modellen sowohl strengere Privatsphärengarantien als auch eine höhere Nützlichkeit bei Downstream-Aufgaben ermöglicht.

Dina El Zein, Shashi Kumar, James Henderson2026-03-11🤖 cs.LG

Memorization capacity of deep ReLU neural networks characterized by width and depth

Diese Arbeit charakterisiert die Speicherkapazität von tiefen ReLU-Neuronalen Netzen, indem sie zeigt, dass die Kombination aus Breite und Tiefe durch die Beziehung $W^2L^2 = \Theta(N\log(\delta^{-1}))$ optimal ist, um beliebige $N$ Datenpunkte mit einem Mindestabstand $\delta$ zu memorieren.

Xin Yang, Yunfei Yang2026-03-11🤖 cs.LG

MM-algorithms for traditional and convex NMF with Tweedie and Negative Binomial cost functions and empirical evaluation

Dieses Papier stellt ein einheitliches Framework für traditionelle und konvexe nicht-negative Matrixfaktorisierung (NMF) unter Verwendung von Tweedie- und Negativ-Binomial-Kostenfunktionen vor, leitet Multiplikations-Update-Regeln mittels Majorize-Minimisation ab und zeigt durch empirische Evaluierungen, dass die Wahl des Rauschmodells sowie der Einsatz konvexer NMF die Anpassungsgüte und Merkmalswiederherstellung signifikant verbessern.

Elisabeth Sommer James, Asger Hobolth, Marta Pelizzola2026-03-11🤖 cs.LG

Learning the Hierarchical Organization in Brain Network for Brain Disorder Diagnosis

Die Studie stellt BrainHO vor, einen neuen Ansatz zur Diagnose von Hirnerkrankungen mittels fMRI, der durch einen hierarchischen Aufmerksamkeitsmechanismus und spezielle Verlustfunktionen die inhärente hierarchische Organisation von Hirnnetzwerken erlernt und dabei sowohl die Klassifikationsleistung verbessert als auch interpretierbare Biomarker identifiziert.

Jingfeng Tang, Peng Cao, Guangqi Wen, Jinzhu Yang, Xiaoli Liu, Osmar R. Zaiane2026-03-11🤖 cs.LG

Multi-DNN Inference of Sparse Models on Edge SoCs

Die Arbeit stellt SparseLoom vor, ein Demonstratorsystem für Edge-SoCs, das durch eine neuartige „Model Stitching"-Methode zur rekombinierenden Erstellung von Modellvarianten ohne Nachtraining die SLO-Verletzungsraten um bis zu 74 % senkt, den Durchsatz um das 2,31-Fache steigert und den Speicherbedarf im Vergleich zu bestehenden Multi-DNN-Inferenzsystemen um durchschnittlich 28 % reduziert.

Jiawei Luo, Di Wu, Simon Dobson, Blesson Varghese2026-03-11🤖 cs.LG

Evolution of Photonic Quantum Machine Learning under Noise

Diese Übersichtsarbeit analysiert systematisch die verschiedenen Rauschquellen in photonischen Quanten-Machine-Learning-Systemen, bewertet deren Auswirkungen auf die Lernleistung und Konvergenz sowie bestehende Minderungsstrategien und experimentelle Fortschritte, um zukünftige Wege zu robusten und skalierbaren Lösungen aufzuzeigen.

A. M. A. S. D. Alagiyawanna, Asoka Karunananda2026-03-11⚛️ quant-ph

Well Log-Guided Synthesis of Subsurface Images from Sparse Petrography Data Using cGANs

Die Studie stellt einen auf bedingten Generativen Adversarial Networks (cGANs) basierenden Ansatz vor, der mithilfe von Bohrlochdaten und spärlichen Petrographieproben realistische, durchgehende Porenstrukturen von Karbonatgesteinen synthetisiert, um die Reservoircharakterisierung für Anwendungen wie Kohlenstoffabscheidung und unterirdische Wasserstoffspeicherung zu verbessern.

Ali Sadeghkhani, A. Assadi, B. Bennett, A. Rabbani2026-03-11🤖 cs.LG

FreqCycle: A Multi-Scale Time-Frequency Analysis Method for Time Series Forecasting

Der Artikel stellt FreqCycle vor, ein neuartiges Framework für die Zeitreihenvorhersage, das durch die Kombination von Filter-verbesserter Zyklusvorhersage und segmentiertem Frequenzbereichslernen sowohl niederfrequente als auch mittlere bis hohe Frequenzmuster effektiv erfasst und durch eine hierarchische Erweiterung (MFreqCycle) gekoppelte Mehrperiodizitäten bewältigt, wodurch es in sieben Benchmark-Datensätzen einen neuen State-of-the-Art bei gleichzeitig hoher Inferenzgeschwindigkeit erreicht.

Boya Zhang, Shuaijie Yin, Huiwen Zhu, Xing He2026-03-11🤖 cs.LG

No evaluation without fair representation : Impact of label and selection bias on the evaluation, performance and mitigation of classification models

Diese Arbeit analysiert empirisch die unterschiedlichen Auswirkungen von Label- und Selektionsverzerrungen auf die Evaluierung und Leistung von Klassifikationsmodellen sowie auf die Wirksamkeit von Gegenmaßnahmen, wobei ein neu eingeführtes Framework zeigt, dass bei verzerrungsfreien Testdaten kein Zielkonflikt zwischen Fairness und Genauigkeit besteht und die Effizienz von Mitigationsmethoden stark von der Art der Verzerrung abhängt.

Magali Legast, Toon Calders, François Fouss2026-03-11🤖 cs.LG

GNNs for Time Series Anomaly Detection: An Open-Source Framework and a Critical Evaluation

Diese Arbeit stellt ein Open-Source-Framework für die Anwendung von Graph Neural Networks (GNNs) zur Zeitreihen-Anomalieerkennung vor, das durch eine kritische Evaluierung nicht nur die Detektionsleistung und Interpretierbarkeit verbessert, sondern auch bestehende Mängel in der Bewertungsmethodik aufdeckt.

Federico Bello, Gonzalo Chiarlone, Marcelo Fiori, Gastón García González, Federico Larroca2026-03-11🤖 cs.AI

EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

Die Arbeit stellt EsoLang-Bench vor, einen Benchmark auf Basis esoterischer Programmiersprachen, der zeigt, dass große Sprachmodelle trotz hoher Leistungen bei Standardtests kaum genuine Reasoning-Fähigkeiten besitzen und stattdessen auf Memorierung angewiesen sind.

Aman Sharma, Paras Chopra2026-03-11🤖 cs.AI

On Catastrophic Forgetting in Low-Rank Decomposition-Based Parameter-Efficient Fine-Tuning

Diese Arbeit zeigt, dass das Vergessen bei der sequenziellen Anpassung großer Modelle durch Parameter-effiziente Feinabstimmung maßgeblich von der Geometrie und Parametrisierung des Aktualisierungsunterraums abhängt, wobei tensorbasierte Zerlegungen und strukturell ausgerichtete Parametrisierungen das Vergessen im Vergleich zu herkömmlichen Methoden wie LoRA effektiv reduzieren.

Muhammad Ahmad, Jingjing Zheng, Yankai Cao2026-03-11🤖 cs.LG

ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

Die Arbeit stellt ActiveUltraFeedback vor, eine modulare Active-Learning-Pipeline, die durch die gezielte Auswahl unsicherer oder qualitativ stark unterschiedlicher Antwortpaare hochwertige Präferenzdaten mit nur einem Sechstel des Annotationsaufwands im Vergleich zu statischen Baselines generiert und so die Leistung von Large Language Models signifikant verbessert.

Davit Melikidze, Marian Schneider, Jessica Lam, Martin Wertich, Ido Hakimi, Barna Pásztor, Andreas Krause2026-03-11🤖 cs.AI

Physics-informed neural operator for predictive parametric phase-field modelling

Die Studie stellt PF-PINO vor, einen physik-informierten neuronalen Operator, der durch die Einbettung der Residuen der Phasenfeld-Gleichungen in die Verlustfunktion die Genauigkeit, Generalisierungsfähigkeit und Langzeitstabilität bei der Vorhersage komplexer Materialmikrostrukturen im Vergleich zu herkömmlichen Methoden wie dem Fourier-neuronalen Operator (FNO) erheblich verbessert.

Nanxi Chen, Airong Chen, Rujin Ma2026-03-11🔬 cond-mat.mtrl-sci

Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning

Die Arbeit stellt Mousse vor, einen neuen Optimierer, der durch die Kombination von Muons spektraler Stabilität mit Shampoons kroneckerfaktorisierter Vorbedingung die geometrische Anpassungsfähigkeit in stark konditionierten Landschaften verbessert und so das Training von Sprachmodellen um etwa 12 % beschleunigt.

Yechen Zhang, Shuhao Xing, Junhao Huang, Kai Lv, Yunhua Zhou, Xipeng Qiu, Qipeng Guo, Kai Chen2026-03-11🤖 cs.AI

A Multi-Prototype-Guided Federated Knowledge Distillation Approach in AI-RAN Enabled Multi-Access Edge Computing System

Dieser Artikel stellt einen multi-prototypenbasierten Ansatz für das federierte Wissensdistillieren (MP-FedKD) in KI-RAN-fähigen Multi-Access-Edge-Computing-Systemen vor, der durch die Integration von Selbst-Wissensdistillierung, einer bedingten hierarchischen agglomerativen Clustering-Methode und einer neuen Verlustfunktion die Herausforderungen nicht-uniform verteilter Daten überwindet und dabei die Genauigkeit im Vergleich zu bestehenden Methoden signifikant verbessert.

Luyao Zou, Hayoung Oh, Chu Myaet Thwal, Apurba Adhikary, Seohyeon Hong, Zhu Han2026-03-11🤖 cs.LG

← Zurück Weiter →