cs.LG Arbeiten | Gist.Science

EvoESAP: Non-Uniform Expert Pruning for Sparse MoE

Die Arbeit stellt EvoESAP vor, einen evolutionären Suchrahmen, der durch die Optimierung einer nicht-uniformen Schicht-für-Schicht-Sparsität unter Verwendung der ESAP-Metrik die Leistung von Sparse-Mixture-of-Experts-Modellen bei gleichzeitiger Reduzierung des Speicherverbrauchs signifikant verbessert.

Zongfang Liu, Shengkun Tang, Boyang Sun, Zhiqiang Shen, Xin Yuan2026-03-09🤖 cs.LG

Preventing Learning Stagnation in PPO by Scaling to 1 Million Parallel Environments

Die Autoren zeigen, dass Lernstagnation bei PPO durch eine Diskrepanz zwischen Stichproben-Schätzungen und dem wahren Ziel entsteht, und beweisen, dass diese durch Skalierung auf über eine Million parallele Umgebungen und eine angepasste Hyperparameter-Strategie überwunden werden kann, was zu einer monotonen Leistungsverbesserung über eine Billion Übergänge hinweg führt.

Michael Beukman, Khimya Khetarpal, Zeyu Zheng, Will Dabney, Jakob Foerster, Michael Dennis, Clare Lyle2026-03-09🤖 cs.LG

Agnostic learning in (almost) optimal time via Gaussian surface area

Diese Arbeit verbessert die bekannten Schranken für das agnostische Lernen von Konzeptklassen mit begrenzter Gaußscher Oberflächenfläche, indem sie zeigt, dass ein Polynomgrad von $\tilde{O}(\Gamma^2 / \varepsilon^2)$ ausreicht, was zu nahezu optimalen Komplexitätsergebnissen für das Lernen von Polynom-Threshold-Funktionen im statistischen Abfragemodell führt.

Lucas Pesenti, Lucas Slot, Manuel Wiedmer2026-03-09🤖 cs.LG

Improved high-dimensional estimation with Langevin dynamics and stochastic weight averaging

Diese Arbeit zeigt, dass Langevin-Dynamik in Kombination mit der Mittelung der Iterierten die Notwendigkeit einer expliziten Landschaftsglättung umgeht und in hochdimensionalen Szenarien wie Tensor-PCA und Single-Index-Modellen mit $n \gtrsim d^{k^\star/2}$ Proben eine optimale Konvergenzrate erreicht.

Stanley Wei, Alex Damian, Jason D. Lee2026-03-09🤖 cs.LG

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

Die Arbeit stellt TempoSyncDiff vor, einen effizienten, auf Wissenstransfer basierenden Latent-Diffusionsrahmen für audiogetriebene sprechende Köpfe, der durch Few-Step-Inferenz, Identitätsanker und zeitliche Regularisierung eine niedrige Latenz bei gleichzeitiger Verbesserung der temporalen Stabilität und Synchronisation ermöglicht.

Soumya Mazumdar, Vineet Kumar Rakesh2026-03-09🤖 cs.AI

Latent Diffusion-Based 3D Molecular Recovery from Vibrational Spectra

Die Arbeit stellt IR-GeoDiff vor, ein latentes Diffusionsmodell, das aus Infrarotspektren dreidimensionale Molekülgeometrien rekonstruiert, indem es spektrale Informationen in die Knoten- und Kantenrepräsentationen der Molekülstrukturen integriert und dabei die komplexe Beziehung zwischen spektralen Merkmalen und der räumlichen Struktur erfasst.

Wenjin Wu, Aleš Leonardis, Linjiang Chen, Jianbo Jiao2026-03-09🤖 cs.LG

Dynamic Momentum Recalibration in Online Gradient Learning

Die Arbeit stellt SGDF vor, einen neuen Optimierer, der durch die Anwendung von Prinzipien der optimalen linearen Filterung momentumgestützte Gradientenupdates dynamisch neu kalibriert, um den Kompromiss zwischen Rauschunterdrückung und Signalbewahrung zu optimieren und damit die Leistung herkömmlicher Methoden zu übertreffen.

Zhipeng Yao, Rui Yu, Guisong Chang, Ying Li, Yu Zhang, Dazhou Li2026-03-09🤖 cs.LG

Diffusion Language Models Are Natively Length-Aware

Die vorgestellte Arbeit zeigt, dass Diffusionssprachmodelle durch eine zero-shot-Mechanik zur dynamischen Vorschätzung der erforderlichen Antwortlänge aus dem latenten Prompt-Input erheblich rechnerisch effizienter werden, ohne dabei die Leistung auf gängigen Benchmarks zu beeinträchtigen.

Vittorio Rossi, Giacomo Cirò, Davide Beltrame, Luca Gandolfi, Paul Röttger, Dirk Hovy2026-03-09🤖 cs.LG

DQE: A Semantic-Aware Evaluation Metric for Time Series Anomaly Detection

Dieses Paper stellt DQE vor, ein neuartiges, semantikbasiertes Evaluationsmaß für die Anomalieerkennung in Zeitreihen, das durch eine subregionale Partitionierung und eine Aggregation über den gesamten Schwellenwertbereich bestehende Limitationen wie Verzerrungen und Inkonsistenzen herkömmlicher Metriken überwindet.

Yuewei Li, Dalin Zhang, Huan Li, Xinyi Gong, Hongjun Chu, Zhaohui Song2026-03-09🤖 cs.LG

Partial Policy Gradients for RL in LLMs

Die vorgestellte Arbeit schlägt einen neuen Ansatz für Policy-Gradients vor, bei dem durch die Optimierung von Teilmengen zukünftiger Belohnungen einfachere und zuverlässigere Lernstrategien ermöglicht werden, die sich in verschiedenen Konversationsaufgaben als vorteilhaft erweisen.

Puneet Mathur, Branislav Kveton, Subhojyoti Mukherjee, Viet Dac Lai2026-03-09🤖 cs.AI

Predictive Coding Graphs are a Superset of Feedforward Neural Networks

Der Artikel beweist, dass Predictive Coding Graphs (PCGs) eine mathematische Obermenge von Feedforward-Neuronalen Netzen darstellen und sie dadurch stärker in den Bereich des maschinellen Lernens einordnen.

Björn van Zwol2026-03-09🤖 cs.AI

Ensemble Graph Neural Networks for Probabilistic Sea Surface Temperature Forecasting via Input Perturbations

Diese Studie zeigt, dass Ensemble-Graph-Neural-Networks für die probabilistische Vorhersage der Meeresoberflächentemperatur durch räumlich kohärente Eingangsstörungen (z. B. Perlin-Rauschen) eine gut kalibrierte Unsicherheitsquantifizierung erreichen, ohne zusätzliche Trainingskosten zu verursachen.

Alejandro J. González-Santana, Giovanny A. Cuervo-Londoño, Javier Sánchez2026-03-09🤖 cs.AI

Efficient Vector Search in the Wild: One Model for Multi-K Queries

Die Arbeit stellt OMEGA vor, eine effiziente Methode für das Lernen von Top-K-Suchen, die mit einem einzigen, auf K=1 trainierten Modell und einem dynamischen Verfeinerungsprozess sowohl hohe Genauigkeit als auch Leistung bei variierenden K-Werten erreicht und dabei die Vorverarbeitungszeit im Vergleich zu bestehenden Methoden drastisch reduziert.

Yifan Peng, Jiafei Fan, Xingda Wei, Sijie Shen, Rong Chen, Jianning Wang, Xiaojian Luo, Wenyuan Yu, Jingren Zhou, Haibo Chen2026-03-09🤖 cs.LG

Contrastive-to-Self-Supervised: A Two-Stage Framework for Script Similarity Learning

Die vorgestellte Arbeit schlägt ein zweistufiges Framework vor, das durch den Übergang von kontrastivem Lernen auf künstlichen Alphabeten zu selbstüberwachtem Wissenstransfer auf historische Schriften eine robuste Ähnlichkeitsmessung für Glyphen ermöglicht, ohne dass ground-truth evolutionäre Beziehungen erforderlich sind.

Claire Roman, Philippe Meyer2026-03-09🤖 cs.AI

Random Quadratic Form on a Sphere: Synchronization by Common Noise

Die Arbeit führt das stochastische Differentialgleichungsmodell „Random Quadratic Form" (RQF) ein, um zu zeigen, dass gemeinsame Rauschsignale auf einer Kugel zu einer Synchronisation führen und so das Clustering von Tokens in tiefen Transformern auch ohne Selbstaufmerksamkeitsmechanismen erklären können.

Maximilian Engel, Anna Shalova2026-03-09🤖 cs.LG

Topological descriptors of foot clearance gait dynamics improve differential diagnosis of Parkinsonism

Die Studie zeigt, dass die Integration von Topologischer Datenanalyse mit maschinellem Lernen die Differenzialdiagnose zwischen idiopathischer Parkinson-Krankheit und vaskulärem Parkinsonismus durch die Analyse von Fußfreigang-Dynamiken signifikant verbessert.

Jhonathan Barrios, Wolfram Erlhagen, Miguel F. Gago, Estela Bicho, Flora Ferreira2026-03-09🤖 cs.LG

FedSCS-XGB -- Federated Server-centric surrogate XGBoost for continual health monitoring

Die Arbeit stellt FedSCS-XGB vor, ein neuartiges verteiltes Lernprotokoll auf Basis von XGBoost, das eine kontinuierliche Gesundheitsüberwachung mittels tragbarer Sensoren ermöglicht und dabei zentrale Trainingsleistung mit einem Abweichungswert von unter 1 % bei gleichzeitiger Wahrung der strukturellen Vorteile des XGBoost-Algorithmus erreicht.

Felix Walger, Mehdi Ejtehadi, Anke Schmeink, Diego Paez-Granados2026-03-09🤖 cs.LG

DC-Merge: Improving Model Merging with Directional Consistency

Der Artikel stellt DC-Merge vor, eine Methode zum Zusammenführen von Modellen, die durch den Ausgleich der Energieverteilung in Singulärwerten und die Projektion auf einen gemeinsamen orthogonalen Unterraum die Richtungskonsistenz zwischen einzelnen Aufgabenvektoren erhält und damit in Vision- und Vision-Sprache-Benchmarks state-of-the-art-Ergebnisse erzielt.

Han-Chen Zhang, Zi-Hao Zhou, Mao-Lin Luo, Shimin Di, Min-Ling Zhang, Tong Wei2026-03-09🤖 cs.LG

Gradient Flow Polarizes Softmax Outputs towards Low-Entropy Solutions

Die Arbeit zeigt, dass die Gradientenfluss-Dynamik in Softmax-basierten Modellen, die als Kernbaustein von Self-Attention dienen, die Optimierung universell zu Lösungen mit niedriger Entropie treibt und damit Phänomene wie Attention Sinks und massive Aktivierungen theoretisch erklärt.

Aditya Varre, Mark Rofin, Nicolas Flammarion2026-03-09🤖 cs.LG

SPPCSO: Adaptive Penalized Estimation Method for High-Dimensional Correlated Data

Die Arbeit stellt SPPCSO vor, eine adaptive, bestrafte Schätzmethode, die Hauptkomponentenregression und $L_1$ -Regularisierung kombiniert, um bei hochdimensionalen, korrelierten Daten mit hohem Rauschen stabile Variablenselektion und präzise Parameterschätzung zu gewährleisten.

Ying Hu, Hu Yang2026-03-09🤖 cs.LG

← Zurück Weiter →