cs.LG Arbeiten | Gist.Science

ButterflyMoE: Sub-Linear Ternary Experts via Structured Butterfly Orbits

ButterflyMoE überwindet die lineare Speicherskalierung von Mixture-of-Experts-Modellen auf Edge-Geräten, indem es Experten als geometrische Rotationen eines gemeinsamen ternären Substrats parametrisiert, was bei 256 Experten eine 150-fache Speicherreduktion bei vernachlässigbarem Genauigkeitsverlust ermöglicht.

Aryan Karmore2026-03-06💻 cs

Yuan3.0 Ultra: A Trillion-Parameter Enterprise-Oriented MoE LLM

Das Paper stellt Yuan3.0 Ultra vor, ein Open-Source-Mixture-of-Experts-LLM mit 1010 Milliarden Parametern, das durch den neu entwickelten Layer-Adaptive Expert Pruning (LAEP)-Algorithmus die Vortrainierungseffizienz um 49 % steigert und gleichzeitig führende Leistungen in Unternehmensszenarien erzielt.

YuanLab. ai, :, Shawn Wu + 25 more2026-03-06💻 cs

Agentic Very Long Video Understanding

Das Paper stellt EGAgent vor, ein agentic Framework, das auf Entitäts-Szenengraphen basiert, um durch strukturierte Suche und hybride visuell-auditive Analyse kontinuierliche, langfristige Ego-Videos für kontextuelle Verständnisaufgaben zu interpretieren und dabei state-of-the-art Ergebnisse auf EgoLifeQA und Video-MME (Long) erzielt.

Aniket Rege, Arka Sadhu, Yuliang Li + 5 more2026-03-06💻 cs

Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

Die Arbeit stellt das Framework „On-Policy Self-Distillation" (OPSD) vor, bei dem ein einziges großes Sprachmodell durch den Vergleich seiner eigenen Antworten mit privilegierten Lösungswegen als sowohl Lehrer als auch Schüler fungiert, um die mathematische Schlussfolgerungsfähigkeit effizienter zu verbessern als herkömmliche Methoden.

Siyan Zhao, Zhihui Xie, Mengchen Liu + 4 more2026-03-06💻 cs

A Scalable Inter-edge Correlation Modeling in CopulaGNN for Link Sign Prediction

Die Arbeit stellt eine skalierbare Erweiterung von CopulaGNN für die Vorhersage von Kantensignalen in signierten Graphen vor, die durch die effiziente Parametrisierung der Korrelationsmatrix und eine reformulierte bedingte Wahrscheinlichkeitsverteilung die rechnerische Komplexität reduziert und gleichzeitig eine schnelle Konvergenz sowie wettbewerbsfähige Leistung erzielt.

Jinkyu Sung, Myunggeum Jee, Joonseok Lee2026-03-06💻 cs

Improved Convergence Rates of Muon Optimizer for Nonconvex Optimization

Diese Arbeit liefert eine direkte und vereinfachte Analyse des Muon-Optimierers, die schärfere Konvergenzgarantien für nichtkonvexe Optimierungsprobleme unter weniger restriktiven Annahmen als bisherige Studien etabliert.

Shuntaro Nagashima, Hideaki Iiduka2026-03-06🔢 math

Latent-IMH: Efficient Bayesian Inference for Inverse Problems with Approximate Operators

Die Arbeit stellt Latent-IMH vor, eine effiziente Bayessche Inferenzmethode für inverse Probleme mit rechenintensiven Operatoren, die durch die Nutzung einer kostengünstigen Näherung in einer Offline-Phase und eine anschließende Verfeinerung mit dem exakten Operator die Rechenzeit im Vergleich zu State-of-the-Art-Methoden wie NUTS drastisch reduziert.

Youguang Chen, George Biros2026-03-06🔢 math

Mobility-Embedded POIs: Learning What A Place Is and How It Is Used from Human Movement

Die Arbeit stellt ME-POIs vor, ein Framework, das durch die Kombination von Sprachmodell-Embeddings mit großen menschlichen Mobilitätsdaten kontextunabhängige POI-Repräsentationen erlernt, die sowohl die Identität als auch die Nutzungsfunktion von Orten erfassen und damit bestehende Ansätze in verschiedenen Kartenerweiterungsaufgaben übertreffen.

Maria Despoina Siampou, Shushman Choudhury, Shang-Ling Hsu + 2 more2026-03-06💻 cs

YuriiFormer: A Suite of Nesterov-Accelerated Transformers

Die Arbeit stellt einen Variationsrahmen vor, der Transformer-Schichten als Optimierungsalgorithmen interpretiert, und nutzt diese Perspektive, um einen Nesterov-beschleunigten Transformer zu entwickeln, der auf TinyStories und OpenWebText eine bessere Leistung als ein nanoGPT-Baseline erzielt.

Aleksandr Zimin, Yury Polyanskiy, Philippe Rigollet2026-03-06🔢 math

MiTA Attention: Efficient Fast-Weight Scaling via a Mixture of Top-k Activations

Die vorgestellte Arbeit führt den MiTA-Attention-Mechanismus ein, der durch eine Kombination aus Kompression und Routing effiziente Fast-Weight-Skalierung für lange Sequenzen ermöglicht, indem sie breite MLPs auf Landmark-Abfragen reduziert und deformierbare Experten basierend auf den top-k aktivierten Schlüssel-Wert-Paaren konstruiert.

Qishuai Wen, Zhiyuan Huang, Xianghan Meng + 2 more2026-03-06💻 cs

Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards

Die Arbeit stellt VIP vor, eine adaptive Strategie zur Zuweisung von Rollouts im Online-Reinforcement-Learning mit verifizierbaren Belohnungen, die mithilfe von Gauß-Prozessen die Varianz der Gradienten schätzt und den Rechenbudget durch eine konvexe Optimierung minimiert, um die Sampling-Effizienz und Leistung im Vergleich zu einheitlichen Zuweisungsmethoden zu steigern.

Hieu Trung Nguyen, Bao Nguyen, Wenao Ma + 3 more2026-03-06💻 cs

Position: Beyond Model-Centric Prediction -- Agentic Time Series Forecasting

Diese Positionspapier plädiert für einen Paradigmenwechsel von der traditionellen modellzentrischen Zeitreihenvorhersage hin zu einem agenten Ansatz (ATSF), der Prognosen als einen dynamischen Prozess aus Wahrnehmung, Planung, Handeln, Reflexion und Gedächtnis neu definiert, um adaptive und iterative Anpassungen zu ermöglichen.

Mingyue Cheng, Xiaoyu Tao, Qi Liu + 2 more2026-03-06💻 cs

On the Non-Identifiability of Steering Vectors in Large Language Models

Die Studie zeigt, dass Steuervektoren in großen Sprachmodellen aufgrund großer Äquivalenzklassen verhaltensindistinguishbarer Interventionen grundsätzlich nicht identifizierbar sind, was fundamentale Grenzen der Interpretierbarkeit aufdeckt und die Notwendigkeit struktureller Einschränkungen jenseits von Verhaltensanalysen unterstreicht.

Sohan Venkatesh, Ashish Mahendran Kurapath2026-03-06💻 cs

LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning

Die Arbeit stellt LatentChem vor, ein Verfahren, das chemisches Schlussfolgern von der diskreten Textgenerierung entkoppelt und stattdessen eine effiziente, kontinuierliche latente Reasoning-Umgebung nutzt, wodurch sowohl die Genauigkeit als auch die Inferenzgeschwindigkeit im Vergleich zu herkömmlichen Chain-of-Thought-Ansätzen erheblich gesteigert werden.

Xinwu Ye, Yicheng Mao, Jia Zhang + 16 more2026-03-06🔬 physics

Beyond the Unit Hypersphere: Embedding Magnitude in Contrastive Learning

Die Studie zeigt, dass das gezielte Lernen von Embedding-Magnituden durch getrennte Normalisierung von Abfragen und Dokumenten die Leistung von Retrieval- und RAG-Systemen, insbesondere bei der Out-of-Domain-Generalisierung, signifikant verbessert, während dies für Aufgaben mit austauschbaren Eingaben wie STS oder CLIP weniger relevant ist.

Xincan Feng, Taro Watanabe2026-03-06💻 cs

Supervised Metric Regularization Through Alternating Optimization for Multi-Regime Physics-Informed Neural Networks

Die Arbeit stellt TAPINN vor, einen Topologie-bewussten Physics-Informed Neural Network-Ansatz, der durch überwachtes metrisches Regularisieren und einen alternierenden Optimierungsprozess die Modellierung von dynamischen Systemen mit scharfen Regimewechseln verbessert und dabei signifikant niedrigere physikalische Residuen sowie eine stabilere Konvergenz im Vergleich zu Standard-PINNs und Hypernetzwerken erreicht.

Enzo Nicolas Spotorno, Josafat Ribeiro Leal, Antonio Augusto Frohlich2026-03-06🔬 physics

Empirical Stability Analysis of Kolmogorov-Arnold Networks in Hard-Constrained Recurrent Physics-Informed Discovery

Die Studie zeigt, dass die Integration von Kolmogorov-Arnold-Netzwerken (KANs) in hard-constrained recurrent physics-informed Architekturen im Vergleich zu herkömmlichen MLPs aufgrund von Hyperparameter-Fragilität, Instabilität in tieferen Schichten und Versagen bei multiplikativen Termen für die Entdeckung nichtlinearer physikalischer Residuen ungeeignet ist.

Enzo Nicolas Spotorno, Josafat Leal Filho, Antonio Augusto Medeiros Frohlich2026-03-06🔬 physics

Learn from Your Mistakes: Self-Correcting Masked Diffusion Models

Die Arbeit stellt ProSeCo vor, einen neuartigen Rahmen für selbstkorrigierende Masked Diffusion Models, der durch iterative Korrektur bereits generierter Tokens die Sample-Qualität verbessert und gleichzeitig die Sampling-Effizienz steigert.

Yair Schiff, Omer Belhasin, Roy Uziel + 5 more2026-03-06💻 cs

QTabGAN: A Hybrid Quantum-Classical GAN for Tabular Data Synthesis

Die Studie stellt QTabGAN vor, ein hybrides quanten-klassisches GAN-Modell zur Synthese realistischer tabellarischer Daten, das durch den Einsatz von Quantenschaltungen komplexe Verteilungen erfasst und in verschiedenen Klassifikations- und Regressionsaufgaben signifikante Verbesserungen gegenüber bestehenden Methoden erzielt.

Subhangi Kumari, Rakesh Achutha, Vignesh Sivaraman2026-03-06⚛️ quant-ph

Out-of-Support Generalisation via Weight-Space Sequence Modelling

Die Arbeit stellt WeightCaster vor, ein effizientes Framework, das das Problem der Generalisierung außerhalb des Trainingsbereichs durch eine Umformulierung als Sequenzmodellierung im Gewichtsraum löst und dabei realistische, interpretierbare und unsicherheitsbewusste Vorhersagen ohne explizite induktive Biases ermöglicht.

Roussel Desmond Nzoyem2026-03-06💻 cs

← Zurück Weiter →