cs.LG Arbeiten | Gist.Science

Parallel Token Prediction for Language Models

Das Papier stellt Parallel Token Prediction (PTP) vor, ein Framework, das durch die Verschiebung der Zufälligkeit auf Eingangsvariablen mehrere Token in einem einzigen Vorwärtsdurchlauf deterministisch vorhersagt und so eine 2,4-fache Beschleunigung der Autogenerierung erreicht.

Felix Draxler, Justus Will, Farrin Marouf Sofian + 3 more2026-03-06💻 cs

Uncertainty-Aware Flow Field Reconstruction Using SVGP Kolmogorov-Arnold Networks

Die Studie stellt einen neuen maschinellen Lernansatz namens SVGP-KAN vor, der mithilfe von sparse variational Gaussian processes und Kolmogorov-Arnold-Netzwerken zeitlich aufgelöste Strömungsfelder aus spärlichen Messdaten rekonstruiert und dabei gleichzeitig zuverlässige epistemische Unsicherheitsquantifizierung bietet, was ihn im Vergleich zu klassischen Methoden und Kalman-Filtern als robustes Werkzeug für das Experimentdesign erweist.

Y. Sungtaek Ju2026-03-06🔬 physics

Prediction of Cellular Malignancy Using Electrical Impedance Signatures and Supervised Machine Learning

Diese Studie zeigt, dass die Kombination von elektrischen Impedanzsignaturen von Zellen mit dem Random-Forest-Machine-Learning-Algorithmus eine Vorhersagegenauigkeit von etwa 90 % für die Klassifizierung von bösartigen Zellen ermöglicht.

Shadeeb Hossain2026-03-06💻 cs

Controlled LLM Training on Spectral Sphere

Die Arbeit stellt den Spectral Sphere Optimizer (SSO) vor, einen effizienten Parallelalgorithmus, der durch die strikte Einhaltung spektraler Beschränkungen für Gewichte und Updates eine vollständige $\mu$ P-Ausrichtung gewährleistet und damit bei der Skalierung großer Modelle eine überlegene Konvergenz und Stabilität im Vergleich zu AdamW und Muon erreicht.

Tian Xie, Haoming Luo, Haoyu Tang + 9 more2026-03-06💻 cs

BPE: Behavioral Profiling Ensemble

Die Arbeit stellt den Behavioral Profiling Ensemble (BPE)-Rahmen vor, der durch die Nutzung intrinsischer Verhaltensprofile einzelner Modelle anstelle von inter-modellen Unterschieden die Vorhersagegenauigkeit verbessert und gleichzeitig den Rechenaufwand im Vergleich zu bestehenden dynamischen Ensemble-Methoden reduziert.

Yanxin Liu, Yunqi Zhang2026-03-06💻 cs

EmboTeam: Grounding LLM Reasoning into Reactive Behavior Trees via PDDL for Embodied Multi-Robot Collaboration

Das Paper stellt EmboTeam vor, ein Framework für die kollaborative Aufgabenerfüllung heterogener Roboterteams, das die semantische Stärke von Large Language Models mit der Zuverlässigkeit klassischer PDDL-Planer und reaktiver Behavior Trees verbindet, um die Erfolgsrate bei komplexen Haushaltsaufgaben signifikant zu steigern.

Haishan Zeng, Mengna Wang, Peng Li2026-03-06💻 cs

ButterflyMoE: Sub-Linear Ternary Experts via Structured Butterfly Orbits

ButterflyMoE überwindet die lineare Speicherskalierung von Mixture-of-Experts-Modellen auf Edge-Geräten, indem es Experten als geometrische Rotationen eines gemeinsamen ternären Substrats parametrisiert, was bei 256 Experten eine 150-fache Speicherreduktion bei vernachlässigbarem Genauigkeitsverlust ermöglicht.

Aryan Karmore2026-03-06💻 cs

Yuan3.0 Ultra: A Trillion-Parameter Enterprise-Oriented MoE LLM

Das Paper stellt Yuan3.0 Ultra vor, ein Open-Source-Mixture-of-Experts-LLM mit 1010 Milliarden Parametern, das durch den neu entwickelten Layer-Adaptive Expert Pruning (LAEP)-Algorithmus die Vortrainierungseffizienz um 49 % steigert und gleichzeitig führende Leistungen in Unternehmensszenarien erzielt.

YuanLab. ai, :, Shawn Wu + 25 more2026-03-06💻 cs

Agentic Very Long Video Understanding

Das Paper stellt EGAgent vor, ein agentic Framework, das auf Entitäts-Szenengraphen basiert, um durch strukturierte Suche und hybride visuell-auditive Analyse kontinuierliche, langfristige Ego-Videos für kontextuelle Verständnisaufgaben zu interpretieren und dabei state-of-the-art Ergebnisse auf EgoLifeQA und Video-MME (Long) erzielt.

Aniket Rege, Arka Sadhu, Yuliang Li + 5 more2026-03-06💻 cs

Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

Die Arbeit stellt das Framework „On-Policy Self-Distillation" (OPSD) vor, bei dem ein einziges großes Sprachmodell durch den Vergleich seiner eigenen Antworten mit privilegierten Lösungswegen als sowohl Lehrer als auch Schüler fungiert, um die mathematische Schlussfolgerungsfähigkeit effizienter zu verbessern als herkömmliche Methoden.

Siyan Zhao, Zhihui Xie, Mengchen Liu + 4 more2026-03-06💻 cs

A Scalable Inter-edge Correlation Modeling in CopulaGNN for Link Sign Prediction

Die Arbeit stellt eine skalierbare Erweiterung von CopulaGNN für die Vorhersage von Kantensignalen in signierten Graphen vor, die durch die effiziente Parametrisierung der Korrelationsmatrix und eine reformulierte bedingte Wahrscheinlichkeitsverteilung die rechnerische Komplexität reduziert und gleichzeitig eine schnelle Konvergenz sowie wettbewerbsfähige Leistung erzielt.

Jinkyu Sung, Myunggeum Jee, Joonseok Lee2026-03-06💻 cs

Improved Convergence Rates of Muon Optimizer for Nonconvex Optimization

Diese Arbeit liefert eine direkte und vereinfachte Analyse des Muon-Optimierers, die schärfere Konvergenzgarantien für nichtkonvexe Optimierungsprobleme unter weniger restriktiven Annahmen als bisherige Studien etabliert.

Shuntaro Nagashima, Hideaki Iiduka2026-03-06🔢 math

Latent-IMH: Efficient Bayesian Inference for Inverse Problems with Approximate Operators

Die Arbeit stellt Latent-IMH vor, eine effiziente Bayessche Inferenzmethode für inverse Probleme mit rechenintensiven Operatoren, die durch die Nutzung einer kostengünstigen Näherung in einer Offline-Phase und eine anschließende Verfeinerung mit dem exakten Operator die Rechenzeit im Vergleich zu State-of-the-Art-Methoden wie NUTS drastisch reduziert.

Youguang Chen, George Biros2026-03-06🔢 math

Mobility-Embedded POIs: Learning What A Place Is and How It Is Used from Human Movement

Die Arbeit stellt ME-POIs vor, ein Framework, das durch die Kombination von Sprachmodell-Embeddings mit großen menschlichen Mobilitätsdaten kontextunabhängige POI-Repräsentationen erlernt, die sowohl die Identität als auch die Nutzungsfunktion von Orten erfassen und damit bestehende Ansätze in verschiedenen Kartenerweiterungsaufgaben übertreffen.

Maria Despoina Siampou, Shushman Choudhury, Shang-Ling Hsu + 2 more2026-03-06💻 cs

YuriiFormer: A Suite of Nesterov-Accelerated Transformers

Die Arbeit stellt einen Variationsrahmen vor, der Transformer-Schichten als Optimierungsalgorithmen interpretiert, und nutzt diese Perspektive, um einen Nesterov-beschleunigten Transformer zu entwickeln, der auf TinyStories und OpenWebText eine bessere Leistung als ein nanoGPT-Baseline erzielt.

Aleksandr Zimin, Yury Polyanskiy, Philippe Rigollet2026-03-06🔢 math

MiTA Attention: Efficient Fast-Weight Scaling via a Mixture of Top-k Activations

Die vorgestellte Arbeit führt den MiTA-Attention-Mechanismus ein, der durch eine Kombination aus Kompression und Routing effiziente Fast-Weight-Skalierung für lange Sequenzen ermöglicht, indem sie breite MLPs auf Landmark-Abfragen reduziert und deformierbare Experten basierend auf den top-k aktivierten Schlüssel-Wert-Paaren konstruiert.

Qishuai Wen, Zhiyuan Huang, Xianghan Meng + 2 more2026-03-06💻 cs

Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards

Die Arbeit stellt VIP vor, eine adaptive Strategie zur Zuweisung von Rollouts im Online-Reinforcement-Learning mit verifizierbaren Belohnungen, die mithilfe von Gauß-Prozessen die Varianz der Gradienten schätzt und den Rechenbudget durch eine konvexe Optimierung minimiert, um die Sampling-Effizienz und Leistung im Vergleich zu einheitlichen Zuweisungsmethoden zu steigern.

Hieu Trung Nguyen, Bao Nguyen, Wenao Ma + 3 more2026-03-06💻 cs

Position: Beyond Model-Centric Prediction -- Agentic Time Series Forecasting

Diese Positionspapier plädiert für einen Paradigmenwechsel von der traditionellen modellzentrischen Zeitreihenvorhersage hin zu einem agenten Ansatz (ATSF), der Prognosen als einen dynamischen Prozess aus Wahrnehmung, Planung, Handeln, Reflexion und Gedächtnis neu definiert, um adaptive und iterative Anpassungen zu ermöglichen.

Mingyue Cheng, Xiaoyu Tao, Qi Liu + 2 more2026-03-06💻 cs

On the Non-Identifiability of Steering Vectors in Large Language Models

Die Studie zeigt, dass Steuervektoren in großen Sprachmodellen aufgrund großer Äquivalenzklassen verhaltensindistinguishbarer Interventionen grundsätzlich nicht identifizierbar sind, was fundamentale Grenzen der Interpretierbarkeit aufdeckt und die Notwendigkeit struktureller Einschränkungen jenseits von Verhaltensanalysen unterstreicht.

Sohan Venkatesh, Ashish Mahendran Kurapath2026-03-06💻 cs

LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning

Die Arbeit stellt LatentChem vor, ein Verfahren, das chemisches Schlussfolgern von der diskreten Textgenerierung entkoppelt und stattdessen eine effiziente, kontinuierliche latente Reasoning-Umgebung nutzt, wodurch sowohl die Genauigkeit als auch die Inferenzgeschwindigkeit im Vergleich zu herkömmlichen Chain-of-Thought-Ansätzen erheblich gesteigert werden.

Xinwu Ye, Yicheng Mao, Jia Zhang + 16 more2026-03-06🔬 physics

← Zurück Weiter →