cs.LG papers | Gist.Science

Parallel Token Prediction for Language Models

Dit paper introduceert Parallel Token Prediction (PTP), een raamwerk dat de snelheid van autoregressieve taalmodellen aanzienlijk verhoogt door meerdere tokens in één doorloop te voorspellen via het verschuiven van de bron van willekeur naar invoervariabelen, wat resulteert in een 2,4-voudige versnelling.

Felix Draxler, Justus Will, Farrin Marouf Sofian + 3 more2026-03-06💻 cs

Uncertainty-Aware Flow Field Reconstruction Using SVGP Kolmogorov-Arnold Networks

Dit artikel introduceert een robuust machine learning-kader op basis van SVGP-Kolmogorov-Arnold-netwerken dat niet alleen tijdsopgeloste stromingsvelden reconstrueert uit schaarse metingen met vergelijkbare nauwkeurigheid als gevestigde methoden, maar ook geprikkeld epistemische onzekerheid biedt voor betere experimentontwerp en voorspellingstrouw.

Y. Sungtaek Ju2026-03-06🔬 physics

Prediction of Cellular Malignancy Using Electrical Impedance Signatures and Supervised Machine Learning

Deze studie toont aan dat het combineren van bio-elektrische eigenschappen van cellen met het Random Forest-machinelearning-algoritme een nauwkeurigheid van ongeveer 90% bereikt bij het voorspellen van kwaadaardigheid, wat de potentieel van deze aanpak voor diagnostische toepassingen onderstreept.

Shadeeb Hossain2026-03-06💻 cs

Controlled LLM Training on Spectral Sphere

Deze paper introduceert de Spectral Sphere Optimizer (SSO), een efficiënte parallelle optimalisatiealgoritme dat strikte spectrale beperkingen oplegt aan gewichten en updates om volledige stabiliteit en snellere convergentie te garanderen bij het trainen van grote taalmodellen, waardoor het de bestaande methoden zoals AdamW en Muon overtreft.

Tian Xie, Haoming Luo, Haoyu Tang + 9 more2026-03-06💻 cs

BPE: Behavioral Profiling Ensemble

Dit paper introduceert het Behavioral Profiling Ensemble (BPE)-kader, een modelcentrische aanpak die dynamische aggregatiegewichten baseert op de afwijking van een model's respons ten opzichte van zijn intrinsieke gedragsprofiel, wat leidt tot superieure voorspellingsprestaties en een lagere rekenlast in vergelijking met bestaande dynamische ensembleselectiemethoden.

Yanxin Liu, Yunqi Zhang2026-03-06💻 cs

EmboTeam: Grounding LLM Reasoning into Reactive Behavior Trees via PDDL for Embodied Multi-Robot Collaboration

Het paper introduceert EmboTeam, een raamwerk dat de redeneercapaciteiten van grote taalmodellen combineert met formele planning en gedragsbomen om heterogene robotteams in staat te stellen complexe langdurige taken in huishoudelijke omgevingen succesvol en reactief uit te voeren.

Haishan Zeng, Mengna Wang, Peng Li2026-03-06💻 cs

ButterflyMoE: Sub-Linear Ternary Experts via Structured Butterfly Orbits

ButterflyMoE is een methode die de geheugenschaalbaarheid van MoE-modellen op randapparaten doorbreekt door experts te modelleren als geometrische rotaties van een gedeelde ternaire basis, waardoor het geheugengebruik sublineair wordt zonder nauwkeurigheidsverlies.

Aryan Karmore2026-03-06💻 cs

Yuan3.0 Ultra: A Trillion-Parameter Enterprise-Oriented MoE LLM

Dit paper introduceert Yuan3.0 Ultra, een open-source Mixture-of-Experts taalmodel met 1010 miljard totale parameters dat door middel van het nieuwe Layer-Adaptive Expert Pruning-algoritme tijdens het pre-trainingstadium 33,3% minder parameters en 49% meer trainingsefficiëntie bereikt, terwijl het uitstekende prestaties behoudt op zowel algemene taken als specifieke zakelijke benchmarks.

YuanLab. ai, :, Shawn Wu + 25 more2026-03-06💻 cs

Agentic Very Long Video Understanding

Dit paper introduceert EGAgent, een agentisch raamwerk dat entiteitsscène-graafgebruikt om zeer lange, continue egocentrische video's te analyseren en zo state-of-the-art prestaties te leveren op complexe longitudinale begrijpingsopdrachten.

Aniket Rege, Arka Sadhu, Yuliang Li + 5 more2026-03-06💻 cs

Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

Dit paper introduceert On-Policy Self-Distillation (OPSD), een raamwerk waarbij één enkel groot taalmodel fungeert als zowel leraar als leerling door te conditioneren op respectievelijk geprivilegieerde redeneersporen en alleen de vraag, wat leidt tot superieure prestaties en een 8-12 keer hogere token-efficiëntie op wiskundige redeneerbenchmarks vergeleken met bestaande methoden.

Siyan Zhao, Zhihui Xie, Mengchen Liu + 4 more2026-03-06💻 cs

A Scalable Inter-edge Correlation Modeling in CopulaGNN for Link Sign Prediction

Deze paper introduceert een schaalbare methode voor het voorspellen van teken van koppelingen in een getekend graf door de CopulaGNN te verbeteren via een Gramiaanse representatie van de correlatiematrix en een hervormde conditionele waarschijnlijkheidsverdeling, wat leidt tot lineaire convergentie en snellere training zonder in te leveren op de voorspellingsprestaties.

Jinkyu Sung, Myunggeum Jee, Joonseok Lee2026-03-06💻 cs

Improved Convergence Rates of Muon Optimizer for Nonconvex Optimization

In dit werk worden de convergentiegaranties voor de Muon-optimizer voor niet-convexe optimalisatie verscherpt door een directe en vereenvoudigde analyse die snellere convergentiepercentages oplevert en een bredere reeks probleemsettings bestrijkt dan eerdere studies.

Shuntaro Nagashima, Hideaki Iiduka2026-03-06🔢 math

Latent-IMH: Efficient Bayesian Inference for Inverse Problems with Approximate Operators

Dit artikel introduceert Latent-IMH, een efficiënte Bayesiaanse inferentiemethode voor inverse problemen met dure operatoren die, door het gebruik van een goedkope benadering voor het genereren van latente variabelen en een exacte verfijning, aanzienlijk sneller is dan bestaande methoden zoals NUTS.

Youguang Chen, George Biros2026-03-06🔢 math

Mobility-Embedded POIs: Learning What A Place Is and How It Is Used from Human Movement

Deze paper introduceert ME-POIs, een raamwerk dat taalmodellen aanvult met menselijke mobiliteitsdata om representaties van punten van interesse te leren die niet alleen de identiteit, maar ook de functionele gebruiksdoelen van locaties vastleggen, wat leidt tot superieure prestaties op diverse kaartverrijkingstaken.

Maria Despoina Siampou, Shushman Choudhury, Shang-Ling Hsu + 2 more2026-03-06💻 cs

YuriiFormer: A Suite of Nesterov-Accelerated Transformers

Deze paper introduceert YuriiFormer, een suite van Nesterov-versnelde transformers die transformerlagen interpreteren als optimalisatiestappen en hiermee een architectuur voorstellen die de prestaties van nanoGPT op TinyStories en OpenWebText verbetert.

Aleksandr Zimin, Yury Polyanskiy, Philippe Rigollet2026-03-06🔢 math

MiTA Attention: Efficient Fast-Weight Scaling via a Mixture of Top-k Activations

Dit artikel introduceert MiTA Attention, een efficiënt mechanisme dat de schaalbaarheid van Transformer-attention voor lange sequenties verbetert door een compressie-en-routing-strategie te gebruiken die een breed snel-gewicht MLP reduceert tot smaller deskundigen via een mengsel van top-k geactiveerde sleutel-waardeparen.

Qishuai Wen, Zhiyuan Huang, Xianghan Meng + 2 more2026-03-06💻 cs

Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards

Deze paper introduceert VIP, een strategie die een Gaussisch proces gebruikt om de roll-out-begroting in online versterkingsleer dynamisch toe te wijzen aan de meest informatieve prompts, waardoor de sampling-efficiëntie en prestaties aanzienlijk worden verbeterd ten opzichte van uniforme methoden.

Hieu Trung Nguyen, Bao Nguyen, Wenao Ma + 3 more2026-03-06💻 cs

Position: Beyond Model-Centric Prediction -- Agentic Time Series Forecasting

Dit paper pleit voor een verschuiving van traditionele, modelgerichte tijdreeksvoorspelling naar 'agente voorspelling' (ATSF), waarbij forecasting wordt herdefinieerd als een adaptief proces met perceptie, planning, actie, reflectie en geheugen dat beter geschikt is voor dynamische en iteratieve scenario's.

Mingyue Cheng, Xiaoyu Tao, Qi Liu + 2 more2026-03-06💻 cs

On the Non-Identifiability of Steering Vectors in Large Language Models

Dit paper toont aan dat stuurvectoren in grote taalmodellen fundamenteel niet-identificeerbaar zijn, aangezien orthogonale verstoringen vergelijkbare effecten hebben, wat de interpretatie van interne representaties beperkt en de noodzaak van structurele constraints benadrukt.

Sohan Venkatesh, Ashish Mahendran Kurapath2026-03-06💻 cs

LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning

LatentChem introduceert een latent denkinterface die chemische redenering overbrengt van expliciete tekstuele chain-of-thought naar continue latente ruimtes, wat leidt tot een aanzienlijke snelheidswinst en betere prestaties doordat modellen hun redenering automatisch internaliseren in plaats van in woorden te verwoorden.

Xinwu Ye, Yicheng Mao, Jia Zhang + 16 more2026-03-06🔬 physics

← Vorige Volgende →