cs.LG papers | Gist.Science

RePo: Language Models with Context Re-Positioning

Het paper introduceert RePo, een nieuw mechanisme dat de extrinsieke cognitieve belasting in Large Language Models verlaagt door token-posities dynamisch te herschikken op basis van contextuele afhankelijkheden in plaats van een vaste lineaire volgorde, wat leidt tot verbeterde prestaties bij taken met ruis, gestructureerde data en lange contexten.

Huayang Li, Tianyu Zhao, Deng Cai + 1 more2026-03-06💻 cs

Agentic Multi-Persona Framework for Evidence-Aware Fake News Detection

Deze paper introduceert AMPEND-LS, een agentic multi-persona framework dat LLM's en SLM's combineert met bewijsgebaseerde analyse voor multimodale fake news-detectie, waarbij het state-of-the-art prestaties en verbeterde betrouwbaarheid bereikt.

Roopa Bukke, Soumya Pandey, Suraj Kumar + 2 more2026-03-06💻 cs

Parallel Token Prediction for Language Models

Dit paper introduceert Parallel Token Prediction (PTP), een raamwerk dat de snelheid van autoregressieve taalmodellen aanzienlijk verhoogt door meerdere tokens in één doorloop te voorspellen via het verschuiven van de bron van willekeur naar invoervariabelen, wat resulteert in een 2,4-voudige versnelling.

Felix Draxler, Justus Will, Farrin Marouf Sofian + 3 more2026-03-06💻 cs

Uncertainty-Aware Flow Field Reconstruction Using SVGP Kolmogorov-Arnold Networks

Dit artikel introduceert een robuust machine learning-kader op basis van SVGP-Kolmogorov-Arnold-netwerken dat niet alleen tijdsopgeloste stromingsvelden reconstrueert uit schaarse metingen met vergelijkbare nauwkeurigheid als gevestigde methoden, maar ook geprikkeld epistemische onzekerheid biedt voor betere experimentontwerp en voorspellingstrouw.

Y. Sungtaek Ju2026-03-06🔬 physics

Prediction of Cellular Malignancy Using Electrical Impedance Signatures and Supervised Machine Learning

Deze studie toont aan dat het combineren van bio-elektrische eigenschappen van cellen met het Random Forest-machinelearning-algoritme een nauwkeurigheid van ongeveer 90% bereikt bij het voorspellen van kwaadaardigheid, wat de potentieel van deze aanpak voor diagnostische toepassingen onderstreept.

Shadeeb Hossain2026-03-06💻 cs

Controlled LLM Training on Spectral Sphere

Deze paper introduceert de Spectral Sphere Optimizer (SSO), een efficiënte parallelle optimalisatiealgoritme dat strikte spectrale beperkingen oplegt aan gewichten en updates om volledige stabiliteit en snellere convergentie te garanderen bij het trainen van grote taalmodellen, waardoor het de bestaande methoden zoals AdamW en Muon overtreft.

Tian Xie, Haoming Luo, Haoyu Tang + 9 more2026-03-06💻 cs

BPE: Behavioral Profiling Ensemble

Dit paper introduceert het Behavioral Profiling Ensemble (BPE)-kader, een modelcentrische aanpak die dynamische aggregatiegewichten baseert op de afwijking van een model's respons ten opzichte van zijn intrinsieke gedragsprofiel, wat leidt tot superieure voorspellingsprestaties en een lagere rekenlast in vergelijking met bestaande dynamische ensembleselectiemethoden.

Yanxin Liu, Yunqi Zhang2026-03-06💻 cs

EmboTeam: Grounding LLM Reasoning into Reactive Behavior Trees via PDDL for Embodied Multi-Robot Collaboration

Het paper introduceert EmboTeam, een raamwerk dat de redeneercapaciteiten van grote taalmodellen combineert met formele planning en gedragsbomen om heterogene robotteams in staat te stellen complexe langdurige taken in huishoudelijke omgevingen succesvol en reactief uit te voeren.

Haishan Zeng, Mengna Wang, Peng Li2026-03-06💻 cs

ButterflyMoE: Sub-Linear Ternary Experts via Structured Butterfly Orbits

ButterflyMoE is een methode die de geheugenschaalbaarheid van MoE-modellen op randapparaten doorbreekt door experts te modelleren als geometrische rotaties van een gedeelde ternaire basis, waardoor het geheugengebruik sublineair wordt zonder nauwkeurigheidsverlies.

Aryan Karmore2026-03-06💻 cs

Yuan3.0 Ultra: A Trillion-Parameter Enterprise-Oriented MoE LLM

Dit paper introduceert Yuan3.0 Ultra, een open-source Mixture-of-Experts taalmodel met 1010 miljard totale parameters dat door middel van het nieuwe Layer-Adaptive Expert Pruning-algoritme tijdens het pre-trainingstadium 33,3% minder parameters en 49% meer trainingsefficiëntie bereikt, terwijl het uitstekende prestaties behoudt op zowel algemene taken als specifieke zakelijke benchmarks.

YuanLab. ai, :, Shawn Wu + 25 more2026-03-06💻 cs

Agentic Very Long Video Understanding

Dit paper introduceert EGAgent, een agentisch raamwerk dat entiteitsscène-graafgebruikt om zeer lange, continue egocentrische video's te analyseren en zo state-of-the-art prestaties te leveren op complexe longitudinale begrijpingsopdrachten.

Aniket Rege, Arka Sadhu, Yuliang Li + 5 more2026-03-06💻 cs

Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

Dit paper introduceert On-Policy Self-Distillation (OPSD), een raamwerk waarbij één enkel groot taalmodel fungeert als zowel leraar als leerling door te conditioneren op respectievelijk geprivilegieerde redeneersporen en alleen de vraag, wat leidt tot superieure prestaties en een 8-12 keer hogere token-efficiëntie op wiskundige redeneerbenchmarks vergeleken met bestaande methoden.

Siyan Zhao, Zhihui Xie, Mengchen Liu + 4 more2026-03-06💻 cs

A Scalable Inter-edge Correlation Modeling in CopulaGNN for Link Sign Prediction

Deze paper introduceert een schaalbare methode voor het voorspellen van teken van koppelingen in een getekend graf door de CopulaGNN te verbeteren via een Gramiaanse representatie van de correlatiematrix en een hervormde conditionele waarschijnlijkheidsverdeling, wat leidt tot lineaire convergentie en snellere training zonder in te leveren op de voorspellingsprestaties.

Jinkyu Sung, Myunggeum Jee, Joonseok Lee2026-03-06💻 cs

Improved Convergence Rates of Muon Optimizer for Nonconvex Optimization

In dit werk worden de convergentiegaranties voor de Muon-optimizer voor niet-convexe optimalisatie verscherpt door een directe en vereenvoudigde analyse die snellere convergentiepercentages oplevert en een bredere reeks probleemsettings bestrijkt dan eerdere studies.

Shuntaro Nagashima, Hideaki Iiduka2026-03-06🔢 math

Latent-IMH: Efficient Bayesian Inference for Inverse Problems with Approximate Operators

Dit artikel introduceert Latent-IMH, een efficiënte Bayesiaanse inferentiemethode voor inverse problemen met dure operatoren die, door het gebruik van een goedkope benadering voor het genereren van latente variabelen en een exacte verfijning, aanzienlijk sneller is dan bestaande methoden zoals NUTS.

Youguang Chen, George Biros2026-03-06🔢 math

Mobility-Embedded POIs: Learning What A Place Is and How It Is Used from Human Movement

Deze paper introduceert ME-POIs, een raamwerk dat taalmodellen aanvult met menselijke mobiliteitsdata om representaties van punten van interesse te leren die niet alleen de identiteit, maar ook de functionele gebruiksdoelen van locaties vastleggen, wat leidt tot superieure prestaties op diverse kaartverrijkingstaken.

Maria Despoina Siampou, Shushman Choudhury, Shang-Ling Hsu + 2 more2026-03-06💻 cs

YuriiFormer: A Suite of Nesterov-Accelerated Transformers

Deze paper introduceert YuriiFormer, een suite van Nesterov-versnelde transformers die transformerlagen interpreteren als optimalisatiestappen en hiermee een architectuur voorstellen die de prestaties van nanoGPT op TinyStories en OpenWebText verbetert.

Aleksandr Zimin, Yury Polyanskiy, Philippe Rigollet2026-03-06🔢 math

MiTA Attention: Efficient Fast-Weight Scaling via a Mixture of Top-k Activations

Dit artikel introduceert MiTA Attention, een efficiënt mechanisme dat de schaalbaarheid van Transformer-attention voor lange sequenties verbetert door een compressie-en-routing-strategie te gebruiken die een breed snel-gewicht MLP reduceert tot smaller deskundigen via een mengsel van top-k geactiveerde sleutel-waardeparen.

Qishuai Wen, Zhiyuan Huang, Xianghan Meng + 2 more2026-03-06💻 cs

Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards

Deze paper introduceert VIP, een strategie die een Gaussisch proces gebruikt om de roll-out-begroting in online versterkingsleer dynamisch toe te wijzen aan de meest informatieve prompts, waardoor de sampling-efficiëntie en prestaties aanzienlijk worden verbeterd ten opzichte van uniforme methoden.

Hieu Trung Nguyen, Bao Nguyen, Wenao Ma + 3 more2026-03-06💻 cs

Position: Beyond Model-Centric Prediction -- Agentic Time Series Forecasting

Dit paper pleit voor een verschuiving van traditionele, modelgerichte tijdreeksvoorspelling naar 'agente voorspelling' (ATSF), waarbij forecasting wordt herdefinieerd als een adaptief proces met perceptie, planning, actie, reflectie en geheugen dat beter geschikt is voor dynamische en iteratieve scenario's.

Mingyue Cheng, Xiaoyu Tao, Qi Liu + 2 more2026-03-06💻 cs

← Vorige Volgende →