cs.LG Arbeiten | Gist.Science

YuriiFormer: A Suite of Nesterov-Accelerated Transformers

Die Arbeit stellt einen Variationsrahmen vor, der Transformer-Schichten als Optimierungsalgorithmen interpretiert, und nutzt diese Perspektive, um einen Nesterov-beschleunigten Transformer zu entwickeln, der auf TinyStories und OpenWebText eine bessere Leistung als ein nanoGPT-Baseline erzielt.

Aleksandr Zimin, Yury Polyanskiy, Philippe Rigollet2026-03-06🔢 math

MiTA Attention: Efficient Fast-Weight Scaling via a Mixture of Top-k Activations

Die vorgestellte Arbeit führt den MiTA-Attention-Mechanismus ein, der durch eine Kombination aus Kompression und Routing effiziente Fast-Weight-Skalierung für lange Sequenzen ermöglicht, indem sie breite MLPs auf Landmark-Abfragen reduziert und deformierbare Experten basierend auf den top-k aktivierten Schlüssel-Wert-Paaren konstruiert.

Qishuai Wen, Zhiyuan Huang, Xianghan Meng + 2 more2026-03-06💻 cs

Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards

Die Arbeit stellt VIP vor, eine adaptive Strategie zur Zuweisung von Rollouts im Online-Reinforcement-Learning mit verifizierbaren Belohnungen, die mithilfe von Gauß-Prozessen die Varianz der Gradienten schätzt und den Rechenbudget durch eine konvexe Optimierung minimiert, um die Sampling-Effizienz und Leistung im Vergleich zu einheitlichen Zuweisungsmethoden zu steigern.

Hieu Trung Nguyen, Bao Nguyen, Wenao Ma + 3 more2026-03-06💻 cs

Position: Beyond Model-Centric Prediction -- Agentic Time Series Forecasting

Diese Positionspapier plädiert für einen Paradigmenwechsel von der traditionellen modellzentrischen Zeitreihenvorhersage hin zu einem agenten Ansatz (ATSF), der Prognosen als einen dynamischen Prozess aus Wahrnehmung, Planung, Handeln, Reflexion und Gedächtnis neu definiert, um adaptive und iterative Anpassungen zu ermöglichen.

Mingyue Cheng, Xiaoyu Tao, Qi Liu + 2 more2026-03-06💻 cs

On the Non-Identifiability of Steering Vectors in Large Language Models

Die Studie zeigt, dass Steuervektoren in großen Sprachmodellen aufgrund großer Äquivalenzklassen verhaltensindistinguishbarer Interventionen grundsätzlich nicht identifizierbar sind, was fundamentale Grenzen der Interpretierbarkeit aufdeckt und die Notwendigkeit struktureller Einschränkungen jenseits von Verhaltensanalysen unterstreicht.

Sohan Venkatesh, Ashish Mahendran Kurapath2026-03-06💻 cs

LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning

Die Arbeit stellt LatentChem vor, ein Verfahren, das chemisches Schlussfolgern von der diskreten Textgenerierung entkoppelt und stattdessen eine effiziente, kontinuierliche latente Reasoning-Umgebung nutzt, wodurch sowohl die Genauigkeit als auch die Inferenzgeschwindigkeit im Vergleich zu herkömmlichen Chain-of-Thought-Ansätzen erheblich gesteigert werden.

Xinwu Ye, Yicheng Mao, Jia Zhang + 16 more2026-03-06🔬 physics

Beyond the Unit Hypersphere: Embedding Magnitude in Contrastive Learning

Die Studie zeigt, dass das gezielte Lernen von Embedding-Magnituden durch getrennte Normalisierung von Abfragen und Dokumenten die Leistung von Retrieval- und RAG-Systemen, insbesondere bei der Out-of-Domain-Generalisierung, signifikant verbessert, während dies für Aufgaben mit austauschbaren Eingaben wie STS oder CLIP weniger relevant ist.

Xincan Feng, Taro Watanabe2026-03-06💻 cs

Supervised Metric Regularization Through Alternating Optimization for Multi-Regime Physics-Informed Neural Networks

Die Arbeit stellt TAPINN vor, einen Topologie-bewussten Physics-Informed Neural Network-Ansatz, der durch überwachtes metrisches Regularisieren und einen alternierenden Optimierungsprozess die Modellierung von dynamischen Systemen mit scharfen Regimewechseln verbessert und dabei signifikant niedrigere physikalische Residuen sowie eine stabilere Konvergenz im Vergleich zu Standard-PINNs und Hypernetzwerken erreicht.

Enzo Nicolas Spotorno, Josafat Ribeiro Leal, Antonio Augusto Frohlich2026-03-06🔬 physics

Empirical Stability Analysis of Kolmogorov-Arnold Networks in Hard-Constrained Recurrent Physics-Informed Discovery

Die Studie zeigt, dass die Integration von Kolmogorov-Arnold-Netzwerken (KANs) in hard-constrained recurrent physics-informed Architekturen im Vergleich zu herkömmlichen MLPs aufgrund von Hyperparameter-Fragilität, Instabilität in tieferen Schichten und Versagen bei multiplikativen Termen für die Entdeckung nichtlinearer physikalischer Residuen ungeeignet ist.

Enzo Nicolas Spotorno, Josafat Leal Filho, Antonio Augusto Medeiros Frohlich2026-03-06🔬 physics

Learn from Your Mistakes: Self-Correcting Masked Diffusion Models

Die Arbeit stellt ProSeCo vor, einen neuartigen Rahmen für selbstkorrigierende Masked Diffusion Models, der durch iterative Korrektur bereits generierter Tokens die Sample-Qualität verbessert und gleichzeitig die Sampling-Effizienz steigert.

Yair Schiff, Omer Belhasin, Roy Uziel + 5 more2026-03-06💻 cs

QTabGAN: A Hybrid Quantum-Classical GAN for Tabular Data Synthesis

Die Studie stellt QTabGAN vor, ein hybrides quanten-klassisches GAN-Modell zur Synthese realistischer tabellarischer Daten, das durch den Einsatz von Quantenschaltungen komplexe Verteilungen erfasst und in verschiedenen Klassifikations- und Regressionsaufgaben signifikante Verbesserungen gegenüber bestehenden Methoden erzielt.

Subhangi Kumari, Rakesh Achutha, Vignesh Sivaraman2026-03-06⚛️ quant-ph

Out-of-Support Generalisation via Weight-Space Sequence Modelling

Die Arbeit stellt WeightCaster vor, ein effizientes Framework, das das Problem der Generalisierung außerhalb des Trainingsbereichs durch eine Umformulierung als Sequenzmodellierung im Gewichtsraum löst und dabei realistische, interpretierbare und unsicherheitsbewusste Vorhersagen ohne explizite induktive Biases ermöglicht.

Roussel Desmond Nzoyem2026-03-06💻 cs

Neural Network-Based Parameter Estimation of a Labour Market Agent-Based Model

Diese Studie zeigt, dass ein neuronales Netzwerk-basiertes Simulationsinferenz-Verfahren die Parameterschätzung für ein arbeitsmarktliches Agenten-basiertes Modell effizienter und genauer durchführt als traditionelle bayessche Methoden, indem es sowohl manuell abgeleitete als auch vom Netzwerk erlernte Zusammenfassungsstatistiken nutzt.

M Lopes Alves, Joel Dyer, Doyne Farmer + 2 more2026-03-06💻 cs

Optimal training-conditional regret for online conformal prediction

Diese Arbeit stellt Algorithmen für das Online-Konformale Vorhersagen bei nicht-stationären Datenströmen vor, die durch Drifterkennung adaptiv Kalibrierungsdaten aktualisieren und damit minimax-optimale trainingsbedingte Regret-Garantien für abrupte Änderungen sowie glatte Drifts erreichen.

Jiadong Liang, Zhimei Ren, Yuxin Chen2026-03-06🔢 math

SubQuad: Near-Quadratic-Free Structure Inference with Distribution-Balanced Objectives in Adaptive Receptor framework

SubQuad ist ein skalierbares, end-to-end Pipeline-System, das durch die Kombination von MinHash-Vorfilterung, GPU-beschleunigten Affinitätskernen und fairheitsorientierten Clustering-Zielen die nahezu quadratischen Kosten der Paarvergleichsanalyse adaptiver Immunrepertoires reduziert und gleichzeitig Verzerrungen gegenüber seltenen Klontypen ausgleicht.

Rong Fu, Zijian Zhang, Kun Liu + 3 more2026-03-06💻 cs

Curriculum Learning for Efficient Chain-of-Thought Distillation via Structure-Aware Masking and GRPO

Diese Arbeit stellt einen dreistufigen Curriculum-Learning-Ansatz vor, der durch strukturbewusstes Maskieren und GRPO-Optimierung die effiziente Distillation von Chain-of-Thought-Reasoning in kompakte Modelle ermöglicht, was zu einer signifikanten Genauigkeitssteigerung und einer Verkürzung der Ausgabe führt.

Bowen Yu, Maolin Wang, Sheng Zhang + 7 more2026-03-06💻 cs

CityGuard: Graph-Aware Private Descriptors for Bias-Resilient Identity Search Across Urban Cameras

CityGuard ist ein dezentrales, graphenbewusstes Transformer-Framework, das durch die Kombination von dispersionsadaptivem Metrik-Lernen, räumlich konditionierter Aufmerksamkeit und differenziell privaten Einbettungen eine robuste und datenschutzkonforme Personenwiederverkennung über städtische Kameras hinweg ermöglicht.

Rong Fu, Yibo Meng, Jia Yee Tan + 5 more2026-03-06💻 cs

RA-QA: A Benchmarking System for Respiratory Audio Question Answering Under Real-World Heterogeneity

Die Studie stellt RA-QA vor, ein umfassendes Benchmark-System mit einem standardisierten Datenpipeline und multimodalen Frage-Antwort-Paaren, das die Leistungsfähigkeit bestehender KI-Modelle bei der Analyse von Atemgeräuschen unter realen, heterogenen Bedingungen evaluiert und deren Grenzen aufzeigt.

Gaia A. Bertolino, Yuwei Zhang, Tong Xia + 2 more2026-03-06💻 cs

cc-Shapley: Measuring Multivariate Feature Importance Needs Causal Context

Die Arbeit stellt cc-Shapley vor, eine kausal kontextualisierte Erweiterung der Shapley-Werte, die durch die Einbeziehung von Kausalwissen verzerrte Feature-Importanzen aufgrund von Kollider-Bias und Unterdrückungseffekten korrigiert und so verlässlichere Erklärungen für maschinelle Lernmodelle ermöglicht.

Jörg Martin, Stefan Haufe2026-03-06💻 cs

On Imbalanced Regression with Hoeffding Trees

Diese Arbeit erweitert Kernel-Dichteschätzung und hierarchische Schrumpfung für Hoeffding-Bäume im Kontext von Regression mit unausgewogenen Datenströmen und zeigt, dass die Kernel-Dichteschätzung die Frühphasen-Leistung verbessert, während die hierarchische Schrumpfung nur begrenzte Vorteile bietet.

Pantia-Marina Alchirch, Dimitrios I. Diochnos2026-03-06💻 cs

← Zurück Weiter →