cs.LG Arbeiten | Gist.Science

The Geometric Inductive Bias of Grokking: Bypassing Phase Transitions via Architectural Topology

Die Studie zeigt durch interventive Architekturmodifikationen, dass die Beseitigung unbeschränkter Darstellungsmagnituden und datenabhängiger Attention-Routing-Mechanismen in Transformer-Modellen den Grokking-Effekt bei modularen Additionen vollständig überwindet, während diese Beschleunigung bei nicht-kommutativen Aufgaben wie der S5-Perposition ausbleibt, was auf eine entscheidende Abhängigkeit der Trainingsdynamik von der geometrischen Ausrichtung der Architekturprioritäten mit den intrinsischen Symmetrien der Aufgabe hindeutet.

Alper Yıldırım2026-03-06🤖 cs.AI

Boosting ASR Robustness via Test-Time Reinforcement Learning with Audio-Text Semantic Rewards

Die Arbeit stellt ASR-TRA vor, ein Testzeit-Reinforcement-Learning-Framework, das durch kausale Interventionen, stochastische Dekodierung und semantische Audio-Text-Belohnungen die Robustheit von Spracherkennungssystemen gegenüber Rauschen und Akzenten verbessert, ohne auf Ground-Truth-Labels angewiesen zu sein.

Linghan Fang, Tianxin Xie, Li Liu2026-03-06🤖 cs.AI

SlideSparse: Fast and Flexible (2N-2):2N Structured Sparsity

SlideSparse ist ein System, das erstmals die NVIDIA-Sparse-Tensor-Cores auf handelsüblichen GPUs nutzt, um durch eine innovative Fensterzerlegung und Aktivierungsmanipulation die präzisionsbewahrende $(2N-2):2N$ -Struktursparsity (z. B. 6:8) für LLMs zu beschleunigen und dabei eine Geschwindigkeitssteigerung von bis zu 1,33x zu erreichen.

Hanyong Shao, Yingbo Hao, Ting Song + 10 more2026-03-06🤖 cs.LG

Recursive Inference Machines for Neural Reasoning

Die vorgestellte Arbeit führt Recursive Inference Machines (RIMs) ein, ein neuronales Reasoning-Framework, das klassische Inferenzmechanismen mit neuronalen Backbones verbindet, um durch eine Gewichtungskomponente die Leistung von Tiny Recursive Models (TRMs) auf anspruchsvollen Reasoning- und Klassifikationsaufgaben signifikant zu verbessern.

Mieszko Komisarczyk, Saurabh Mathur, Maurice Kraus + 2 more2026-03-06🤖 cs.AI

A Behaviour-Aware Federated Forecasting Framework for Distributed Stand-Alone Wind Turbines

Die Studie stellt ein zweistufiges, datenschutzfreundliches Framework vor, das Windturbinen mittels eines verhaltensbasierten Clustering-Algorithmus (DRS) gruppiert und darauf aufbauend lokale LSTM-Modelle per Federated Learning trainiert, um die Kurzzeitprognose von Windenergie bei heterogenen, dezentralen Anlagen zu verbessern.

Bowen Li, Xiufeng Liu, Maria Sinziiana Astefanoaei2026-03-06🤖 cs.LG

Beyond Word Error Rate: Auditing the Diversity Tax in Speech Recognition through Dataset Cartography

Diese Arbeit kritisiert die ausschließliche Verwendung der Wortfehlerrate (WER) zur Bewertung von Spracherkennungssystemen und führt mit dem Sample Difficulty Index (SDI) sowie semantischen Metriken einen neuen Audit-Rahmen ein, um die systematischen Nachteile für marginalisierte Sprecher („Diversity Tax") zu quantifizieren und zu mindern.

Ting-Hui Cheng, Line H. Clemmensen, Sneha Das2026-03-06🤖 cs.LG

Whispering to a Blackbox: Bootstrapping Frozen OCR with Visual Prompts

Diese Arbeit stellt „Whisperer" vor, ein neuartiges visuelles Prompting-Framework, das durch einen vierstufigen Curriculum-Lernansatz und Verhaltensklonierung stochastisch gefundene Verbesserungen nutzt, um eingefrorene OCR-Modelle wie EasyOCR durch pixelbasierte Eingabeoptimierung ohne Gewichtsänderung signifikant zu verbessern.

Samandar Samandarov, Nazirjon Ismoiljonov, Abdullah Sattorov + 1 more2026-03-06🤖 cs.AI

Layer by layer, module by module: Choose both for optimal OOD probing of ViT

Diese Studie zeigt, dass für das optimale Out-of-Distribution-Probing von Vision-Transformern je nach Stärke der Verteilungsverschiebung entweder die Aktivierungen des Feedforward-Netzwerks oder die normalisierten Ausgaben des Multi-Head-Self-Attention-Moduls verwendet werden sollten, um die Leistungstiefs tieferer Schichten zu überwinden.

Ambroise Odonnat, Vasilii Feofanov, Laetitia Chapel + 2 more2026-03-06🤖 cs.LG

Bayesian Supervised Causal Clustering

Der Artikel stellt die Bayesian Supervised Causal Clustering (BSCC)-Methode vor, die mithilfe von Behandlungseffekten als Zielvariable homogene Patientengruppen identifiziert, um personalisierte Entscheidungen im Gesundheitswesen und in der Politikbewertung zu unterstützen, und validiert diesen Ansatz sowohl an simulierten als auch an realen Daten aus dem dritten International Stroke Trial.

Luwei Wang, Nazir Lone, Sohan Seth2026-03-06🤖 cs.LG

Knowledge Divergence and the Value of Debate for Scalable Oversight

Diese Arbeit stellt den ersten formalen Zusammenhang zwischen KI-Debatte und RLAIF her, indem sie den Vorteil von Debatten durch die geometrische Divergenz des Wissens zwischen Modellen quantifiziert und zeigt, dass Debatten bei komplementärem Wissen entscheidend sind, während sie bei identischem Training auf RLAIF reduziert werden.

Robin Young2026-03-06🤖 cs.LG

Latent Policy Steering through One-Step Flow Policies

Die Arbeit stellt Latent Policy Steering (LPS) vor, eine Methode für das Offline-Reinforcement-Learning, die durch die direkte Rückpropagation von Q-Gradienten aus dem Original-Aktionsraum über eine differenzierbare One-Step-MeanFlow-Politik eine robuste und hyperparameterunabhängige Verbesserung von Latent-Policies ermöglicht und dabei den Datensatz-Support strikt wahrt.

Hokyun Im, Andrey Kolobov, Jianlong Fu + 1 more2026-03-06🤖 cs.LG

WavSLM: Single-Stream Speech Language Modeling via WavLM Distillation

Die Arbeit stellt WavSLM vor, ein einfaches, single-stream Sprachmodell, das durch Quantisierung und Distillation von WavLM-Repräsentationen semantische und akustische Informationen ohne Textsupervision in einem einzigen Token-Stream modelliert und dabei wettbewerbsfähige Ergebnisse bei geringerer Komplexität erzielt.

Luca Della Libera, Cem Subakan, Mirco Ravanelli2026-03-06🤖 cs.AI

How important are the genes to explain the outcome - the asymmetric Shapley value as an honest importance metric for high-dimensional features

Die Autoren schlagen asymmetrische Shapley-Werte als ehrliches Maß zur Bewertung der Bedeutung genomischer Merkmale in klinischen Vorhersagemodellen vor, um die Probleme von Kollinearität und bekannten Kausalrichtungen zu adressieren, und stellen effiziente Algorithmen für lokale und globale Analysen vor, die am Beispiel der Progressions-freien Überlebenszeit bei Darmkrebspatienten veranschaulicht werden.

Mark A. van de Wiel, Jeroen Goedhart, Martin Jullum + 1 more2026-03-06🤖 cs.LG

GALACTIC: Global and Local Agnostic Counterfactuals for Time-series Clustering

Die Arbeit stellt GALACTIC vor, ein einheitliches Framework, das erstmals lokale und globale kontrafaktische Erklärungen für das unüberwachte Clustering von Zeitreihen vereint, indem es instanzspezifische Störungen generiert und durch ein supermodulares MDL-Optimierungsverfahren eine kompakte, nicht-redundante globale Zusammenfassung der Clusterübergänge liefert.

Christos Fragkathoulas, Eleni Psaroudaki, Themis Palpanas + 1 more2026-03-06🤖 cs.AI

FairFinGAN: Fairness-aware Synthetic Financial Data Generation

Die Arbeit stellt FairFinGAN vor, ein auf WGAN basierendes Framework zur Erzeugung fairer synthetischer Finanzdaten, das durch direkte Integration von Fairness-Bedingungen in den Trainingsprozess Verzerrungen bezüglich geschützter Attribute reduziert, ohne die Nützlichkeit der Daten für nachgelagerte Aufgaben signifikant zu beeinträchtigen.

Tai Le Quy, Dung Nguyen Tuan, Trung Nguyen Thanh + 3 more2026-03-06🤖 cs.LG

Bayes with No Shame: Admissibility Geometries of Predictive Inference

Diese Arbeit zeigt, dass die Admissibilität in der prädiktiven Inferenz irreduzibel kriterienrelativ ist, indem sie vier paarweise nicht-nested Admissibilitätsgeometrien identifiziert, die jeweils durch unterschiedliche Zertifikate der Optimalität und inkompatible Optimierungsrahmen charakterisiert werden.

Nicholas G. Polson, Daniel Zantedeschi2026-03-06🔢 math

On the Statistical Optimality of Optimal Decision Trees

Diese Arbeit entwickelt eine umfassende statistische Theorie für empirische Risikominimierungs-Entscheidungsbäume, die durch scharfe Oracle-Ungleichungen und minimax-optimale Raten über neuartige Funktionenklassen die statistische Optimalität und den Kompromiss zwischen Interpretierbarkeit und Genauigkeit unter verschiedenen Rauschbedingungen rigoros begründet.

Zineng Xu, Subhroshekhar Ghosh, Yan Shuo Tan2026-03-06🔢 math

Preserving Continuous Symmetry in Discrete Spaces: Geometric-Aware Quantization for SO(3)-Equivariant GNNs

Diese Arbeit stellt den Geometric-Aware Quantization (GAQ)-Framework vor, der durch eine magnituden- und richtungsentkoppelte Quantisierung sowie symmetriebewusste Trainingsstrategien SO(3)-äquivariante Graph Neural Networks komprimiert, ohne deren kontinuierliche Symmetrie zu verletzen, und damit auf Consumer-Hardware eine signifikante Beschleunigung bei gleichzeitiger Erhaltung der physikalischen Konsistenz für molekulare Simulationen ermöglicht.

Haoyu Zhou, Ping Xue, Hao Zhang + 1 more2026-03-06🤖 cs.LG

InfoFlow KV: Information-Flow-Aware KV Recomputation for Long Context

Der vorgestellte Ansatz „InfoFlow KV" überwindet die Engpässe bei der Inferenz für lange Kontexte in RAG-Systemen, indem er die selektive KV-Neuberechnung als Informationsflussproblem formuliert und mithilfe eines Aufmerksamkeits-Norm-Signals sowie einer kontextsensitiven Chunk-Neuordnung effizient die für die Generierung relevanten Token identifiziert.

Xin Teng, Canyu Zhang, Shaoyi Zheng + 3 more2026-03-06🤖 cs.LG

Learning Causal Structure of Time Series using Best Order Score Search

Die Arbeit stellt TS-BOSS vor, einen skalierbaren, score-basierten Algorithmus zur Entdeckung kausaler Strukturen in multivariaten Zeitreihen, der durch die Erweiterung der BOSS-Methode mit dynamischen Bayesianischen Netzwerken und Grow-Shrink-Bäumen eine hohe Effizienz und theoretische Fundierung bietet, insbesondere in Regimen mit starker Autokorrelation.

Irene Gema Castillo Mansilla, Urmi Ninad2026-03-06🤖 cs.AI

← Zurück Weiter →