cs.LG Arbeiten | Gist.Science

Recurrent Graph Neural Networks and Arithmetic Circuits

Diese Arbeit stellt eine exakte Korrespondenz zwischen der Ausdruckskraft von rekurrenten Graph-Neuronalen Netzen und rekurrenten arithmetischen Schaltkreisen über den reellen Zahlen her, indem sie beide Modelle wechselseitig simulieren und somit ihre rechnerische Äquivalenz nachweist.

Timon Barlag, Vivian Holzapfel, Laura Strieker + 2 more2026-03-06🤖 cs.AI

Feature Resemblance: On the Theoretical Understanding of Analogical Reasoning in Transformers

Die Arbeit zeigt theoretisch und experimentell, dass Analogieschluss in Transformern durch das Erlernen einer gemeinsamen Repräsentationsgeometrie für ähnliche Entitäten ermöglicht wird, wobei eine sequenzielle Trainingsreihenfolge von Ähnlichkeits- zu Attributwissen sowie das explizite Vorhandensein von Identitätsbrücken für mehrstufiges Schlussfolgern entscheidend sind.

Ruichen Xu, Wenjing Yan, Ying-Jun Angela Zhang2026-03-06🤖 cs.LG

Federated Causal Discovery Across Heterogeneous Datasets under Latent Confounding

Die Studie stellt fedCI und fedCI-IOD vor, eine neue Methode für die federierte kausale Entdeckung, die es ermöglicht, unter Berücksichtigung von Datenschutz, heterogenen Variablen und latenten Störfaktoren kausale Zusammenhänge über verteilte Datensätze hinweg zu identifizieren, ohne diese zentralisieren zu müssen.

Maximilian Hahn, Alina Zajak, Dominik Heider + 1 more2026-03-06🤖 cs.AI

The Impact of Preprocessing Methods on Racial Encoding and Model Robustness in CXR Diagnosis

Die Studie zeigt, dass eine einfache Lungenzuschneidung durch Begrenzungsrahmen ein wirksames Mittel ist, um das Erlernen rassistischer Kurzschlüsse in KI-Modellen für Röntgenbilder zu reduzieren, ohne dabei die diagnostische Genauigkeit zu beeinträchtigen.

Dishantkumar Sutariya, Eike Petersen2026-03-06🤖 cs.LG

Balancing Privacy-Quality-Efficiency in Federated Learning through Round-Based Interleaving of Protection Techniques

Die Arbeit stellt Alt-FL vor, ein privatsphäreschützendes Framework für Federated Learning, das durch eine neuartige rundenbasierte Verflechtung von Differential Privacy, Homomorpher Verschlüsselung und synthetischen Daten einen flexiblen Ausgleich zwischen Privatsphäre, Lernqualität und Effizienz ermöglicht.

Yenan Wang, Carla Fabiana Chiasserini, Elad Michael Schiller2026-03-06🤖 cs.LG

A Geometry-Adaptive Deep Variational Framework for Phase Discovery in the Landau-Brazovskii Model

Die Arbeit stellt GeoDVF vor, ein geometrieadaptives tiefes variationsbasiertes Framework, das durch die gemeinsame Optimierung von Ordnungsparametern und Domänengeometrie künstliche Spannungen eliminiert und die robuste Entdeckung stabiler sowie metastabiler Phasen im Landau-Brazovskii-Modell ermöglicht.

Yuchen Xie, Jianyuan Yin, Lei Zhang2026-03-06🔬 cond-mat.mtrl-sci

Trainable Bitwise Soft Quantization for Input Feature Compression

Die Autoren stellen eine trainierbare Bitweise-Soft-Quantisierungsschicht vor, die Eingangsmerkmale von neuronalen Netzen effizient komprimiert, um die Datenübertragung von Edge-Geräten zu reduzieren und dabei bei hohen Kompressionsfaktoren von 5- bis 16-fach die Genauigkeit im Vergleich zu Vollpräzisionsmodellen weitgehend zu erhalten.

Karsten Schrödter, Jan Stenkamp, Nina Herrmann + 1 more2026-03-06🤖 cs.LG

Incentive Aware AI Regulations: A Credal Characterisation

Die Arbeit stellt einen regulatorischen Rahmen vor, der KI-Regulierung als Mechanismusdesign unter Unsicherheit formuliert und beweist, dass eine perfekte Marktordnung erreicht wird, wenn die Menge der nicht konformen Verteilungen eine glaubhafte Menge (Credal Set) bildet.

Anurag Singh, Julian Rodemann, Rajeev Verma + 2 more2026-03-06🤖 cs.LG

Towards a data-scale independent regulariser for robust sparse identification of non-linear dynamics

Die vorgestellte Arbeit führt den sequentiellen Schwellenwert für den Variationskoeffizienten (STCV) ein, einen neuen, datenskalingunabhängigen Regularisierer, der die robuste und zuverlässige Identifikation sparser nichtlinearer Dynamikgesetze aus normalisierten, verrauschten Daten ermöglicht und damit die Schwächen herkömmlicher SINDy-Methoden überwindet.

Jay Raut, Daniel N. Wilke, Stephan Schmidt2026-03-06🤖 cs.LG

Stable-LoRA: Stabilizing Feature Learning of Low-Rank Adaptation

Die Arbeit stellt Stable-LoRA vor, eine Methode zur dynamischen Gewichtsverkleinerung, die die Stabilität des Feature-Learnings bei der Low-Rank-Adaptation (LoRA) verbessert und dabei deren theoretische Grenzen überwindet, ohne zusätzlichen Speicherbedarf oder nennenswerten Rechenaufwand zu verursachen.

Yize Wu, Ke Gao, Ling Li + 1 more2026-03-06🤖 cs.AI

Balancing Coverage and Draft Latency in Vocabulary Trimming for Faster Speculative Decoding

Die vorgestellte Arbeit optimiert die Effizienz des spekulativen Dekodierens bei Large Language Models, indem sie die Vokabulargröße von Draft-Modellen durch ein constrained-Optimierungsverfahren reduziert, das eine Balance zwischen der Abdeckung notwendiger Token und der Latenz herstellt, was insbesondere bei domänenspezifischen Aufgaben zu signifikanten Geschwindigkeitssteigerungen führt.

Ofir Ben Shoham2026-03-06🤖 cs.AI

Early Warning of Intraoperative Adverse Events via Transformer-Driven Multi-Label Learning

Die Studie stellt das erste Multi-Label-Datenset für intraoperative Adverse Events vor und entwickelt IAENet, einen Transformer-basierten Rahmen mit neuartigen Modulen zur Fusion heterogener Daten und zum Ausgleich von Klassenungleichgewichten, der die Vorhersagegenauigkeit für kritische intraoperative Ereignisse signifikant verbessert.

Xueyao Wang, Xiuding Cai, Honglin Shang + 2 more2026-03-06🤖 cs.AI

KARL: Knowledge Agents via Reinforcement Learning

Das Paper stellt KARL vor, ein System, das durch eine neue iterative Reinforcement-Learning-Paradigme und eine synthetische Trainingspipeline auf dem umfassenden KARLBench-Testset state-of-the-art-Ergebnisse bei unternehmensinternen Suchaufgaben erzielt und dabei geschlossene Modelle wie Claude 4.6 sowie GPT 5.2 in Bezug auf Kosten, Latenz und Qualität übertrifft.

Jonathan D. Chang, Andrew Drozdov, Shubham Toshniwal + 23 more2026-03-06🤖 cs.AI

Learning Optimal Individualized Decision Rules with Conditional Demographic Parity

Diese Arbeit stellt einen neuartigen Rahmen vor, der demografische Parität und bedingte demografische Parität durch effiziente Störungen der unbeschränkten optimalen individuellen Entscheidungsregeln in die Schätzung einbindet, um diskriminierende Effekte zu vermeiden, wobei die theoretische Konvergenz und praktische Wirksamkeit durch Simulationen und eine Anwendung auf das Oregon-Gesundheitsversicherungs-Experiment nachgewiesen werden.

Wenhai Cui, Wen Su, Donglin Zeng + 1 more2026-03-06🤖 cs.LG

The Geometric Inductive Bias of Grokking: Bypassing Phase Transitions via Architectural Topology

Die Studie zeigt durch interventive Architekturmodifikationen, dass die Beseitigung unbeschränkter Darstellungsmagnituden und datenabhängiger Attention-Routing-Mechanismen in Transformer-Modellen den Grokking-Effekt bei modularen Additionen vollständig überwindet, während diese Beschleunigung bei nicht-kommutativen Aufgaben wie der S5-Perposition ausbleibt, was auf eine entscheidende Abhängigkeit der Trainingsdynamik von der geometrischen Ausrichtung der Architekturprioritäten mit den intrinsischen Symmetrien der Aufgabe hindeutet.

Alper Yıldırım2026-03-06🤖 cs.AI

Boosting ASR Robustness via Test-Time Reinforcement Learning with Audio-Text Semantic Rewards

Die Arbeit stellt ASR-TRA vor, ein Testzeit-Reinforcement-Learning-Framework, das durch kausale Interventionen, stochastische Dekodierung und semantische Audio-Text-Belohnungen die Robustheit von Spracherkennungssystemen gegenüber Rauschen und Akzenten verbessert, ohne auf Ground-Truth-Labels angewiesen zu sein.

Linghan Fang, Tianxin Xie, Li Liu2026-03-06🤖 cs.AI

SlideSparse: Fast and Flexible (2N-2):2N Structured Sparsity

SlideSparse ist ein System, das erstmals die NVIDIA-Sparse-Tensor-Cores auf handelsüblichen GPUs nutzt, um durch eine innovative Fensterzerlegung und Aktivierungsmanipulation die präzisionsbewahrende $(2N-2):2N$ -Struktursparsity (z. B. 6:8) für LLMs zu beschleunigen und dabei eine Geschwindigkeitssteigerung von bis zu 1,33x zu erreichen.

Hanyong Shao, Yingbo Hao, Ting Song + 10 more2026-03-06🤖 cs.LG

Recursive Inference Machines for Neural Reasoning

Die vorgestellte Arbeit führt Recursive Inference Machines (RIMs) ein, ein neuronales Reasoning-Framework, das klassische Inferenzmechanismen mit neuronalen Backbones verbindet, um durch eine Gewichtungskomponente die Leistung von Tiny Recursive Models (TRMs) auf anspruchsvollen Reasoning- und Klassifikationsaufgaben signifikant zu verbessern.

Mieszko Komisarczyk, Saurabh Mathur, Maurice Kraus + 2 more2026-03-06🤖 cs.AI

A Behaviour-Aware Federated Forecasting Framework for Distributed Stand-Alone Wind Turbines

Die Studie stellt ein zweistufiges, datenschutzfreundliches Framework vor, das Windturbinen mittels eines verhaltensbasierten Clustering-Algorithmus (DRS) gruppiert und darauf aufbauend lokale LSTM-Modelle per Federated Learning trainiert, um die Kurzzeitprognose von Windenergie bei heterogenen, dezentralen Anlagen zu verbessern.

Bowen Li, Xiufeng Liu, Maria Sinziiana Astefanoaei2026-03-06🤖 cs.LG

Beyond Word Error Rate: Auditing the Diversity Tax in Speech Recognition through Dataset Cartography

Diese Arbeit kritisiert die ausschließliche Verwendung der Wortfehlerrate (WER) zur Bewertung von Spracherkennungssystemen und führt mit dem Sample Difficulty Index (SDI) sowie semantischen Metriken einen neuen Audit-Rahmen ein, um die systematischen Nachteile für marginalisierte Sprecher („Diversity Tax") zu quantifizieren und zu mindern.

Ting-Hui Cheng, Line H. Clemmensen, Sneha Das2026-03-06🤖 cs.LG

← Zurück Weiter →