cs.LG Arbeiten | Gist.Science

Decoupling Task and Behavior: A Two-Stage Reward Curriculum in Reinforcement Learning for Robotics

Die vorgestellte Arbeit schlägt ein zweistufiges Reward-Curriculum vor, das aufgabenbezogene Ziele von Verhaltensaspekten entkoppelt, um das Training von Robotern in der Deep Reinforcement Learning zu stabilisieren und effizienter zu gestalten, indem zunächst eine vereinfachte Belohnungsfunktion für die Exploration genutzt wird, bevor zusätzliche Verhaltenskriterien wie Energieeffizienz eingeführt werden.

Kilian Freitag, Knut Åkesson, Morteza Haghir Chehreghani2026-03-06🤖 cs.LG

FedBCD:Communication-Efficient Accelerated Block Coordinate Gradient Descent for Federated Learning

Die Arbeit stellt FedBCGD und dessen beschleunigte Variante FedBCGD+ vor, die durch eine blockweise Kommunikation von Modellparametern in Federated Learning die Kommunikationskosten für große Modelle wie Vision Transformer signifikant senken und dabei eine schnellere Konvergenz als bestehende Methoden erreichen.

Junkang Liu, Fanhua Shang, Yuanyuan Liu + 3 more2026-03-06🤖 cs.AI

SRasP: Self-Reorientation Adversarial Style Perturbation for Cross-Domain Few-Shot Learning

Die Arbeit stellt SRasP vor, eine neuartige Methode zur Selbst-Neuausrichtung adversarialer Stilstörungen, die durch globale semantische Führung und eine multi-objektive Optimierung die Gradientenstabilität verbessert und robustere Lösungen für das Few-Shot-Lernen über Domänengrenzen hinweg ermöglicht.

Wenqian Li, Pengfei Fang, Hui Xue2026-03-06🤖 cs.LG

Particle-Guided Diffusion for Gas-Phase Reaction Kinetics

Diese Studie demonstriert, dass ein durch Diffusionsmodelle geleiteter Sampling-Ansatz, der auf Lösungen der Advektions-Reaktions-Diffusions-Gleichung trainiert wurde, physikalisch konsistente Konzentrationsfelder für Gasphasenreaktionen erzeugt und auch bei nicht gesehene Parametern genaue Vorhersagen der Austrittskonzentrationen ermöglicht.

Andrew Millard, Henrik Pedersen2026-03-06🔬 physics

Recurrent Graph Neural Networks and Arithmetic Circuits

Diese Arbeit stellt eine exakte Korrespondenz zwischen der Ausdruckskraft von rekurrenten Graph-Neuronalen Netzen und rekurrenten arithmetischen Schaltkreisen über den reellen Zahlen her, indem sie beide Modelle wechselseitig simulieren und somit ihre rechnerische Äquivalenz nachweist.

Timon Barlag, Vivian Holzapfel, Laura Strieker + 2 more2026-03-06🤖 cs.AI

Feature Resemblance: On the Theoretical Understanding of Analogical Reasoning in Transformers

Die Arbeit zeigt theoretisch und experimentell, dass Analogieschluss in Transformern durch das Erlernen einer gemeinsamen Repräsentationsgeometrie für ähnliche Entitäten ermöglicht wird, wobei eine sequenzielle Trainingsreihenfolge von Ähnlichkeits- zu Attributwissen sowie das explizite Vorhandensein von Identitätsbrücken für mehrstufiges Schlussfolgern entscheidend sind.

Ruichen Xu, Wenjing Yan, Ying-Jun Angela Zhang2026-03-06🤖 cs.LG

Federated Causal Discovery Across Heterogeneous Datasets under Latent Confounding

Die Studie stellt fedCI und fedCI-IOD vor, eine neue Methode für die federierte kausale Entdeckung, die es ermöglicht, unter Berücksichtigung von Datenschutz, heterogenen Variablen und latenten Störfaktoren kausale Zusammenhänge über verteilte Datensätze hinweg zu identifizieren, ohne diese zentralisieren zu müssen.

Maximilian Hahn, Alina Zajak, Dominik Heider + 1 more2026-03-06🤖 cs.AI

The Impact of Preprocessing Methods on Racial Encoding and Model Robustness in CXR Diagnosis

Die Studie zeigt, dass eine einfache Lungenzuschneidung durch Begrenzungsrahmen ein wirksames Mittel ist, um das Erlernen rassistischer Kurzschlüsse in KI-Modellen für Röntgenbilder zu reduzieren, ohne dabei die diagnostische Genauigkeit zu beeinträchtigen.

Dishantkumar Sutariya, Eike Petersen2026-03-06🤖 cs.LG

Balancing Privacy-Quality-Efficiency in Federated Learning through Round-Based Interleaving of Protection Techniques

Die Arbeit stellt Alt-FL vor, ein privatsphäreschützendes Framework für Federated Learning, das durch eine neuartige rundenbasierte Verflechtung von Differential Privacy, Homomorpher Verschlüsselung und synthetischen Daten einen flexiblen Ausgleich zwischen Privatsphäre, Lernqualität und Effizienz ermöglicht.

Yenan Wang, Carla Fabiana Chiasserini, Elad Michael Schiller2026-03-06🤖 cs.LG

A Geometry-Adaptive Deep Variational Framework for Phase Discovery in the Landau-Brazovskii Model

Die Arbeit stellt GeoDVF vor, ein geometrieadaptives tiefes variationsbasiertes Framework, das durch die gemeinsame Optimierung von Ordnungsparametern und Domänengeometrie künstliche Spannungen eliminiert und die robuste Entdeckung stabiler sowie metastabiler Phasen im Landau-Brazovskii-Modell ermöglicht.

Yuchen Xie, Jianyuan Yin, Lei Zhang2026-03-06🔬 cond-mat.mtrl-sci

Trainable Bitwise Soft Quantization for Input Feature Compression

Die Autoren stellen eine trainierbare Bitweise-Soft-Quantisierungsschicht vor, die Eingangsmerkmale von neuronalen Netzen effizient komprimiert, um die Datenübertragung von Edge-Geräten zu reduzieren und dabei bei hohen Kompressionsfaktoren von 5- bis 16-fach die Genauigkeit im Vergleich zu Vollpräzisionsmodellen weitgehend zu erhalten.

Karsten Schrödter, Jan Stenkamp, Nina Herrmann + 1 more2026-03-06🤖 cs.LG

Incentive Aware AI Regulations: A Credal Characterisation

Die Arbeit stellt einen regulatorischen Rahmen vor, der KI-Regulierung als Mechanismusdesign unter Unsicherheit formuliert und beweist, dass eine perfekte Marktordnung erreicht wird, wenn die Menge der nicht konformen Verteilungen eine glaubhafte Menge (Credal Set) bildet.

Anurag Singh, Julian Rodemann, Rajeev Verma + 2 more2026-03-06🤖 cs.LG

Towards a data-scale independent regulariser for robust sparse identification of non-linear dynamics

Die vorgestellte Arbeit führt den sequentiellen Schwellenwert für den Variationskoeffizienten (STCV) ein, einen neuen, datenskalingunabhängigen Regularisierer, der die robuste und zuverlässige Identifikation sparser nichtlinearer Dynamikgesetze aus normalisierten, verrauschten Daten ermöglicht und damit die Schwächen herkömmlicher SINDy-Methoden überwindet.

Jay Raut, Daniel N. Wilke, Stephan Schmidt2026-03-06🤖 cs.LG

Stable-LoRA: Stabilizing Feature Learning of Low-Rank Adaptation

Die Arbeit stellt Stable-LoRA vor, eine Methode zur dynamischen Gewichtsverkleinerung, die die Stabilität des Feature-Learnings bei der Low-Rank-Adaptation (LoRA) verbessert und dabei deren theoretische Grenzen überwindet, ohne zusätzlichen Speicherbedarf oder nennenswerten Rechenaufwand zu verursachen.

Yize Wu, Ke Gao, Ling Li + 1 more2026-03-06🤖 cs.AI

Balancing Coverage and Draft Latency in Vocabulary Trimming for Faster Speculative Decoding

Die vorgestellte Arbeit optimiert die Effizienz des spekulativen Dekodierens bei Large Language Models, indem sie die Vokabulargröße von Draft-Modellen durch ein constrained-Optimierungsverfahren reduziert, das eine Balance zwischen der Abdeckung notwendiger Token und der Latenz herstellt, was insbesondere bei domänenspezifischen Aufgaben zu signifikanten Geschwindigkeitssteigerungen führt.

Ofir Ben Shoham2026-03-06🤖 cs.AI

Early Warning of Intraoperative Adverse Events via Transformer-Driven Multi-Label Learning

Die Studie stellt das erste Multi-Label-Datenset für intraoperative Adverse Events vor und entwickelt IAENet, einen Transformer-basierten Rahmen mit neuartigen Modulen zur Fusion heterogener Daten und zum Ausgleich von Klassenungleichgewichten, der die Vorhersagegenauigkeit für kritische intraoperative Ereignisse signifikant verbessert.

Xueyao Wang, Xiuding Cai, Honglin Shang + 2 more2026-03-06🤖 cs.AI

KARL: Knowledge Agents via Reinforcement Learning

Das Paper stellt KARL vor, ein System, das durch eine neue iterative Reinforcement-Learning-Paradigme und eine synthetische Trainingspipeline auf dem umfassenden KARLBench-Testset state-of-the-art-Ergebnisse bei unternehmensinternen Suchaufgaben erzielt und dabei geschlossene Modelle wie Claude 4.6 sowie GPT 5.2 in Bezug auf Kosten, Latenz und Qualität übertrifft.

Jonathan D. Chang, Andrew Drozdov, Shubham Toshniwal + 23 more2026-03-06🤖 cs.AI

Learning Optimal Individualized Decision Rules with Conditional Demographic Parity

Diese Arbeit stellt einen neuartigen Rahmen vor, der demografische Parität und bedingte demografische Parität durch effiziente Störungen der unbeschränkten optimalen individuellen Entscheidungsregeln in die Schätzung einbindet, um diskriminierende Effekte zu vermeiden, wobei die theoretische Konvergenz und praktische Wirksamkeit durch Simulationen und eine Anwendung auf das Oregon-Gesundheitsversicherungs-Experiment nachgewiesen werden.

Wenhai Cui, Wen Su, Donglin Zeng + 1 more2026-03-06🤖 cs.LG

The Geometric Inductive Bias of Grokking: Bypassing Phase Transitions via Architectural Topology

Die Studie zeigt durch interventive Architekturmodifikationen, dass die Beseitigung unbeschränkter Darstellungsmagnituden und datenabhängiger Attention-Routing-Mechanismen in Transformer-Modellen den Grokking-Effekt bei modularen Additionen vollständig überwindet, während diese Beschleunigung bei nicht-kommutativen Aufgaben wie der S5-Perposition ausbleibt, was auf eine entscheidende Abhängigkeit der Trainingsdynamik von der geometrischen Ausrichtung der Architekturprioritäten mit den intrinsischen Symmetrien der Aufgabe hindeutet.

Alper Yıldırım2026-03-06🤖 cs.AI

Boosting ASR Robustness via Test-Time Reinforcement Learning with Audio-Text Semantic Rewards

Die Arbeit stellt ASR-TRA vor, ein Testzeit-Reinforcement-Learning-Framework, das durch kausale Interventionen, stochastische Dekodierung und semantische Audio-Text-Belohnungen die Robustheit von Spracherkennungssystemen gegenüber Rauschen und Akzenten verbessert, ohne auf Ground-Truth-Labels angewiesen zu sein.

Linghan Fang, Tianxin Xie, Li Liu2026-03-06🤖 cs.AI

← Zurück Weiter →