Feature Resemblance: On the Theoretical Understanding of Analogical Reasoning in Transformers

Die Arbeit zeigt theoretisch und experimentell, dass Analogieschluss in Transformern durch das Erlernen einer gemeinsamen Repräsentationsgeometrie für ähnliche Entitäten ermöglicht wird, wobei eine sequenzielle Trainingsreihenfolge von Ähnlichkeits- zu Attributwissen sowie das explizite Vorhandensein von Identitätsbrücken für mehrstufiges Schlussfolgern entscheidend sind.

Ruichen Xu, Wenjing Yan, Ying-Jun Angela Zhang2026-03-06🤖 cs.LG

Balancing Privacy-Quality-Efficiency in Federated Learning through Round-Based Interleaving of Protection Techniques

Die Arbeit stellt Alt-FL vor, ein privatsphäreschützendes Framework für Federated Learning, das durch eine neuartige rundenbasierte Verflechtung von Differential Privacy, Homomorpher Verschlüsselung und synthetischen Daten einen flexiblen Ausgleich zwischen Privatsphäre, Lernqualität und Effizienz ermöglicht.

Yenan Wang, Carla Fabiana Chiasserini, Elad Michael Schiller2026-03-06🤖 cs.LG

Towards a data-scale independent regulariser for robust sparse identification of non-linear dynamics

Die vorgestellte Arbeit führt den sequentiellen Schwellenwert für den Variationskoeffizienten (STCV) ein, einen neuen, datenskalingunabhängigen Regularisierer, der die robuste und zuverlässige Identifikation sparser nichtlinearer Dynamikgesetze aus normalisierten, verrauschten Daten ermöglicht und damit die Schwächen herkömmlicher SINDy-Methoden überwindet.

Jay Raut, Daniel N. Wilke, Stephan Schmidt2026-03-06🤖 cs.LG

Balancing Coverage and Draft Latency in Vocabulary Trimming for Faster Speculative Decoding

Die vorgestellte Arbeit optimiert die Effizienz des spekulativen Dekodierens bei Large Language Models, indem sie die Vokabulargröße von Draft-Modellen durch ein constrained-Optimierungsverfahren reduziert, das eine Balance zwischen der Abdeckung notwendiger Token und der Latenz herstellt, was insbesondere bei domänenspezifischen Aufgaben zu signifikanten Geschwindigkeitssteigerungen führt.

Ofir Ben Shoham2026-03-06🤖 cs.AI

Learning Optimal Individualized Decision Rules with Conditional Demographic Parity

Diese Arbeit stellt einen neuartigen Rahmen vor, der demografische Parität und bedingte demografische Parität durch effiziente Störungen der unbeschränkten optimalen individuellen Entscheidungsregeln in die Schätzung einbindet, um diskriminierende Effekte zu vermeiden, wobei die theoretische Konvergenz und praktische Wirksamkeit durch Simulationen und eine Anwendung auf das Oregon-Gesundheitsversicherungs-Experiment nachgewiesen werden.

Wenhai Cui, Wen Su, Donglin Zeng + 1 more2026-03-06🤖 cs.LG

The Geometric Inductive Bias of Grokking: Bypassing Phase Transitions via Architectural Topology

Die Studie zeigt durch interventive Architekturmodifikationen, dass die Beseitigung unbeschränkter Darstellungsmagnituden und datenabhängiger Attention-Routing-Mechanismen in Transformer-Modellen den Grokking-Effekt bei modularen Additionen vollständig überwindet, während diese Beschleunigung bei nicht-kommutativen Aufgaben wie der S5-Perposition ausbleibt, was auf eine entscheidende Abhängigkeit der Trainingsdynamik von der geometrischen Ausrichtung der Architekturprioritäten mit den intrinsischen Symmetrien der Aufgabe hindeutet.

Alper Yıldırım2026-03-06🤖 cs.AI

Beyond Word Error Rate: Auditing the Diversity Tax in Speech Recognition through Dataset Cartography

Diese Arbeit kritisiert die ausschließliche Verwendung der Wortfehlerrate (WER) zur Bewertung von Spracherkennungssystemen und führt mit dem Sample Difficulty Index (SDI) sowie semantischen Metriken einen neuen Audit-Rahmen ein, um die systematischen Nachteile für marginalisierte Sprecher („Diversity Tax") zu quantifizieren und zu mindern.

Ting-Hui Cheng, Line H. Clemmensen, Sneha Das2026-03-06🤖 cs.LG