cs.LG Arbeiten | Gist.Science

Parameter Stress Analysis in Reinforcement Learning: Applying Synaptic Filtering to Policy Networks

Diese Studie analysiert die Robustheit von Reinforcement-Learning-Policies, indem sie interne synaptische Filterung und externe adversarische Angriffe kombiniert, um Parameter als fragil, robust oder antifragil zu klassifizieren und damit die Grundlage für widerstandsfähigere RL-Systeme zu schaffen.

Zain ul Abdeen, Ming Jin2026-03-06💻 cs

MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining

Die Arbeit stellt MuRating vor, ein skalierbares Framework, das hochwertige englische Datenqualitätssignale nutzt, um einen einzigen multilingualen Bewertungsmechanismus für 17 Sprachen zu trainieren und dadurch die Leistung von 1,2-Milliarden-Parameter-LLMs sowohl in englischen als auch in multilingualen Benchmarks signifikant verbessert.

Zhixun Chen, Ping Guo, Wenhan Han + 10 more2026-03-06💻 cs

Overtone: Cyclic Patch Modulation for Clean, Efficient, and Flexible Physics Emulators

Die Arbeit stellt Overtone vor, einen effizienten und flexiblen PDE-Surrogat, der durch zyklische Modulation der Patch-Größe während der Inferenz systematische Fehlerakkumulation bei harmonischen Frequenzen reduziert und eine dynamische Anpassung von Genauigkeit und Rechenkosten ermöglicht.

Payel Mukhopadhyay, Michael McCabe, Ruben Ohana + 1 more2026-03-06💻 cs

Some Super-approximation Rates of ReLU Neural Networks for Korobov Functions

Diese Arbeit leitet nahezu optimale Super-Approximationsfehlerabschätzungen für ReLU-Neuronale Netze bei Korobov-Funktionen her, die zeigen, dass die Ausdrucksstärke neuronaler Netze durch den Fluch der Dimensionalität kaum beeinträchtigt wird.

Yuwen Li, Guozhi Zhang2026-03-06💻 cs

Kernel Based Maximum Entropy Inverse Reinforcement Learning for Mean-Field Games

Diese Arbeit stellt ein Maximum-Entropie-Inverse-Reinforcement-Learning-Verfahren für unendliche Horizont-Mittelwertspiele vor, das mittels reproduzierender Kern-Hilberträume nichtlineare Belohnungsfunktionen aus Expertendemonstrationen ableitet und sowohl für stationäre als auch nicht-stationäre Szenarien theoretisch fundierte Optimierungsalgorithmen bereitstellt.

Berkay Anahtarci, Can Deha Kariksiz, Naci Saldi2026-03-06🔢 math

Elucidating the Design Space of Arbitrary-Noise-Based Diffusion Models

Die Arbeit stellt EDA vor, ein einheitliches theoretisches Framework für Diffusionsmodelle mit beliebigem Rauschen, das die Einschränkungen von EDM überwindet, die Restaurationsdistanz minimiert und sich durch hohe Generalisierungsfähigkeit und Effizienz bei verschiedenen medizinischen und natürlichen Bildwiederherstellungsaufgaben bewährt.

Xingyu Qiu, Mengying Yang, Xinghua Ma + 6 more2026-03-06💻 cs

Structured quantum learning via em algorithm for Boltzmann machines

Die Autoren stellen einen quantenmechanischen EM-Algorithmus für Boltzmann-Maschinen vor, der das Problem der verschwindenden Gradienten umgeht und durch eine stabile, skalierbare Lernmethode auf hybriden Architekturen die Leistungsfähigkeit quantenbasiert generativer Modelle verbessert.

Takeshi Kimura, Kohtaro Kato, Masahito Hayashi2026-03-06⚛️ quant-ph

TIC-GRPO: Provable and Efficient Optimization for Reinforcement Learning from Human Feedback

Die Arbeit stellt TIC-GRPO vor, einen neuen, kritikerfreien Algorithmus für Reinforcement Learning aus menschlichem Feedback, der durch die Einführung von Trajektorien-basierten Wichtigkeitskorrekturen eine schnellere Konvergenz und bessere Leistung als das etablierte GRPO erreicht.

Lei Pang, Jun Luo, Ruinan Jin2026-03-06💻 cs

Honest and Reliable Evaluation and Expert Equivalence Testing of Automated Neonatal Seizure Detection

Diese Studie entwickelt einen ehrlichen und zuverlässigen Bewertungsrahmen für die automatisierte neonatale Krampferkennung, der durch die Analyse gängiger Metriken und die Einführung eines Multi-Rater-Turing-Tests mit Fleiss-Kappa die klinische Validierung von KI-Modellen sicherstellt.

Jovana Kljajic, John M. O'Toole, Robert Hogan + 1 more2026-03-06💻 cs

In-Training Defenses against Emergent Misalignment in Language Models

Die Studie untersucht praktische In-Training-Sicherheitsmaßnahmen gegen emergente Fehljustierung in Sprachmodellen und zeigt, dass das gezielte Einmischen von Trainingsdaten basierend auf dem Perplexitäts-Abstand zwischen ausgerichteten und fehljustierten Modellen die beste Balance zwischen Sicherheit und Leistung bietet.

David Kaczér, Magnus Jørgenvåg, Clemens Vetter + 4 more2026-03-06💻 cs

Dropping Just a Handful of Preferences Can Change Top Large Language Model Rankings

Die Studie zeigt, dass die Rangfolgen führender Sprachmodelle in Systemen wie Chatbot Arena bereits durch das Entfernen eines winzigen Bruchteils der Präferenzdaten (z. B. 0,003 %) instabil werden können, wobei MT-Bench aufgrund von Expertenbewertungen robuster ist und weder Crowd- noch LLM-basierte Bewertungen systematisch anfälliger sind.

Jenny Y. Huang, Yunyi Shen, Dennis Wei + 1 more2026-03-06💻 cs

How Quantization Shapes Bias in Large Language Models

Diese Studie zeigt, dass Quantisierung die Bias-Eigenschaften von Large Language Modellen differenziert beeinflusst, indem sie zwar die Toxizität verringert, aber bei aggressiver Komprimierung Stereotype und Ungerechtigkeiten in generativen Aufgaben tendenziell leicht verstärkt.

Federico Marcuzzi, Xuefei Ning, Roy Schwartz + 1 more2026-03-06💻 cs

Multi-Agent Reinforcement Learning in Intelligent Transportation Systems: A Comprehensive Survey

Diese umfassende Studie untersucht den Einsatz von Multi-Agenten-Reinforcement-Learning in intelligenten Verkehrssystemen, indem sie eine strukturierte Taxonomie der Methoden, Anwendungen in Schlüsselbereichen wie der Ampelsteuerung und Fahrzeugkoordination sowie verwendete Simulationsplattformen und aktuelle Herausforderungen für den realen Einsatz vorstellt.

Rexcharles Donatus, Kumater Ter, Daniel Udekwe2026-03-06💻 cs

A Geometric Perspective on the Difficulties of Learning GNN-based SAT Solvers

Diese Arbeit erklärt die Schwierigkeiten von GNN-basierten SAT-Lösern geometrisch durch negative Graphen-Ricci-Krümmung, die auf Informationsengpässe (Oversquashing) hinweist, und zeigt empirisch, dass diese Krümmung ein starker Indikator für die Problemkomplexität und Generalisierungsfehler ist.

Geri Skenderi2026-03-06🔬 physics

New Insights into Optimal Alignment of Acoustic and Linguistic Representations for Knowledge Transfer in ASR

Diese Arbeit schlägt ein neuartiges, auf unbalanciertem Optimal-Transport basierendes Ausrichtungsmodell vor, das die strukturelle Asymmetrie zwischen akustischen und linguistischen Repräsentationen als Detektionsproblem behandelt, um durch präzises Matching und flexible Behandlung von Rauschen die Leistung von ASR-Systemen bei der Wissensübertragung zu verbessern.

Xugang Lu, Peng Shen, Hisashi Kawai2026-03-06💻 cs

AttnBoost: Retail Supply Chain Sales Insights via Gradient Boosting Perspective

Die Arbeit stellt AttnBoost vor, ein interpretierbares Framework, das durch die Integration eines Feature-Level-Aufmerksamkeitsmechanismus in den Gradient-Boosting-Prozess die Vorhersagegenauigkeit und Erklärbarkeit von Einzelhandelsnachfrageprognosen verbessert.

Yadi Liu, Xiaoli Ma, Muxin Ge + 6 more2026-03-06💻 cs

Topology Structure Optimization of Reservoirs Using GLMY Homology

Diese Studie nutzt die persistente GLMY-Homologie, um die Topologie von Reservoirs zu analysieren und durch die Modifikation eindimensionaler Homologiegruppen deren Leistung zu optimieren, wobei sich zeigt, dass die Performance sowohl von der Struktur als auch von der Periodizität der Daten abhängt.

Yu Chen, Shengwei Wang, Hongwei Lin2026-03-06💻 cs

TabStruct: Measuring Structural Fidelity of Tabular Data

Die Arbeit stellt TabStruct vor, ein umfassendes Evaluierungsframework und Benchmark, das eine neue Metrik namens „global utility" einführt, um die strukturelle Treue tabularer Generatoren auch ohne zugängliche kausale Ground-Truth-Strukturen zu bewerten und dabei 13 Generatoren über 29 Datensätze hinweg analysiert.

Xiangjian Jiang, Nikola Simidjievski, Mateja Jamnik2026-03-06💻 cs

BabyHuBERT: Multilingual Self-Supervised Learning for Segmenting Speakers in Child-Centered Long-Form Recordings

Das Paper stellt BabyHuBERT vor, ein selbstüberwachtes, mehrsprachiges Sprachmodell, das auf 13.000 Stunden kindzentrierter Aufnahmen trainiert wurde und bei der Unterscheidung von Sprechertypen in langen, natürlichen Aufnahmen unterrepräsentierter Sprachen deutlich bessere Ergebnisse liefert als bestehende Modelle.

Théo Charlot, Tarek Kunze, Maxime Poli + 3 more2026-03-06💻 cs

Diffusion-Based Impedance Learning for Contact-Rich Manipulation Tasks

Die Arbeit stellt einen neuartigen Rahmen vor, der Diffusionsmodelle mit energieerhaltender Impedanzregelung verbindet, um durch das Lernen von Null-Kraft-Trajektorien aus Teleoperationsdaten kontaktreiche Manipulationsaufgaben wie das Einstecken von Stiften in Löcher mit hoher Präzision und Generalisierungsfähigkeit zu lösen.

Noah Geiger, Tamim Asfour, Neville Hogan + 1 more2026-03-06💻 cs

← Zurück Weiter →