cs.LG Arbeiten | Gist.Science

BabyHuBERT: Multilingual Self-Supervised Learning for Segmenting Speakers in Child-Centered Long-Form Recordings

Das Paper stellt BabyHuBERT vor, ein selbstüberwachtes, mehrsprachiges Sprachmodell, das auf 13.000 Stunden kindzentrierter Aufnahmen trainiert wurde und bei der Unterscheidung von Sprechertypen in langen, natürlichen Aufnahmen unterrepräsentierter Sprachen deutlich bessere Ergebnisse liefert als bestehende Modelle.

Théo Charlot, Tarek Kunze, Maxime Poli + 3 more2026-03-06💻 cs

Diffusion-Based Impedance Learning for Contact-Rich Manipulation Tasks

Die Arbeit stellt einen neuartigen Rahmen vor, der Diffusionsmodelle mit energieerhaltender Impedanzregelung verbindet, um durch das Lernen von Null-Kraft-Trajektorien aus Teleoperationsdaten kontaktreiche Manipulationsaufgaben wie das Einstecken von Stiften in Löcher mit hoher Präzision und Generalisierungsfähigkeit zu lösen.

Noah Geiger, Tamim Asfour, Neville Hogan + 1 more2026-03-06💻 cs

Complexity-Regularized Proximal Policy Optimization

Die Autoren stellen CR-PPO vor, einen Proximal Policy Optimization-Algorithmus, der die herkömmliche Entropie-Regularisierung durch einen selbstregulierenden Komplexitätsbegriff ersetzt, um eine robustere Leistung bei geringerer Hyperparameter-Abhängigkeit zu gewährleisten.

Luca Serfilippi, Giorgio Franceschelli, Antonio Corradi + 1 more2026-03-06💻 cs

Noise-to-Notes: Diffusion-based Generation and Refinement for Automatic Drum Transcription

Die Arbeit stellt „Noise-to-Notes" vor, ein diffusion-basiertes generatives Framework für die automatische Schlagzeugtranskription, das durch die Einführung eines annealierten Pseudo-Huber-Verlusts und die Integration von Merkmalen aus Musik-Foundation-Modellen neue State-of-the-Art-Ergebnisse auf mehreren Benchmarks erzielt.

Michael Yeung, Keisuke Toyama, Toya Teramoto + 2 more2026-03-06💻 cs

BridgeDrive: Diffusion Bridge Policy for Closed-Loop Trajectory Planning in Autonomous Driving

BridgeDrive ist ein neuartiger, ankerbasierter Diffusions-Brücken-Algorithmus für die geschlossene Trajektorienplanung autonomer Fahrzeuge, der durch theoretisch konsistente Prozesse und effiziente ODE-Löser einen neuen State-of-the-Art auf Bench2Drive erreicht.

Shu Liu, Wenlin Chen, Weihao Li + 7 more2026-03-06💻 cs

Towards Understanding Subliminal Learning: When and How Hidden Biases Transfer

Die Studie zeigt, dass subliminales Lernen bei der Modell-Distillation durch eine kleine Menge seltener „Divergenz-Token" in frühen Schichten vermittelt wird, die bei Entfernung oder Paraphrasierung des Prompts den Transfer versteckter Vorurteile verhindern.

Simon Schrodi, Elias Kempf, Fazl Barez + 1 more2026-03-06💻 cs

BeyondBench: Contamination-Resistant Evaluation of Reasoning in Language Models

Das Paper stellt BeyondBench vor, ein Kontaminations-resistentes Evaluierungsframework, das durch algorithmische Generierung mathematisch fundierter Probleme die echten reasoning-Fähigkeiten von Sprachmodellen unabhängig von Trainingsdaten bewertet und dabei signifikante Leistungseinbußen bei steigender Komplexität aufzeigt.

Gaurav Srivastava, Aafiya Hussain, Zhenyu Bi + 5 more2026-03-06💻 cs

Hyperspherical Latents Improve Continuous-Token Autoregressive Generation

Die Arbeit stellt SphereAR vor, ein autoregressives Bildgenerierungsmodell, das durch die Einschränkung der Latents auf eine Hypersphäre die Varianzstabilität verbessert und damit erstmals reine Raster-Autoregressionsmodelle in der Bildqualität mit Diffusions- und Maskierungsmodellen konkurrieren lässt.

Guolin Ke, Hui Xue2026-03-06💻 cs

Quantitative convergence of trained single layer neural networks to Gaussian processes

Diese Arbeit liefert explizite obere Schranken für die quadratische Wasserstein-Distanz zwischen dem Ausgang eines trainierten einlagigen neuronalen Netzwerks und seiner Gaußschen Näherung, die einen polynomiellen Konvergenzverlauf in Abhängigkeit von der Netzbreite und den Trainingsdynamiken quantifizieren.

Eloy Mosig, Andrea Agazzi, Dario Trevisan2026-03-06🔢 math

Pretraining Large Language Models with NVFP4

Die Studie stellt eine stabile NVFP4-Pretraining-Methode für große Sprachmodelle vor, die durch Random Hadamard-Transformationen, ein zweidimensionales Quantisierungsschema und stochastisches Runden eine Effizienzsteigerung ermöglicht, ohne die Leistung im Vergleich zu FP8-Baselines zu beeinträchtigen.

NVIDIA, Felix Abecassis, Anjulie Agrusa + 87 more2026-03-06💻 cs

OPPO: Accelerating PPO-based RLHF via Pipeline Overlap

OPPO ist ein leichtgewichtiges, modellunabhängiges Framework, das die Effizienz von PPO-basiertem RLHF durch die Überlappung von Pipeline-Schritten mittels intra- und inter-stufiger Techniken signifikant steigert, ohne die Konvergenz zu beeinträchtigen.

Kaizhuo Yan, Yingjie Yu, Yifan Yu + 2 more2026-03-06💻 cs

VidGuard-R1: AI-Generated Video Detection and Explanation via Reasoning MLLMs and RL

Die Arbeit stellt VidGuard-R1 vor, den ersten KI-generierten Video-Detektor, der durch den Einsatz von Group Relative Policy Optimization (GRPO) und spezialisierten Belohnungsmodellen nicht nur eine state-of-the-art Zero-Shot-Erkennungsgenauigkeit erreicht, sondern auch physikalisch fundierte, nachvollziehbare Erklärungen für seine forensischen Urteile liefert.

Kyoungjun Park, Yifan Yang, Juheon Yi + 6 more2026-03-06💻 cs

Non-Asymptotic Analysis of Efficiency in Conformalized Regression

Diese Arbeit leitet nicht-asymptotische Schranken für die Effizienz von konformalisierten Regressionsverfahren her, die die gemeinsame Abhängigkeit der Vorhersageintervalllänge von der Trainings- und Kalibrierungsdatengröße sowie dem Misscoverage-Level $α$ quantifizieren und Phasenübergänge in den Konvergenzraten aufzeigen.

Yunzhen Yao, Lie He, Michael Gastpar2026-03-06💻 cs

Do We Really Need Permutations? Impact of Model Width on Linear Mode Connectivity

Diese Arbeit zeigt empirisch, dass eine einfache Vergrößerung der Modellbreite in Kombination mit einer geeigneten Softmax-Temperaturkalibrierung ausreicht, um lineare Modus-Konnektivität zu erreichen, ohne dass eine aufwendige Permutation der Parameter notwendig ist.

Akira Ito, Masanori Yamada, Daiki Chijiwa + 1 more2026-03-06💻 cs

True Self-Supervised Novel View Synthesis is Transferable

Die Arbeit stellt XFactor vor, das erste geometriefreie selbstüberwachte Modell für die Synthese neuer Ansichten, das durch eine spezielle Augmentationsstrategie übertragbare Kameraposen lernt und damit zeigt, dass echte Übertragbarkeit ohne explizite 3D-Induktionsverzerrungen oder Multi-View-Geometrie erreicht werden kann.

Thomas W. Mitchel, Hyunwoo Ryu, Vincent Sitzmann2026-03-06💻 cs

CBF-RL: Safety Filtering Reinforcement Learning in Training with Control Barrier Functions

Die Arbeit stellt CBF-RL vor, ein Framework, das Control Barrier Functions direkt in das Reinforcement-Learning-Training integriert, um sichere Strategien zu erlernen, die auch ohne nachgeschaltete Online-Sicherheitsfilter robust in realen Anwendungen wie der Unitree G1-Humanoiden-Roboterplattform operieren können.

Lizhi Yang, Blake Werner, Massimiliano de Sa + 1 more2026-03-06💻 cs

Bayesian Inference for PDE-based Inverse Problems using the Optimization of a Discrete Loss

Diese Arbeit stellt B-ODIL vor, eine bayessche Erweiterung der Methode zur Optimierung eines diskreten Verlustes (ODIL), die physikalische PDE-Modelle als Prior mit Daten-Likelihoods kombiniert, um Lösungen für inverse Probleme mit quantifizierten Unsicherheiten zu liefern, wie beispielsweise bei der Schätzung von Tumorwachstum aus MRT-Daten.

Lucas Amoudruz, Sergey Litvinov, Costas Papadimitriou + 1 more2026-03-06🔬 physics

Schrödinger Bridge Mamba for One-Step Speech Enhancement

Die Autoren stellen Schrödinger Bridge Mamba (SBM) vor, ein effizientes Ein-Schritt-Modell für die Sprachverbesserung, das durch die Kombination des Schrödinger-Brücken-Trainingsparadigmas mit der Mamba-Architektur sowohl bei der Rauschunterdrückung als auch bei der Entreverberation überlegene Ergebnisse im Vergleich zu bestehenden Methoden erzielt.

Jing Yang, Sirui Wang, Chao Wu + 2 more2026-03-06💻 cs

Breaking and Fixing Defenses Against Control-Flow Hijacking in Multi-Agent Systems

Die Arbeit zeigt, dass bestehende Abwehrmechanismen gegen Control-Flow-Hijacking-Angriffe in Multi-Agent-Systemen aufgrund grundlegender Zielkonflikte und unvollständiger Kontextsicht umgangen werden können, und stellt darauf aufbauend ControlValve vor, eine neue Verteidigung, die auf dem Prinzip der Control-Flow-Integrität basiert und die Ausführung durch generierte Graphen sowie kontextuelle Regeln erzwingt.

Rishi Jha, Harold Triedman, Justin Wagle, Vitaly Shmatikov2026-03-06🔒 cs.CR

Generalization Below the Edge of Stability: The Role of Data Geometry

Diese Arbeit zeigt theoretisch, dass die Geometrie der Daten bei überparametrisierten ReLU-Netzen unterhalb der Stabilitätsgrenze den Generalisierungserfolg bestimmt, indem sie steuert, ob der Gradientenabstieg gemeinsame Muster lernt oder zu einer Memorierung neigt.

Tongtong Liang, Alexander Cloninger, Rahul Parhi + 1 more2026-03-06💻 cs

← Zurück Weiter →