cs.LG Arbeiten | Gist.Science

Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy

Die Arbeit stellt Skywork-Reward-V2 vor, eine Reihe von Belohnungsmodellen, die durch ein menschlich-künstliche Intelligenz-Synergie-Verfahren auf dem groß angelegten Präferenzdatensatz SynPref-40M trainiert wurden und damit neue Maßstäbe in der Leistungsfähigkeit offener Belohnungsmodelle setzen.

Chris Yuhao Liu, Liang Zeng, Yuzhen Xiao + 9 more2026-03-04💬 cs.CL

MC-INR: Efficient Encoding of Multivariate Scientific Simulation Data using Meta-Learning and Clustered Implicit Neural Representations

Der vorgestellte Ansatz MC-INR überwindet die Einschränkungen bestehender Implicit Neural Representations für multivariate wissenschaftliche Simulationsdaten auf unstrukturierten Gittern durch die Kombination von Meta-Learning, einem dynamischen Re-Clustering-Mechanismus und einer verzweigten Netzarchitektur, um eine effiziente und flexible Kodierung komplexer Strukturen zu ermöglichen.

Hyunsoo Son, Jeonghyun Noh, Suemin Jeon + 2 more2026-03-04🤖 cs.LG

EP-GAT: Energy-based Parallel Graph Attention Neural Network for Stock Trend Classification

Der Artikel stellt EP-GAT vor, ein energiebasiertes paralleles Graph-Attention-Neurales Netzwerk, das durch die Modellierung dynamischer Interdependenzen und hierarchischer Intra-Stock-Dynamiken die Vorhersagegenauigkeit von Aktienkurstrends auf mehreren globalen Märkten im Vergleich zu bestehenden Methoden verbessert.

Zhuodong Jiang, Pengju Zhang, Peter Martin2026-03-04🤖 cs.LG

Improving Classifier-Free Guidance in Masked Diffusion: Low-Dim Theoretical Insights with High-Dim Impact

Diese Arbeit analysiert theoretisch die Wirkung von Classifier-Free Guidance in niedrigdimensionalen Masked-Diffusion-Modellen, identifiziert deren negative Auswirkungen in frühen Generierungsphasen und schlägt eine einfache, aber effektive Methode zur Glättung des Übergangs zwischen Verteilungen vor, die die Probenqualität in hochdimensionalen Anwendungen wie Bild- und Textgenerierung verbessert.

Kevin Rojas, Ye He, Chieh-Hsin Lai + 3 more2026-03-04📊 stat

Gauge Flow Models

Diese Arbeit stellt Gauge Flow Models vor, eine neue Klasse generativer Strömungsmodelle, die durch die Integration eines lernbaren Eichfelds in die Strömungs-ODE eine signifikant bessere Leistung als herkömmliche Modelle erzielen.

Alexander Strunk, Roland Assam2026-03-04🤖 cs.AI

Higher Gauge Flow Models

Diese Arbeit stellt Higher Gauge Flow Models vor, eine neue Klasse generativer Flussmodelle, die durch die Erweiterung der Lie-Algebra zu einer L $_{\infty}$ -Algebra höhere Geometrie und Symmetrien integrieren und auf einem Gaußschen Mischverteilungs-Datensatz eine signifikante Leistungssteigerung gegenüber herkömmlichen Flussmodellen erzielen.

Alexander Strunk, Roland Assam2026-03-04🤖 cs.AI

The Lattice Geometry of Neural Network Quantization -- A Short Equivalence Proof of GPTQ and Babai's Algorithm

Diese Arbeit zeigt, dass die datengesteuerte Quantisierung linearer Einheiten in neuronalen Netzen dem Lösen des „Closest Vector Problem" entspricht, beweist die Äquivalenz des GPTQ-Algorithmus zu Babais bekanntem „Nearest-Plane"-Algorithmus und liefert geometrische Intuitionen sowie Hinweise auf potenzielle Verbesserungen durch Gitterbasisreduktion.

Johann Birnick2026-03-04🤖 cs.AI

Privacy Risk Predictions Based on Fundamental Understanding of Personal Data and an Evolving Threat Landscape

Diese Studie entwickelt einen graphenbasierten Rahmen zur Vorhersage von Datenschutzrisiken, der auf der Analyse von über 5.000 Identitätsdiebstahlfällen beruht und mithilfe von Graph-Neural-Networks die Wahrscheinlichkeit weiterer Datenoffenlegungen bei Kompromittierung bestimmter personenbezogener Informationen abschätzt.

Haoran Niu, K. Suzanne Barber2026-03-04🤖 cs.LG

Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle

Die Arbeit stellt Shuffle-R1 vor, ein datenzentriertes RL-Framework für multimodale große Sprachmodelle, das durch dynamisches Umschichten von Trajektorien und gezieltes Sampling von Kontrastpaaren die Probleme des Vorteilskollapses und der Rollout-Stummschaltung überwindet, um die Trainings-effizienz und das Reasoning zu verbessern.

Linghao Zhu, Yiran Guan, Dingkang Liang + 6 more2026-03-04🤖 cs.AI

Nonparametric Reaction Coordinate Optimization with Histories: A Framework for Rare Event Dynamics

Die Autoren stellen ein nichtparametrisches Framework zur Optimierung von Reaktionskoordinaten vor, das Trajektorienverläufe nutzt, um die Dynamik seltener Ereignisse in komplexen Systemen – von Proteinfaltung bis hin zu klinischen Daten – auch bei unregelmäßigen oder unvollständigen Daten und ohne umfangreiche Stichprobenziehung präzise zu analysieren.

Polina V. Banushkina, Sergei V. Krivov2026-03-04🧬 q-bio

Learning Acrobatic Flight from Preferences

Die vorgestellte Arbeit führt Reward Ensemble under Confidence (REC) ein, ein probabilistisches Framework für präferenzbasiertes Reinforcement Learning, das durch die explizite Modellierung von Unsicherheit in Belohnungsmodellen erfolgreich komplexe akrobatische Drohnenflüge rein aus menschlichem Feedback lernt und dabei die Leistung manueller Belohnungsfunktionen in Simulation und auf echten Hardware-Systemen übertrifft.

Colin Merk, Ismail Geles, Jiaxu Xing + 3 more2026-03-04🤖 cs.LG

Tabular foundation model for GEOAI benchmark problems BM/AirportSoilProperties/2/2025

Diese Studie demonstriert erstmals den erfolgreichen Einsatz des tabellarischen Foundation-Modells TabPFN für geotechnische Benchmark-Probleme, wobei es in einem Zero-Shot-Setting sowohl eine überlegene Vorhersagegenauigkeit und besser kalibrierte Unsicherheiten als auch eine deutlich höhere Inferenzgeschwindigkeit im Vergleich zu herkömmlichen hierarchischen Bayes-Modellen aufweist.

Taiga Saito, Yu Otake, Stephen Wu2026-03-04🤖 cs.LG

The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward

Die Arbeit stellt DPH-RL vor, ein neues Framework, das durch den Einsatz massenerfassender f-Divergenzen (wie Forward-KL) als Rehearsal-Mechanismus das Problem des Diversitätsverlusts und der Katastrophalen Vergessenheit beim Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) löst und gleichzeitig die Pass@1- sowie Pass@k-Leistung verbessert.

Long Li, Zhijian Zhou, Jiaran Hao + 9 more2026-03-04🤖 cs.AI

The Hidden Width of Deep ResNets: Tight Error Bounds and Phase Diagram

Diese Arbeit zeigt, dass tiefste ResNets unabhängig von ihrer tatsächlichen Breite wie unendlich breite Netze trainiert werden, indem sie durch eine nichtlineare Mean-ODE approximiert werden, und leitet dabei scharfe Fehlergrenzen sowie eine Phasendiagramm-Struktur für verschiedene Skalierungsregime her.

Lénaïc Chizat2026-03-04🤖 cs.LG

ScaleDoc: Scaling LLM-based Predicates over Large Document Collections

Das Paper stellt ScaleDoc vor, ein System, das die effiziente semantische Analyse großer Dokumentenbestände durch eine Entkopplung in eine Offline-Repräsentationsphase und eine Online-Filterung mittels eines leichten Proxy-Modells ermöglicht, wodurch die Anzahl teurer LLM-Aufrufe um bis zu 85 % reduziert und die End-zu-End-Geschwindigkeit verdoppelt wird.

Hengrui Zhang, Yulong Hui, Yihao Liu + 1 more2026-03-04🤖 cs.AI

Enhancing Generative Auto-bidding with Offline Reward Evaluation and Policy Search

Das Paper stellt AIGB-Pearl vor, eine neue Methode, die generatives Planen mit einer RL-basierten Trajektorienbewertung und einer KL-Lipschitz-gesicherten Strategie kombiniert, um die Leistungsgrenzen bestehender KI-gestützter Gebotsverfahren zu überwinden und eine sichere Exploration über statische Datensätze hinaus zu ermöglichen.

Zhiyu Mou, Yiqin Lv, Miao Xu + 9 more2026-03-04🤖 cs.AI

Fast Estimation of Wasserstein Distances via Regression on Sliced Wasserstein Distances

Die vorgestellte Arbeit schlägt eine effiziente Methode zur schnellen Schätzung von Wasserstein-Distanzen vor, bei der durch Regression auf geschnittene Wasserstein-Distanzen (sowohl untere als auch obere Schranken) trainierte lineare Modelle entwickelt werden, die in verschiedenen Anwendungen eine genauere und datensparsamere Approximation als der aktuelle State-of-the-Art bieten und zudem das Training von Wasserstein-Embeddings beschleunigen.

Khai Nguyen, Hai Nguyen, Nhat Ho2026-03-04📊 stat

Towards a more realistic evaluation of machine learning models for bearing fault diagnosis

Diese Arbeit stellt eine rigorose, datenlecksfreie Evaluierungsmethode für die Lagerfehlerdiagnose mittels maschinellem Lernen vor, die durch eine trennscharfe Aufteilung nach physischen Bauteilen und die Formulierung als Multi-Label-Klassifikationsproblem realistische Generalisierungsfähigkeiten sicherstellt und so die Zuverlässigkeit industrieller Anwendungen erhöht.

João Paulo Vieira, Victor Afonso Bauler, Rodrigo Kobashikawa Rosa + 1 more2026-03-04⚡ eess

Bridging Kolmogorov Complexity and Deep Learning: Asymptotically Optimal Description Length Objectives for Transformers

Diese Arbeit stellt einen theoretischen Rahmen vor, der die Kolmogorov-Komplexität mit Deep Learning verbindet, indem sie zeigt, dass asymptotisch optimale Beschreibungsziel-Funktionen für Transformer-Modelle existieren und durch eine variationale Formulierung mit adaptivem Gaußschen Mischprior praktisch umsetzbar sind, um bessere Generalisierung durch Kompression zu erreichen.

Peter Shaw, James Cohan, Jacob Eisenstein + 1 more2026-03-04💬 cs.CL

Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

Diese Arbeit analysiert theoretisch die Vor- und Nachteile von Reinforcement Learning für die Planung in Sprachmodellen und zeigt, dass Exploration entscheidend für die Generalisierung ist, während Policy Gradient zu einem Diversitätsverlust führt, wohingegen Q-Learning durch Off-Policy-Lernen und Diversitätserhaltung Vorteile bietet, sofern die Belohnungsfunktion sorgfältig gestaltet wird.

Siwei Wang, Yifei Shen, Haoran Sun + 5 more2026-03-04📊 stat

← Zurück Weiter →