cs.LG Arbeiten | Gist.Science

Graph-GRPO: Training Graph Flow Models with Reinforcement Learning

Die Arbeit stellt Graph-GRPO vor, ein Online-Reinforcement-Learning-Framework für Graph-Flow-Modelle, das durch eine analytische Übergangswahrscheinlichkeit und eine lokale Verfeinerungsstrategie eine effiziente Ausrichtung auf komplexe Ziele ermöglicht und dabei state-of-the-art-Ergebnisse in der molekularen Optimierung erzielt.

Baoheng Zhu, Deyu Bo, Delvin Ce Zhang, Xiao Wang2026-03-12🤖 cs.LG

On the Learning Dynamics of Two-layer Linear Networks with Label Noise SGD

Diese Arbeit analysiert die Lern dynamik von zweischichtigen linearen Netzwerken unter label-noise SGD und zeigt, dass das Rauschen einen kritischen Übergang vom „lazy" zum „rich" Regime bewirkt, was die verbesserte Generalisierung erklärt und auf Sharpness-Aware Minimization (SAM) verallgemeinert werden kann.

Tongcheng Zhang, Zhanpeng Zhou, Mingze Wang, Andi Han, Wei Huang, Taiji Suzuki, Junchi Yan2026-03-12🤖 cs.LG

Designing Service Systems from Textual Evidence

Die Arbeit stellt den PP-LUCB-Algorithmus vor, der durch die Kombination von verzerrten LLM-Bewertungen mit kostengünstigen, selektiven menschlichen Audits und einer speziellen Schätzmethode die effiziente Identifizierung optimaler Servicekonfigurationen ermöglicht und dabei die Auditkosten um 90 % senkt.

Ruicheng Ao, Hongyu Chen, Siyang Gao, Hanwei Li, David Simchi-Levi2026-03-12🤖 cs.LG

Effective Dataset Distillation for Spatio-Temporal Forecasting with Bi-dimensional Compression

Die Arbeit stellt STemDist vor, die erste Dataset-Distillationsmethode für die spatio-temporale Vorhersage, die durch eine ausgewogene zweidimensionale Kompression von Raum und Zeit sowie eine Cluster-basierte Verfeinerung die Trainingszeit und den Speicherbedarf signifikant reduziert und gleichzeitig die Vorhersagegenauigkeit verbessert.

Taehyung Kwon, Yeonje Choi, Yeongho Kim, Kijung Shin2026-03-12🤖 cs.LG

Domain-Adaptive Health Indicator Learning with Degradation-Stage Synchronized Sampling and Cross-Domain Autoencoder

Diese Arbeit stellt einen domänenadaptiven Rahmen vor, der durch abbaustufen-synchronisierte Stichprobenziehung und einen cross-domänen ausgerichteten großen Autoencoder mit großen Kerneln und Cross-Attention-Mechanismen die Erstellung robuster Gesundheitsindikatoren für die Prognose und das Gesundheitsmanagement unter variierenden Betriebsbedingungen verbessert.

Jungho Choo, Hanbyeol Park, Gawon Lee, Yunkyung Park, Hyerim Bae2026-03-12🤖 cs.LG

Adaptive Active Learning for Regression via Reinforcement Learning

Die Arbeit stellt Weighted improved Greedy Sampling (WiGS) vor, eine Methode, die das statische Multiplikationsprinzip des Improved Greedy Sampling durch ein dynamisches, auf Reinforcement Learning basierendes additives Kriterium ersetzt, um die Balance zwischen Exploration und Investigation anzupassen und so die Genauigkeit sowie die Effizienz bei der Kennzeichnung von Daten in Regressionen zu verbessern.

Simon D. Nguyen, Troy Russo, Kentaro Hoffman, Tyler H. McCormick2026-03-12📊 stat

GGMPs: Generalized Gaussian Mixture Processes

Die Arbeit stellt den Generalized Gaussian Mixture Process (GGMP) vor, einen skalierbaren, auf Gauß-Prozessen basierenden Ansatz zur effizienten Schätzung multimodaler bedingter Dichten, der die Beschränkungen standardmäßiger unimodaler Gauß-Prozesse überwindet.

Vardaan Tekriwal, Mark D. Risser, Hengrui Luo, Marcus M. Noack2026-03-12🤖 cs.LG

The Curse and Blessing of Mean Bias in FP4-Quantized LLM Training

Die Arbeit zeigt, dass das Entfernen einer kohärenten Rang-eins-Mittelwertverzerrung die numerische Instabilität bei der FP4-Quantisierung von LLMs effektiv behebt und so eine hardwareeffiziente, stabile Ausbildung ermöglicht, die das Leistungsniveau von BF16 nahezu erreicht.

Hengjie Cao, Zhendong Huang, Mengyi Chen, Yifeng Yang, Fanqi Yu, Ruijun Huang, Fang Dong, Xin Zhang, Jixian Zhou, Anrui Chen, Mingzhi Dong, Yujiang Wang, Jinlong Hou, Qin Lv, Yuan Cheng, Tun Lu, Fan Yang, Li Shang2026-03-12🤖 cs.LG

Unlearning the Unpromptable: Prompt-free Instance Unlearning in Diffusion Models

Die vorgestellte Arbeit führt eine effektive, promptfreie Methode zum selektiven Vergessen spezifischer, nicht textuell beschreibbarer Instanzen (wie Gesichter oder kulturelle Fehldarstellungen) in Diffusionsmodellen ein, indem sie Bildbearbeitung, taktaware Gewichtung und Gradient-Chirurgie kombiniert, um Datenschutz und ethische Compliance zu gewährleisten.

Kyungryeol Lee, Kyeonghyun Lee, Seongmin Hong, Byung Hyun Lee, Se Young Chun2026-03-12🤖 cs.LG

Brenier Isotonic Regression

Der Artikel stellt die „Brenier-Isotone Regression" vor, eine Erweiterung der klassischen isotonen Regression auf multivariate Ausgaben durch die Nutzung zyklischer Monotonie und optimaler Transporttheorie, die sich in Anwendungen wie der Wahrscheinlichkeitskalibrierung als überlegen erweist.

Han Bao, Amirreza Eshraghi, Yutong Wang2026-03-12📊 stat

Spatio-Temporal Forecasting of Retaining Wall Deformation: Mitigating Error Accumulation via Multi-Resolution ConvLSTM Stacking Ensemble

Diese Studie stellt einen Multi-Resolution-ConvLSTM-Ensemble-Ansatz vor, der durch die Kombination verschiedener zeitlicher Eingabeauflösungen die Fehlerakkumulation bei der langfristigen Vorhersage von Verformungen von Stützwänden während der Baugrubenaushubarbeiten effektiv reduziert und die Vorhersagegenauigkeit verbessert.

Jihoon Kim (Department of Civil,Environmental Engineering, Hongik University, Seoul, Republic of Korea), Heejung Youn (Department of Civil,Environmental Engineering, Hongik University, Seoul, Republic of Korea)2026-03-12🤖 cs.LG

Beam-Plasma Collective Oscillations in Intense Charged-Particle Beams: Dielectric Response Theory, Langmuir Wave Dispersion, and Unsupervised Detection via Prometheus

Diese Arbeit entwickelt ein theoretisches und computergestütztes Rahmenwerk für kollektive Beam-Plasma-Oszillationen in intensiven geladenen Teilchenstrahlen, das mittels der Dielektrikums-Theorie und der Vlasov-Poisson-Gleichung sowie einer Validierung durch das auf PIC-Simulationen trainierte unüberwachte Lernmodell Prometheus die Existenz ungedämpfter Langmuir-Wellen, die universelle Plasmafrequenz und Phasenübergangssignaturen nachweist.

Brandon Yee, Wilson Collins, Michael Iofin, Jiayi Fu2026-03-12🔬 physics

Muscle Synergy Priors Enhance Biomechanical Fidelity in Predictive Musculoskeletal Locomotion Simulation

Die Studie zeigt, dass die Integration physiologischer Muskel-Synergie-Prioritäten in ein verstärkendes Lernframework die biomechanische Genauigkeit und Generalisierungsfähigkeit prädiktiver muskuloskelettaler Laufsimulationen über verschiedene Geschwindigkeiten und Geländebedingungen hinweg verbessert.

Ilseung Park (Carnegie Mellon University), Eunsik Choi (Seoul National University), Jangwhan Ahn (UNC-Chapel Hill and NC State University), Jooeun Ahn (Seoul National University)2026-03-12🤖 cs.LG

Dual Space Preconditioning for Gradient Descent in the Overparameterized Regime

Diese Arbeit beweist die Konvergenz von dualraumvorkonditioniertem Gradientenabstieg auf eine interpolierende Lösung im überparametrisierten Regime und analysiert dessen implizite Verzerrung, wobei gezeigt wird, dass isotrope Vorkonditionierer die gleiche Lösung wie der Standard-Gradientenabstieg liefern.

Reza Ghane, Danil Akhtiamov, Babak Hassibi2026-03-12📊 stat

JEDI: Jointly Embedded Inference of Neural Dynamics

Das Paper stellt JEDI vor, ein hierarchisches Modell, das durch das gemeinsame Lernen von kontextuellen Einbettungen und rekurrenten Gewichten neuronale Dynamiken über verschiedene Aufgaben hinweg aus experimentellen Aufzeichnungen effizient und generalisierbar inferiert.

Anirudh Jamkhandi, Ali Korojy, Olivier Codol, Guillaume Lajoie, Matthew G. Perich2026-03-12🧬 q-bio

A Universal Nearest-Neighbor Estimator for Intrinsic Dimensionality

Diese Arbeit stellt einen universellen Schätzer für die intrinsische Dimensionalität vor, der auf Verhältnissen von Nachbarschaftsabständen basiert, unabhängig von der zugrunde liegenden Datenverteilung konvergiert und sowohl theoretisch als auch experimentell überlegene Ergebnisse liefert.

Eng-Jon Ong, Omer Bobrowski, Gesine Reinert, Primoz Skraba2026-03-12🤖 cs.LG

VERI-DPO: Evidence-Aware Alignment for Clinical Summarization via Claim Verification and Direct Preference Optimization

Die Arbeit stellt VERI-DPO vor, eine Methode zur evidenzbewussten Ausrichtung klinischer Zusammenfassungen, die durch Claim-Verifikation und Direct Preference Optimization (DPO) die Rate nicht unterstützter Aussagen signifikant reduziert und gleichzeitig die klinische Validität sowie Informationsdichte verbessert.

Weixin Liu, Congning Ni, Qingyuan Song, Susannah L. Rose, Christopher Symons, Murat Kantarcioglu, Bradley A. Malin, Zhijun Yin2026-03-12💬 cs.CL

A New Tensor Network: Tubal Tensor Train and Its Applications

Die Arbeit stellt die Tubal Tensor Train (TTT)-Zerlegung vor, ein neues Tensor-Netzwerkmodell, das die t-Produkt-Algebra der T-SVD mit der effizienten Speicherstruktur des Tensor-Train-Formats kombiniert und sich durch lineare Skalierbarkeit sowie erfolgreiche Anwendungen in Bereichen wie Bild- und Videokompression auszeichnet.

Salman Ahmadi-Asl, Valentin Leplat, Anh-Huy Phan, Andrzej Cichocki2026-03-12🔢 math

Resource-constrained Amazons chess decision framework integrating large language models and graph attention

Diese Arbeit stellt ein ressourcenschonendes, hybrides Entscheidungsframework für das Amazons-Schach vor, das Graph-Attention-Autoencoder mit der generativen Kraft von GPT-4o-mini kombiniert, um durch synthetische Daten und strukturelles Rauschen eine überlegene Spielstärke zu erreichen, die sogar die des zugrundeliegenden Lehrmodells übertrifft.

Tianhao Qian, Zhuoxuan Li, Jinde Cao, Xinli Shi, Hanjie Liu, Leszek Rutkowski2026-03-12🤖 cs.AI

IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs

Die Arbeit stellt IH-Challenge vor, ein Reinforcement-Learning-Datenset, das die Robustheit von Sprachmodellen gegenüber Konflikten in der Instruktionshierarchie signifikant verbessert, indem es Sicherheitsverletzungen reduziert und gleichzeitig die Hilfsbereitschaft erhält.

Chuan Guo (Michael Pokorny), Juan Felipe Ceron Uribe (Michael Pokorny), Sicheng Zhu (Michael Pokorny), Christopher A. Choquette-Choo (Michael Pokorny), Steph Lin (Michael Pokorny), Nikhil Kandpal (Michael Pokorny), Milad Nasr (Michael Pokorny), Rai (Michael Pokorny), Sam Toyer, Miles Wang, Yaodong Yu, Alex Beutel, Kai Xiao2026-03-12🤖 cs.AI

← Zurück Weiter →