cs.LG Arbeiten | Gist.Science

SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models

Die Arbeit stellt SealQA vor, einen neuen Benchmark zur Bewertung von Suchmaschinen-gestützten Sprachmodellen bei faktischen Fragen mit widersprüchlichen oder unzuverlässigen Suchergebnissen, der zeigt, dass selbst fortschrittliche Modelle in der Lage sind, bei solchen Aufgaben nur sehr begrenzte Genauigkeit zu erreichen.

Thinh Pham, Nguyen Nguyen, Pratibha Zunjare + 3 more2026-03-06💻 cs

FPGA-Enabled Machine Learning Applications in Earth Observation: A Systematic Review

Diese systematische Übersichtsarbeit analysiert gemäß PRISMA 2020 68 Experimente zur onboard-Einsatz von Machine-Learning-Modellen auf FPGAs für die Erdbeobachtung und stellt zwei neue Taxonomien für effiziente Modellarchitekturen sowie Implementierungsstrategien vor.

Cédric Léonard, Dirk Stober, Martin Schulz2026-03-06💻 cs

HSG-12M: A Large-Scale Benchmark of Spatial Multigraphs from the Energy Spectra of Non-Hermitian Crystals

Die Studie stellt HSG-12M vor, einen umfassenden Datensatz mit über 16 Millionen räumlichen Multigraphen, der mithilfe des automatisierten Poly2Graph-Pipelines aus nicht-hermiteschen Kristallspektren generiert wurde, um als Benchmark für geometriebewusstes Graph-Learning und datengetriebene Entdeckungen in der kondensierten Materie zu dienen.

Xianquan Yan, Hakan Akgün, Kenji Kawaguchi + 2 more2026-03-06🔬 cond-mat.mes-hall

EDINET-Bench: Evaluating LLMs on Complex Financial Tasks using Japanese Financial Statements

Die Studie stellt EDINET-Bench vor, einen Open-Source-Benchmark auf Basis japanischer Jahresabschlüsse, der zeigt, dass selbst fortschrittliche Large Language Models bei komplexen Finanzaufgaben wie der Betrugserkennung nur marginal besser abschneiden als einfache logistische Regressionen und somit einen Bedarf an realistischeren, unterstützenden Evaluierungsrahmen aufzeigen.

Issa Sugiura, Takashi Ishida, Taro Makino + 4 more2026-03-06💻 cs

SPEED-RL: Faster Training of Reasoning Models via Online Curriculum Learning

Die Arbeit stellt SPEED-RL vor, eine adaptive Online-Curriculum-Learning-Methode, die durch die gezielte Auswahl von Trainingsbeispielen mittlerer Schwierigkeit die Trainingsgeschwindigkeit von Reasoning-Modellen um das Zwei- bis Sechsfache steigert, ohne die Genauigkeit zu beeinträchtigen.

Ruiqi Zhang, Daman Arora, Song Mei + 1 more2026-03-06💻 cs

Bures-Wasserstein Flow Matching for Graph Generation

Diese Arbeit stellt BWFlow vor, ein neuartiges Flow-Matching-Framework für die Graphengenerierung, das durch die Modellierung der gemeinsamen Entwicklung von Knoten und Kanten mittels Markov-Zufallsfeldern und optimaler Transporttheorie auf der Bures-Wasserstein-Metrik einen glatten Wahrscheinlichkeitspfad schafft, der die Trainingskonvergenz verbessert und die Sampling-Effizienz steigert.

Keyue Jiang, Jiahao Cui, Xiaowen Dong + 1 more2026-03-06💻 cs

From Bandit Regret to FDR Control: Online Selective Generation with Adversarial Feedback Unlocking

Das Paper stellt ExSUL vor, ein neuartiges Online-Lernframework für die selektive Generierung, das durch eine innovative Konversionslemma und eine Strategie zur Freischaltung von Feedback auch unter adversariellen Bedingungen und mit nur teilweisem Benutzerfeedback eine kontrollierte False-Discovery-Rate bei gleichzeitiger hoher Antwortabdeckung erreicht.

Minjae Lee, Yoonjae Jung, Sangdon Park2026-03-06💻 cs

Structured Kolmogorov-Arnold Neural ODEs for Interpretable Learning and Symbolic Discovery of Nonlinear Dynamics

Die Studie stellt SKANODEs vor, ein Framework, das Kolmogorov-Arnold-Netzwerke in Neural ODEs integriert, um aus Beschleunigungsdaten physikalisch interpretierbare latente Zustände zu rekonstruieren und präzise, symbolische Gleichungen für nichtlineare dynamische Systeme zu entdecken.

Wei Liu, Kiran Bacsa, Loon Ching Tang + 1 more2026-03-06🔬 physics

Learning Physical Systems: Symplectification via Gauge Fixing in Dirac Structures

Die Arbeit stellt Presymplectification Networks (PSNs) vor, ein neuartiges Framework, das durch die Einbettung dissipativer, durch Dirac-Strukturen beschriebener mechanischer Systeme in einen höherdimensionalen Mannigfaltigkeit und die anschließende Vorhersage mit symplektischen Netzen (SympNets) erstmals eine strukturerhaltende, datengetriebene Modellierung komplexer Mehrkörpersysteme wie des ANYmal-Roboters ermöglicht.

Aristotelis Papatheodorou, Pranav Vaidhyanathan, Natalia Ares + 1 more2026-03-06💻 cs

Parameter Stress Analysis in Reinforcement Learning: Applying Synaptic Filtering to Policy Networks

Diese Studie analysiert die Robustheit von Reinforcement-Learning-Policies, indem sie interne synaptische Filterung und externe adversarische Angriffe kombiniert, um Parameter als fragil, robust oder antifragil zu klassifizieren und damit die Grundlage für widerstandsfähigere RL-Systeme zu schaffen.

Zain ul Abdeen, Ming Jin2026-03-06💻 cs

MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining

Die Arbeit stellt MuRating vor, ein skalierbares Framework, das hochwertige englische Datenqualitätssignale nutzt, um einen einzigen multilingualen Bewertungsmechanismus für 17 Sprachen zu trainieren und dadurch die Leistung von 1,2-Milliarden-Parameter-LLMs sowohl in englischen als auch in multilingualen Benchmarks signifikant verbessert.

Zhixun Chen, Ping Guo, Wenhan Han + 10 more2026-03-06💻 cs

Overtone: Cyclic Patch Modulation for Clean, Efficient, and Flexible Physics Emulators

Die Arbeit stellt Overtone vor, einen effizienten und flexiblen PDE-Surrogat, der durch zyklische Modulation der Patch-Größe während der Inferenz systematische Fehlerakkumulation bei harmonischen Frequenzen reduziert und eine dynamische Anpassung von Genauigkeit und Rechenkosten ermöglicht.

Payel Mukhopadhyay, Michael McCabe, Ruben Ohana + 1 more2026-03-06💻 cs

Some Super-approximation Rates of ReLU Neural Networks for Korobov Functions

Diese Arbeit leitet nahezu optimale Super-Approximationsfehlerabschätzungen für ReLU-Neuronale Netze bei Korobov-Funktionen her, die zeigen, dass die Ausdrucksstärke neuronaler Netze durch den Fluch der Dimensionalität kaum beeinträchtigt wird.

Yuwen Li, Guozhi Zhang2026-03-06💻 cs

Kernel Based Maximum Entropy Inverse Reinforcement Learning for Mean-Field Games

Diese Arbeit stellt ein Maximum-Entropie-Inverse-Reinforcement-Learning-Verfahren für unendliche Horizont-Mittelwertspiele vor, das mittels reproduzierender Kern-Hilberträume nichtlineare Belohnungsfunktionen aus Expertendemonstrationen ableitet und sowohl für stationäre als auch nicht-stationäre Szenarien theoretisch fundierte Optimierungsalgorithmen bereitstellt.

Berkay Anahtarci, Can Deha Kariksiz, Naci Saldi2026-03-06🔢 math

Elucidating the Design Space of Arbitrary-Noise-Based Diffusion Models

Die Arbeit stellt EDA vor, ein einheitliches theoretisches Framework für Diffusionsmodelle mit beliebigem Rauschen, das die Einschränkungen von EDM überwindet, die Restaurationsdistanz minimiert und sich durch hohe Generalisierungsfähigkeit und Effizienz bei verschiedenen medizinischen und natürlichen Bildwiederherstellungsaufgaben bewährt.

Xingyu Qiu, Mengying Yang, Xinghua Ma + 6 more2026-03-06💻 cs

Structured quantum learning via em algorithm for Boltzmann machines

Die Autoren stellen einen quantenmechanischen EM-Algorithmus für Boltzmann-Maschinen vor, der das Problem der verschwindenden Gradienten umgeht und durch eine stabile, skalierbare Lernmethode auf hybriden Architekturen die Leistungsfähigkeit quantenbasiert generativer Modelle verbessert.

Takeshi Kimura, Kohtaro Kato, Masahito Hayashi2026-03-06⚛️ quant-ph

TIC-GRPO: Provable and Efficient Optimization for Reinforcement Learning from Human Feedback

Die Arbeit stellt TIC-GRPO vor, einen neuen, kritikerfreien Algorithmus für Reinforcement Learning aus menschlichem Feedback, der durch die Einführung von Trajektorien-basierten Wichtigkeitskorrekturen eine schnellere Konvergenz und bessere Leistung als das etablierte GRPO erreicht.

Lei Pang, Jun Luo, Ruinan Jin2026-03-06💻 cs

Honest and Reliable Evaluation and Expert Equivalence Testing of Automated Neonatal Seizure Detection

Diese Studie entwickelt einen ehrlichen und zuverlässigen Bewertungsrahmen für die automatisierte neonatale Krampferkennung, der durch die Analyse gängiger Metriken und die Einführung eines Multi-Rater-Turing-Tests mit Fleiss-Kappa die klinische Validierung von KI-Modellen sicherstellt.

Jovana Kljajic, John M. O'Toole, Robert Hogan + 1 more2026-03-06💻 cs

In-Training Defenses against Emergent Misalignment in Language Models

Die Studie untersucht praktische In-Training-Sicherheitsmaßnahmen gegen emergente Fehljustierung in Sprachmodellen und zeigt, dass das gezielte Einmischen von Trainingsdaten basierend auf dem Perplexitäts-Abstand zwischen ausgerichteten und fehljustierten Modellen die beste Balance zwischen Sicherheit und Leistung bietet.

David Kaczér, Magnus Jørgenvåg, Clemens Vetter + 4 more2026-03-06💻 cs

Dropping Just a Handful of Preferences Can Change Top Large Language Model Rankings

Die Studie zeigt, dass die Rangfolgen führender Sprachmodelle in Systemen wie Chatbot Arena bereits durch das Entfernen eines winzigen Bruchteils der Präferenzdaten (z. B. 0,003 %) instabil werden können, wobei MT-Bench aufgrund von Expertenbewertungen robuster ist und weder Crowd- noch LLM-basierte Bewertungen systematisch anfälliger sind.

Jenny Y. Huang, Yunyi Shen, Dennis Wei + 1 more2026-03-06💻 cs

← Zurück Weiter →