cs.LG Arbeiten | Gist.Science

VTool-R1: VLMs Learn to Think with Images via Reinforcement Learning on Multimodal Tool Use

Die Arbeit stellt VTool-R1 vor, ein Framework, das Vision-Language-Modelle durch Reinforcement Learning mit Python-basierten Bildbearbeitungswerkzeugen trainiert, um strategisch multimodale Denkprozesse zu generieren, die Text und visuelle Zwischenschritte kombinieren, um die reasoning-Fähigkeiten bei visuellen Fragestellungen zu verbessern.

Mingyuan Wu, Jingcheng Yang, Jize Jiang + 6 more2026-03-06💻 cs

Attribute-Efficient PAC Learning of Sparse Halfspaces with Constant Malicious Noise Rate

Dieses Paper stellt einen attribut-effizienten PAC-Lernalgorithmus für sparse Halbräume unter konstantem bösartigem Rauschen vor, der durch eine neue Gradientenanalyse und einfache Modifikationen der Hinge-Loss-Minimierung unter Konzentrations- und Randbedingungen erreicht wird.

Shiwei Zeng, Jie Shen2026-03-06💻 cs

Highly Efficient and Effective LLMs with Multi-Boolean Architectures

Die vorgestellte Arbeit führt ein neues Framework ein, das Large Language Models durch Multi-Boolean-Architekturen darstellt und erstmals eine direkte Feinabstimmung im booleschen Bereich ohne latente Vollpräzisionsgewichte ermöglicht, wodurch die Komplexität gesenkt und die Leistungsfähigkeit im Vergleich zu bestehenden Binärisierungs- und Quantisierungsmethoden erheblich gesteigert wird.

Ba-Hien Tran, Van Minh Nguyen2026-03-06💻 cs

Continuous Chain of Thought Enables Parallel Exploration and Reasoning

Diese Arbeit stellt Continuous Chain of Thought (CoT2) vor, ein neuartiges Framework, das durch den Einsatz kontinuierlich bewerteter Token die parallele Exploration mehrerer Denkpfade ermöglicht, theoretische Garantien für die Effizienzsteigerung bietet und durch spezielle Überwachungs- und Sampling-Strategien die Leistung von Sprachmodellen bei logischen und kombinatorischen Aufgaben signifikant verbessert.

Halil Alperen Gozeten, M. Emrullah Ildiz, Xuechen Zhang + 3 more2026-03-06💻 cs

SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models

Die Arbeit stellt SealQA vor, einen neuen Benchmark zur Bewertung von Suchmaschinen-gestützten Sprachmodellen bei faktischen Fragen mit widersprüchlichen oder unzuverlässigen Suchergebnissen, der zeigt, dass selbst fortschrittliche Modelle in der Lage sind, bei solchen Aufgaben nur sehr begrenzte Genauigkeit zu erreichen.

Thinh Pham, Nguyen Nguyen, Pratibha Zunjare + 3 more2026-03-06💻 cs

FPGA-Enabled Machine Learning Applications in Earth Observation: A Systematic Review

Diese systematische Übersichtsarbeit analysiert gemäß PRISMA 2020 68 Experimente zur onboard-Einsatz von Machine-Learning-Modellen auf FPGAs für die Erdbeobachtung und stellt zwei neue Taxonomien für effiziente Modellarchitekturen sowie Implementierungsstrategien vor.

Cédric Léonard, Dirk Stober, Martin Schulz2026-03-06💻 cs

HSG-12M: A Large-Scale Benchmark of Spatial Multigraphs from the Energy Spectra of Non-Hermitian Crystals

Die Studie stellt HSG-12M vor, einen umfassenden Datensatz mit über 16 Millionen räumlichen Multigraphen, der mithilfe des automatisierten Poly2Graph-Pipelines aus nicht-hermiteschen Kristallspektren generiert wurde, um als Benchmark für geometriebewusstes Graph-Learning und datengetriebene Entdeckungen in der kondensierten Materie zu dienen.

Xianquan Yan, Hakan Akgün, Kenji Kawaguchi + 2 more2026-03-06🔬 cond-mat.mes-hall

EDINET-Bench: Evaluating LLMs on Complex Financial Tasks using Japanese Financial Statements

Die Studie stellt EDINET-Bench vor, einen Open-Source-Benchmark auf Basis japanischer Jahresabschlüsse, der zeigt, dass selbst fortschrittliche Large Language Models bei komplexen Finanzaufgaben wie der Betrugserkennung nur marginal besser abschneiden als einfache logistische Regressionen und somit einen Bedarf an realistischeren, unterstützenden Evaluierungsrahmen aufzeigen.

Issa Sugiura, Takashi Ishida, Taro Makino + 4 more2026-03-06💻 cs

SPEED-RL: Faster Training of Reasoning Models via Online Curriculum Learning

Die Arbeit stellt SPEED-RL vor, eine adaptive Online-Curriculum-Learning-Methode, die durch die gezielte Auswahl von Trainingsbeispielen mittlerer Schwierigkeit die Trainingsgeschwindigkeit von Reasoning-Modellen um das Zwei- bis Sechsfache steigert, ohne die Genauigkeit zu beeinträchtigen.

Ruiqi Zhang, Daman Arora, Song Mei + 1 more2026-03-06💻 cs

Bures-Wasserstein Flow Matching for Graph Generation

Diese Arbeit stellt BWFlow vor, ein neuartiges Flow-Matching-Framework für die Graphengenerierung, das durch die Modellierung der gemeinsamen Entwicklung von Knoten und Kanten mittels Markov-Zufallsfeldern und optimaler Transporttheorie auf der Bures-Wasserstein-Metrik einen glatten Wahrscheinlichkeitspfad schafft, der die Trainingskonvergenz verbessert und die Sampling-Effizienz steigert.

Keyue Jiang, Jiahao Cui, Xiaowen Dong + 1 more2026-03-06💻 cs

From Bandit Regret to FDR Control: Online Selective Generation with Adversarial Feedback Unlocking

Das Paper stellt ExSUL vor, ein neuartiges Online-Lernframework für die selektive Generierung, das durch eine innovative Konversionslemma und eine Strategie zur Freischaltung von Feedback auch unter adversariellen Bedingungen und mit nur teilweisem Benutzerfeedback eine kontrollierte False-Discovery-Rate bei gleichzeitiger hoher Antwortabdeckung erreicht.

Minjae Lee, Yoonjae Jung, Sangdon Park2026-03-06💻 cs

Structured Kolmogorov-Arnold Neural ODEs for Interpretable Learning and Symbolic Discovery of Nonlinear Dynamics

Die Studie stellt SKANODEs vor, ein Framework, das Kolmogorov-Arnold-Netzwerke in Neural ODEs integriert, um aus Beschleunigungsdaten physikalisch interpretierbare latente Zustände zu rekonstruieren und präzise, symbolische Gleichungen für nichtlineare dynamische Systeme zu entdecken.

Wei Liu, Kiran Bacsa, Loon Ching Tang + 1 more2026-03-06🔬 physics

Learning Physical Systems: Symplectification via Gauge Fixing in Dirac Structures

Die Arbeit stellt Presymplectification Networks (PSNs) vor, ein neuartiges Framework, das durch die Einbettung dissipativer, durch Dirac-Strukturen beschriebener mechanischer Systeme in einen höherdimensionalen Mannigfaltigkeit und die anschließende Vorhersage mit symplektischen Netzen (SympNets) erstmals eine strukturerhaltende, datengetriebene Modellierung komplexer Mehrkörpersysteme wie des ANYmal-Roboters ermöglicht.

Aristotelis Papatheodorou, Pranav Vaidhyanathan, Natalia Ares + 1 more2026-03-06💻 cs

Parameter Stress Analysis in Reinforcement Learning: Applying Synaptic Filtering to Policy Networks

Diese Studie analysiert die Robustheit von Reinforcement-Learning-Policies, indem sie interne synaptische Filterung und externe adversarische Angriffe kombiniert, um Parameter als fragil, robust oder antifragil zu klassifizieren und damit die Grundlage für widerstandsfähigere RL-Systeme zu schaffen.

Zain ul Abdeen, Ming Jin2026-03-06💻 cs

MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining

Die Arbeit stellt MuRating vor, ein skalierbares Framework, das hochwertige englische Datenqualitätssignale nutzt, um einen einzigen multilingualen Bewertungsmechanismus für 17 Sprachen zu trainieren und dadurch die Leistung von 1,2-Milliarden-Parameter-LLMs sowohl in englischen als auch in multilingualen Benchmarks signifikant verbessert.

Zhixun Chen, Ping Guo, Wenhan Han + 10 more2026-03-06💻 cs

Overtone: Cyclic Patch Modulation for Clean, Efficient, and Flexible Physics Emulators

Die Arbeit stellt Overtone vor, einen effizienten und flexiblen PDE-Surrogat, der durch zyklische Modulation der Patch-Größe während der Inferenz systematische Fehlerakkumulation bei harmonischen Frequenzen reduziert und eine dynamische Anpassung von Genauigkeit und Rechenkosten ermöglicht.

Payel Mukhopadhyay, Michael McCabe, Ruben Ohana + 1 more2026-03-06💻 cs

Some Super-approximation Rates of ReLU Neural Networks for Korobov Functions

Diese Arbeit leitet nahezu optimale Super-Approximationsfehlerabschätzungen für ReLU-Neuronale Netze bei Korobov-Funktionen her, die zeigen, dass die Ausdrucksstärke neuronaler Netze durch den Fluch der Dimensionalität kaum beeinträchtigt wird.

Yuwen Li, Guozhi Zhang2026-03-06💻 cs

Kernel Based Maximum Entropy Inverse Reinforcement Learning for Mean-Field Games

Diese Arbeit stellt ein Maximum-Entropie-Inverse-Reinforcement-Learning-Verfahren für unendliche Horizont-Mittelwertspiele vor, das mittels reproduzierender Kern-Hilberträume nichtlineare Belohnungsfunktionen aus Expertendemonstrationen ableitet und sowohl für stationäre als auch nicht-stationäre Szenarien theoretisch fundierte Optimierungsalgorithmen bereitstellt.

Berkay Anahtarci, Can Deha Kariksiz, Naci Saldi2026-03-06🔢 math

Elucidating the Design Space of Arbitrary-Noise-Based Diffusion Models

Die Arbeit stellt EDA vor, ein einheitliches theoretisches Framework für Diffusionsmodelle mit beliebigem Rauschen, das die Einschränkungen von EDM überwindet, die Restaurationsdistanz minimiert und sich durch hohe Generalisierungsfähigkeit und Effizienz bei verschiedenen medizinischen und natürlichen Bildwiederherstellungsaufgaben bewährt.

Xingyu Qiu, Mengying Yang, Xinghua Ma + 6 more2026-03-06💻 cs

Structured quantum learning via em algorithm for Boltzmann machines

Die Autoren stellen einen quantenmechanischen EM-Algorithmus für Boltzmann-Maschinen vor, der das Problem der verschwindenden Gradienten umgeht und durch eine stabile, skalierbare Lernmethode auf hybriden Architekturen die Leistungsfähigkeit quantenbasiert generativer Modelle verbessert.

Takeshi Kimura, Kohtaro Kato, Masahito Hayashi2026-03-06⚛️ quant-ph

← Zurück Weiter →