cs.LG papers | Gist.Science

Ice Cream Doesn't Cause Drowning: Benchmarking LLMs Against Statistical Pitfalls in Causal Inference

Dit paper introduceert CausalPitfalls, een benchmark die aantoont dat huidige grote taalmodellen tekortschieten in het betrouwbaar uitvoeren van causale inferentie door veelvuldig statistische valkuilen te negeren, en biedt hiermee gestructureerde maatstaven voor de ontwikkeling van meer betrouwbare redeneersystemen.

Jin Du, Li Chen, Xun Xian + 6 more2026-03-06💻 cs

ShIOEnv: A Command Evaluation Environment for Grammar-Constrained Synthesis and Execution Behavior Modeling

Dit paper introduceert ShIOEnv, een Gymnasium-compatibele Bash-omgeving die gebruikmaakt van grammatica-gedwongen synthese en zelftoezicht op onherleidbaarheid om 2,1 miljoen input-outputparen te genereren, waardoor modellen beter in staat zijn om de uitvoeringsgedragingen van shell-opdrachten te modelleren dan eerdere, uitvoeringsvrije benaderingen.

Jarrod Ragsdale, Rajendra Boppana2026-03-06💻 cs

VTool-R1: VLMs Learn to Think with Images via Reinforcement Learning on Multimodal Tool Use

VTool-R1 is het eerste framework dat visueel-taalmodellen via versterkingsleer traint om strategisch Python-visualisatietools te gebruiken voor het genereren van multimodale denkstappen, waardoor ze effectiever kunnen redeneren door te "denken met afbeeldingen".

Mingyuan Wu, Jingcheng Yang, Jize Jiang + 6 more2026-03-06💻 cs

Attribute-Efficient PAC Learning of Sparse Halfspaces with Constant Malicious Noise Rate

Dit artikel presenteert een attribuut-efficiënt PAC-leeralgoritme dat een $s$ -spare halfspace kan leren met een constant percentage kwaadaardige ruis, door gebruik te maken van variaties op hinge-verliesminimalisatie onder specifieke concentratie- en margevoorwaarden.

Shiwei Zeng, Jie Shen2026-03-06💻 cs

Highly Efficient and Effective LLMs with Multi-Boolean Architectures

Deze paper introduceert een nieuw kader dat Large Language Models vertegenwoordigt met multi-kern Boolese parameters, waardoor voor het eerst directe finetuning in het Boolese domein mogelijk is zonder latente gewichten, wat leidt tot een aanzienlijke vermindering van complexiteit en een verbeterde prestatie vergeleken met bestaande binaire en kwantisatie-methoden.

Ba-Hien Tran, Van Minh Nguyen2026-03-06💻 cs

Continuous Chain of Thought Enables Parallel Exploration and Reasoning

Dit paper introduceert een continu Chain-of-Thought-ramen (CoT2) dat door het gebruik van continu waarden in plaats van discrete tokens parallelle zoekprocessen en verbeterde redeneerprestaties mogelijk maakt, ondersteund door theoretische garanties en effectieve trainingsstrategieën.

Halil Alperen Gozeten, M. Emrullah Ildiz, Xuechen Zhang + 3 more2026-03-06💻 cs

SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models

Deze paper introduceert SealQA, een nieuwe benchmark die aantoont dat zelfs de meest geavanceerde zoekversterkte taalmodellen en redeneersystemen ernstig tekortschieten bij het verwerken van verstorende of lange zoekresultaten voor feitelijke vragen.

Thinh Pham, Nguyen Nguyen, Pratibha Zunjare + 3 more2026-03-06💻 cs

FPGA-Enabled Machine Learning Applications in Earth Observation: A Systematic Review

Deze systematische review analyseert 68 experimenten waarbij FPGA's worden gebruikt voor machine learning-toepassingen in aardobservatie, en introduceert twee taxonomieën voor efficiënte modelarchitecturen en implementatiestrategieën om de uitdagingen van bandbreedte en onboard-ontscheidingsvorming in de NewSpace-ère aan te pakken.

Cédric Léonard, Dirk Stober, Martin Schulz2026-03-06💻 cs

HSG-12M: A Large-Scale Benchmark of Spatial Multigraphs from the Energy Spectra of Non-Hermitian Crystals

Deze paper introduceert HSG-12M, een groot dataset met ruim 16 miljoen ruimtelijke multigrafen afgeleid van niet-Hermitische kristalspectra via de Poly2Graph-pipeline, die een cruciale leemte vult in bestaande benchmarks door complexe geometrische informatie te behouden en zo data-gedreven ontdekkingen in de fysica en geometrie-bewust grafenleren mogelijk maakt.

Xianquan Yan, Hakan Akgün, Kenji Kawaguchi + 2 more2026-03-06🔬 cond-mat.mes-hall

EDINET-Bench: Evaluating LLMs on Complex Financial Tasks using Japanese Financial Statements

Deze paper introduceert EDINET-Bench, een open-source benchmark voor Japanse financiële rapporten die aantoont dat zelfs geavanceerde grote taalmodellen moeite hebben met complexe financiële taken zoals fraudeopsporing en dat er behoefte is aan realistischere evaluatiekaders met gespecialiseerde ondersteuning.

Issa Sugiura, Takashi Ishida, Taro Makino + 4 more2026-03-06💻 cs

SPEED-RL: Faster Training of Reasoning Models via Online Curriculum Learning

Dit paper introduceert SPEED-RL, een adaptieve curriculumleermethode die de trainingstijd van redenerende modellen met 2 tot 6 keer verkort door selectief voorbeelden van gemiddelde moeilijkheidsgraad te gebruiken, wat leidt tot een snellere convergentie zonder nauwkeurigheidsverlies.

Ruiqi Zhang, Daman Arora, Song Mei + 1 more2026-03-06💻 cs

Bures-Wasserstein Flow Matching for Graph Generation

Dit artikel introduceert BWFlow, een nieuw stroommatching-raamwerk voor het genereren van grafen dat de beperkingen van bestaande methoden oplost door de gezamenlijke evolutie van knopen en randen te modelleren via Markov-random fields en Bures-Wasserstein-optimal transport voor een soepelere en efficiëntere trainings- en bemonsteringsproces.

Keyue Jiang, Jiahao Cui, Xiaowen Dong + 1 more2026-03-06💻 cs

From Bandit Regret to FDR Control: Online Selective Generation with Adversarial Feedback Unlocking

Dit paper introduceert ExSUL, een nieuw online leerframework dat selectieve generatie van grote taalmodellen robust maakt voor onbetrouwbare antwoorden in vijandige omgevingen door partiële feedback om te zetten in een gegarandeerde controle op de False Discovery Rate.

Minjae Lee, Yoonjae Jung, Sangdon Park2026-03-06💻 cs

Structured Kolmogorov-Arnold Neural ODEs for Interpretable Learning and Symbolic Discovery of Nonlinear Dynamics

Dit artikel introduceert Structured Kolmogorov-Arnold Neural ODEs (SKANODEs), een framework dat Kolmogorov-Arnold-netwerken integreert in neurale ODE's om zowel nauwkeurige voorspellingen als interpreteerbare symbolische vergelijkingen voor niet-lineaire dynamische systemen te genereren, zoals aangetoond op oscillatoren en F-16-vibratiedata.

Wei Liu, Kiran Bacsa, Loon Ching Tang + 1 more2026-03-06🔬 physics

Learning Physical Systems: Symplectification via Gauge Fixing in Dirac Structures

Dit artikel introduceert Presymplectification Networks (PSNs), een nieuw raamwerk dat Dirac-structuren gebruikt om dissipatieve en beperkte mechanische systemen, zoals de ANYmal-quadruped, te 'symplectificeren' door ze in een hogedimensionale variëteit in te bedden, waardoor structurenbehoudende deep learning-modellen mogelijk worden die energie, impuls en constraints behouden.

Aristotelis Papatheodorou, Pranav Vaidhyanathan, Natalia Ares + 1 more2026-03-06💻 cs

Parameter Stress Analysis in Reinforcement Learning: Applying Synaptic Filtering to Policy Networks

Dit artikel introduceert een raamwerk voor de analyse van de robuustheid van beleidsnetwerken in versterkingslering door synaptische filtering en adversariale aanvallen te combineren om parameters te classificeren als fragiel, robuust of antifragiel, waarbij wordt aangetoond dat bepaalde parameters de prestaties onder stress juist kunnen verbeteren.

Zain ul Abdeen, Ming Jin2026-03-06💻 cs

MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining

MuRating is een schaalbaar raamwerk dat hoogwaardige kwaliteitsindicatoren uit het Engels overbrengt naar een enkel beoordelingsmodel voor 17 talen, waardoor de prestaties van meertalige grote taalmodellen aanzienlijk verbeteren, vooral bij kennisintensieve taken.

Zhixun Chen, Ping Guo, Wenhan Han + 10 more2026-03-06💻 cs

Overtone: Cyclic Patch Modulation for Clean, Efficient, and Flexible Physics Emulators

Overtone introduceert een flexibele, architecture-onafhankelijke aanpak voor PDE-simulaties die door dynamische, cyclische modulatie van patch-groottes systematische harmonische fouten vermindert en rekenkosten aanpast, wat resulteert in aanzienlijk lagere fouten en verbeterde efficiëntie vergeleken met traditionele statische modellen.

Payel Mukhopadhyay, Michael McCabe, Ruben Ohana + 1 more2026-03-06💻 cs

Some Super-approximation Rates of ReLU Neural Networks for Korobov Functions

Dit artikel toont aan dat ReLU-neurale netwerken Korobov-functies kunnen benaderen met super-optimale fouten van de orde $2m$ in de $L_p$ -norm en $2m-2$ in de $W^1_p$ -norm, waarbij de expressiviteit grotendeels vrij blijft van de vervloeking van de dimensionaliteit dankzij het gebruik van schaarse roostervaste elementen en bit-extractie.

Yuwen Li, Guozhi Zhang2026-03-06💻 cs

Kernel Based Maximum Entropy Inverse Reinforcement Learning for Mean-Field Games

Deze paper introduceert een kernel-gebaseerde maximum-entropie methode voor inverse versterkingsleer in oneindige-horizont stationaire mean-field games die niet-lineaire beloningsstructuren kan infereren, en biedt tevens een alternatief convergentie-algoritme voor eindige-horizont niet-stationaire scenario's.

Berkay Anahtarci, Can Deha Kariksiz, Naci Saldi2026-03-06🔢 math

← Vorige Volgende →