cs.LG papers | Gist.Science

Ensembling Language Models with Sequential Monte Carlo

Deze paper introduceert een unificerend framework en een byte-level Sequential Monte Carlo-algoritme om meerdere taalmodellen met verschillende vocabulaires te combineren in $f$ -ensembles, waardoor er consistent kan worden gesampled uit geaggregeerde verdelingen die superieure prestaties leveren ten opzichte van traditionele gemiddelde waarschijnlijkheidsbenaderingen.

Robin Shing Moon Chan, Tianyu Liu, Samuel Kiegeland + 5 more2026-03-06🤖 cs.AI

On-Policy Self-Distillation for Reasoning Compression

Dit paper introduceert OPSDC, een methode voor on-policy zelfdistillatie die reasoning-modellen leert om hun eigen gedrag te comprimeren zonder grondwaarheid, wat leidt tot een aanzienlijke reductie in tokens en tegelijkertijd een verbeterde nauwkeurigheid op wiskundige taken.

Hejian Sang, Yuanda Xu, Zhengze Zhou + 3 more2026-03-06🤖 cs.LG

Latent Wasserstein Adversarial Imitation Learning

Dit paper introduceert Latent Wasserstein Adversarial Imitation Learning (LWAIL), een nieuw framework dat door gebruik te maken van een dynamische latente ruimte en slechts één expert-episode in staat is om expert-niveau prestaties te bereiken zonder toegang tot expert-acties.

Siqi Yang, Kai Yan, Alexander G. Schwing + 1 more2026-03-06🤖 cs.LG

Kraus Constrained Sequence Learning For Quantum Trajectories from Continuous Measurement

Deze paper introduceert een Kraus-gestructureerde outputlaag die, wanneer gekoppeld aan diverse sequentiemodellen, fysisch geldige kwantumtoestandsupdates garandeert bij het reconstrueren van kwantumtrajecten uit continue metingen, waarbij het Kraus-LSTM-model de beste prestaties levert in niet-stationaire regimes.

Priyanshi Singh, Krishna Bhatia2026-03-06🤖 cs.LG

Thermodynamic Response Functions in Singular Bayesian Models

Dit artikel introduceert een thermodynamisch responsframework dat temperingsafgeleiden en covariantie-identiteiten gebruikt om de complexe geometrie van singuliere Bayesiaanse modellen te verenigen, waarbij concepten zoals de RLCT en WAIC een natuurlijke interpretatie krijgen als responsfuncties die structurele herorganisatie en voorspellende variabiliteit kwantificeren.

Sean Plummer2026-03-06🔢 math

SurvHTE-Bench: A Benchmark for Heterogeneous Treatment Effect Estimation in Survival Analysis

Dit paper introduceert SurvHTE-Bench, het eerste uitgebreide benchmarkkader voor het schatten van heterogene behandelingseffecten in overlevingsanalyse, dat synthetische, semi-synthetische en real-world datasets omvat om bestaande methoden onder diverse omstandigheden rigoureus te evalueren.

Shahriar Noroozizadeh, Xiaobin Shen, Jeremy C. Weiss + 1 more2026-03-06🤖 cs.AI

Reasoning Theater: Disentangling Model Beliefs from Chain-of-Thought

Dit artikel toont aan dat activatieprobing modelovertuigingen kan onthullen die eerder zichtbaar zijn dan de chain-of-thought, waardoor performatief redeneren kan worden onderscheiden van echte redeneerprocessen en adaptieve berekening mogelijk wordt gemaakt.

Siddharth Boppana, Annabel Ma, Max Loeffler + 5 more2026-03-06🤖 cs.AI

Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation

Dit onderzoek gebruikt gecensureerde Chinese taalmodellen als natuurlijk testplatform om methoden voor het eliciteren van eerlijke antwoorden en het detecteren van leugens te evalueren, waarbij wordt geconcludeerd dat bepaalde prompts en fine-tuning technieken de waarheidsvinding verbeteren maar geen enkele methode volledig fouten elimineert.

Helena Casademunt, Bartosz Cywiński, Khoi Tran + 3 more2026-03-06🤖 cs.AI

Cheap Thrills: Effective Amortized Optimization Using Inexpensive Labels

Dit paper introduceert een nieuw kader dat goedkope, imperfecte labels combineert met zelftoezicht om machine-learning-surrogaten te trainen die complexe optimalisatieproblemen efficiënter oplossen met aanzienlijk lagere kosten en verbeterde nauwkeurigheid.

Khai Nguyen, Petros Ellinas, Anvita Bhagavathula + 1 more2026-03-06🔢 math

POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation

Het artikel introduceert POET-X, een geheugenefficiënte en schaalbare variant van de POET-methode die de stabiliteit behoudt en het trainen van miljarden-parameter grote taalmodellen op één enkele GPU mogelijk maakt, terwijl standaardmethoden zoals AdamW hierbij vastlopen.

Zeju Qiu, Lixin Liu, Adrian Weller + 2 more2026-03-06🤖 cs.AI

RoboPocket: Improve Robot Policies Instantly with Your Phone

RoboPocket is een draagbaar systeem dat robotbeleid direct verbetert door augmented reality-voorspellingen op smartphones te gebruiken voor gerichte dataverzameling en asynchrone online finetuning, waardoor de datadoeltreffendheid en sample-efficiëntie aanzienlijk worden verhoogd zonder fysieke robotexecutie.

Junjie Fang, Wendi Chen, Han Xue + 7 more2026-03-06🤖 cs.AI

Recurrent Action Transformer with Memory

Deze paper introduceert RATE, een nieuw transformer-architectuur voor offline versterkingsleren die een recurrente geheugenmechanisme integreert om effectieve besluitvorming op lange termijn in deels waarneembare omgevingen mogelijk te maken, wat leidt tot aanzienlijke prestatieverbeteringen op geheugenintensieve taken zonder in te leveren op standaard benchmarks.

Egor Cherepanov, Alexey Staroverov, Alexey K. Kovalev + 1 more2026-03-05🤖 cs.AI

Crystal-GFN: sampling crystals with desirable properties and constraints

Dit paper introduceert Crystal-GFN, een generatief model dat kristalstructuren met wenselijke eigenschappen en fysieke constraints efficiënt genereert om de ontdekking van nieuwe materialen voor duurzame energie te versnellen.

Mila AI4Science, :, Alex Hernandez-Garcia + 11 more2026-03-05🤖 cs.LG

GeoTop: Advancing Image Classification with Geometric-Topological Analysis

GeoTop is een wiskundig onderbouwd raamwerk dat Topologische Data-analyse en Lipschitz-Killing-krommingen verenigt om de ambiguïteit tussen goed- en kwaadaardige structuren in diagnostische beeldvorming op te lossen door topologische equivalentie te doorbreken met geometrische differentiatoren, wat leidt tot verbeterde classificatie, interpretatie en efficiëntie.

Mariem Abaach, Ian Morilla2026-03-05🤖 cs.LG

Sample-Optimal Locally Private Hypothesis Selection and the Provable Benefits of Interactivity

Deze paper presenteert een optimaal, interactief lokaal differentieel privé-algoritme voor hypothese-selectie dat de steekproefcomplexiteit van $O(k \log k)$ doorbreekt tot $O(k)$ met slechts $O(\log \log k)$ interactierondes, waarbij het concept van 'kritieke queries' voor statistische query-algoritmen wordt geïntroduceerd.

Alireza F. Pour, Hassan Ashtiani, Shahab Asoodeh2026-03-05🤖 cs.LG

Graph Neural Networks in EEG-based Emotion Recognition: A Survey

Deze survey biedt een overzicht en richtlijnen voor het gebruik van Graph Neural Networks in EEG-gebaseerde emotieherkenning, waarbij een unificerend raamwerk voor grafconstructie wordt gepresenteerd om bestaande methoden te categoriseren en toekomstige uitdagingen te schetsen.

Chenyu Liu, Yuqiu Deng, Yihao Wu + 10 more2026-03-05🤖 cs.LG

List Sample Compression and Uniform Convergence

Dit artikel toont aan dat hoewel uniforme convergentie in het lijst-PAC-leringskader equivalent blijft aan leerbaarheid, het compressieprincipe faalt doordat er leerbare klassen bestaan die niet samengevoegd kunnen worden, waarmee de lijstversie van de compressieconjectuur van Littlestone en Warmuth wordt weerlegd.

Steve Hanneke, Shay Moran, Tom Waknine2026-03-05🤖 cs.LG

Agnostic Tomography of Stabilizer Product States

Dit paper introduceert een efficiënt algoritme voor agnostische tomografie van stabilizer-producttoestanden dat, onder de aanname dat de gegeven toestand een bepaalde fideliteit heeft met een dergelijke toestand, in polynoomtijd een beknopte beschrijving levert die de gegeven toestand minstens zo goed benadert als elke toestand uit de klasse.

Sabee Grewal, Vishnu Iyer, William Kretschmer + 1 more2026-03-05⚛️ quant-ph

A Review of Reward Functions for Reinforcement Learning in the context of Autonomous Driving

Dit artikel analyseert de uitdagingen bij het ontwerpen van beloningsfuncties voor reinforcement learning in autonoom rijden, identificeert tekortkomingen in de huidige literatuur en stelt gestructureerde, contextbewuste oplossingen voor.

Ahmed Abouelazm, Jonas Michel, J. Marius Zoellner2026-03-05🤖 cs.AI

Tracking solutions of time-varying variational inequalities

Deze paper breidt bestaande resultaten uit door tracking-bounds te leveren voor variatiële ongelijkheden met een sublineaire oplossingspad of periodieke dynamiek, en onderzoekt de convergentie en het mogelijk chaotische gedrag van discrete dynamische systemen voor periodieke tijdvariabele variatiële ongelijkheden.

Hédi Hadiji, Sarah Sachs, Cristóbal Guzmán2026-03-05🤖 cs.LG

← Vorige Volgende →