cs.LG Arbeiten | Gist.Science

Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models

Die Arbeit stellt Code-Space Response Oracles (CSRO) vor, ein neuartiges Framework, das in Multi-Agenten-Systemen herkömmliche Reinforcement-Learning-Orakel durch Large Language Models ersetzt, um direkt als menschenlesbarer Code generierte, interpretierbare und wettbewerbsfähige Strategien zu ermöglichen.

Daniel Hennes, Zun Li, John Schultz, Marc Lanctot2026-03-12🤖 cs.AI

Denoising the US Census: Succinct Block Hierarchical Regression

Diese Arbeit stellt BlueDown vor, ein neues post-processing-Verfahren, das durch einen effizienten hierarchischen Regressionsalgorithmus präzisere und konsistente Schätzungen für die US-Volkszählung liefert, während dieselben Datenschutzgarantien und strukturellen Einschränkungen wie beim bestehenden TopDown-Verfahren gewahrt bleiben.

Badih Ghazi, Pritish Kamath, Ravi Kumar, Pasin Manurangsi, Adam Sealfon2026-03-12🤖 cs.LG

Hardware Efficient Approximate Convolution with Tunable Error Tolerance for CNNs

Die Arbeit stellt einen hardwareeffizienten Ansatz für CNNs vor, der mittels einer „weichen Sparsity"-Strategie und einer MSB-basierten Proxy-Methode als RISC-V-Instruktion signifikante Reduktionen bei MAC-Operationen und Energieverbrauch erreicht, ohne dabei die Genauigkeit zu beeinträchtigen.

Vishal Shashidhar, Anupam Kumari, Roy P Paily2026-03-12🤖 cs.LG

CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR

Das Papier stellt CLIPO vor, eine Methode zur Verallgemeinerung von Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) durch kontrastives Lernen, die die Robustheit und Generalisierungsfähigkeit von Large Language Models verbessert, indem sie inkonsistente Zwischenschritte in korrekten Lösungswegen erkennt und Halluzinationen unterdrückt.

Sijia Cui, Pengyu Cheng, Jiajun Song, Yongbo Gai, Guojun Zhang, Zhechao Yu, Jianhe Lin, Xiaoxi Jiang, Guanjun Jiang2026-03-12🤖 cs.LG

Lost in the Middle at Birth: An Exact Theory of Transformer Position Bias

Diese Arbeit beweist, dass die „Lost in the Middle"-Phänomen-U-Kurve bereits bei der Initialisierung von Transformer-Modellen als inhärente geometrische Eigenschaft der kausalen Aufmerksamkeit und Residualverbindungen existiert, unabhängig von Positionscodings oder Training.

Borun D Chowdhury2026-03-12🤖 cs.LG

Unbalanced Optimal Transport Dictionary Learning for Unsupervised Hyperspectral Image Clustering

Dieses Papier schlägt eine Methode zur unüberwachten Hyperspektralbild-Clustering vor, die unbalancierte Wasserstein-Baryzentren nutzt, um eine robuste, niedrigdimensionale Darstellung zu lernen und so die Nachteile herkömmlicher ausbalancierter Ansätze wie Klassenverwischung und Empfindlichkeit gegenüber Ausreißern zu überwinden.

Joshua Lentz, Nicholas Karris, Alex Cloninger, James M. Murphy2026-03-12📊 stat

A neural operator for predicting vibration frequency response curves from limited data

Diese Arbeit stellt einen neuronalen Operator vor, der durch die Integration eines impliziten numerischen Schemas in der Lage ist, aus nur 7 % der Daten die vollständige Frequenzgangkurve eines linearen Einmassenschwingers mit 99,87 % Genauigkeit vorherzusagen, ohne auf physikalische Regularisierungsterme angewiesen zu sein.

D. Bluedorn, A. Badawy, B. E. Saunders, D. Roettgen, A. Abdelkefi2026-03-12🤖 cs.LG

Mashup Learning: Faster Finetuning by Remixing Past Checkpoints

Der vorgestellte Ansatz „Mashup Learning" beschleunigt das Feinabstimmen von Sprachmodellen und verbessert die Genauigkeit, indem er die relevantesten historischen Checkpoints durch Modell-Merging zu einer optimierten Initialisierung für neue Aufgaben kombiniert.

Sofia Maria Lo Cicero Vaina, Artem Chumachenko, Max Ryabinin2026-03-12🤖 cs.LG

ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning

Die Arbeit stellt ReMix vor, einen neuartigen Router für Mixture-of-LoRAs, der durch den Einsatz nicht-lernbarer Routing-Gewichte und einer auf Reinforcement Learning basierenden RLOO-Gradientenschätzung das Problem der unausgewogenen LoRA-Nutzung löst und damit die Leistungsfähigkeit beim Fine-Tuning von LLMs signifikant verbessert.

Ruizhong Qiu, Hanqing Zeng, Yinglong Xia, Yiwen Meng, Ren Chen, Jiarui Feng, Dongqi Fu, Qifan Wang, Jiayi Liu, Jun Xiao, Xiangjun Fan, Benyu Zhang, Hong Li, Zhining Liu, Hyunsik Yoo, Zhichen Zeng, Tianxin Wei, Hanghang Tong2026-03-12🤖 cs.LG

DT-BEHRT: Disease Trajectory-aware Transformer for Interpretable Patient Representation Learning

Die Studie stellt DT-BEHRT vor, einen graphenbasierten Transformer, der durch die explizite Modellierung von Krankheitsverläufen und eine maßgeschneiderte Vorverarbeitungsmethode interpretierbare Patientenrepräsentationen für die klinische Entscheidungsfindung erzeugt.

Deyi Li, Zijun Yao, Qi Xu, Muxuan Liang, Lingyao Li, Zijian Xu, Mei Liu2026-03-12🤖 cs.LG

Stability and Robustness via Regularization: Bandit Inference via Regularized Stochastic Mirror Descent

Diese Arbeit entwickelt eine systematische Stabilitätstheorie für Banditalgorithmen auf Basis des stochastischen spiegelnden Abstiegs, führt regularisierte EXP3-Varianten ein, die sowohl für gültige statistische Inferenz als auch für minimax-optimales Lernen sorgen, und zeigt deren Robustheit gegenüber adversarischen Korruptionen.

Budhaditya Halder, Ishan Sengupta, Koustav Chowdhury, Koulik Khamaru2026-03-12📊 stat

ARCHE: Autoregressive Residual Compression with Hyperprior and Excitation

Die Arbeit stellt ARCHE vor, ein effizientes, auf End-to-End-Lernen basierendes Bildkompressionsframework, das durch die Kombination von hierarchischen, räumlichen und kanalbasierten Priors sowie adaptiver Merkmalsneujustierung ohne rekurrente oder Transformer-Komponenten einen neuen State-of-the-Art in der Rate-Distortion-Leistung bei gleichzeitig hoher Recheneffizienz erreicht.

Sofia Iliopoulou, Dimitris Ampeliotis, Athanassios Skodras2026-03-12⚡ eess

Adaptive Activation Cancellation for Hallucination Mitigation in Large Language Models

Die Arbeit stellt Adaptive Activation Cancellation (AAC) vor, ein Echtzeit-Inferenz-Verfahren, das Halluzinationen in großen Sprachmodellen durch die gezielte Unterdrückung spezifischer neuronaler Aktivierungen ohne Nachtraining oder externe Wissensquellen reduziert und dabei gleichzeitig die allgemeine Sprachfähigkeit und das logische Denken des Modells vollständig erhält.

Eric Yocam, Varghese Vaidyan, Gurcan Comert, Paris Kalathas, Yong Wang, Judith L. Mwakalonge2026-03-12💬 cs.CL

Actor-Accelerated Policy Dual Averaging for Reinforcement Learning in Continuous Action Spaces

Dieses Paper stellt die actor-accelerated PDA vor, eine Methode, die ein gelerntes Policy-Netzwerk nutzt, um die rechenintensive Optimierung bei der Policy Dual Averaging in kontinuierlichen Aktionsräumen zu beschleunigen, dabei die theoretischen Konvergenzgarantien bewahrt und in Benchmarks die Leistung von PPO übertrifft.

Ji Gao, Caleb Ju, Guanghui Lan, Zhaohui Tong2026-03-12🤖 cs.LG

Hybrid Hidden Markov Model for Modeling Equity Excess Growth Rate Dynamics: A Discrete-State Approach with Jump-Diffusion

Die Studie stellt ein hybrides Hidden-Markov-Modell vor, das diskrete Marktzustände mit einem Poisson-Sprungmechanismus kombiniert, um synthetische Aktienrenditen zu erzeugen, die sowohl die Verteilungseigenschaften als auch die zeitliche Struktur und Volatilitätsclustering realer Marktdaten besser abbilden als bestehende Ansätze wie GARCH oder Standard-HMMs.

Abdulrahman Alswaidan, Jeffrey D. Varner2026-03-12💰 q-fin

Flexible Cutoff Learning: Optimizing Machine Learning Potentials After Training

Die Studie stellt Flexible Cutoff Learning (FCL) vor, eine Methode zum Trainieren von Machine-Learning-Potenzialen mit nachträglich anpassbaren Abstandsabschnitten, die es ermöglicht, einen einzigen allgemeinen Ansatz für verschiedene Anwendungen zu optimieren, ohne das Modell neu trainieren zu müssen.

Rick Oerder (Institute for Numerical Simulation, University of Bonn, Fraunhofer Institute for Algorithms and Scientific Computing SCAI), Jan Hamaekers (Fraunhofer Institute for Algorithms and Scientific Computing SCAI)2026-03-12🔬 cond-mat.mtrl-sci

FusionNet: a frame interpolation network for 4D heart models

Das Paper stellt FusionNet vor, ein neuronales Netzwerk, das aus kurzen CMR-Aufnahmen hochauflösende 4D-Herzbewegungen rekonstruiert, indem es Zwischenformen schätzt, und erreicht dabei mit einem Dice-Koeffizienten von über 0,897 eine präzisere Formwiederherstellung als bestehende Methoden.

Chujie Chang, Shoko Miyauchi, Ken'ichi Morooka, Ryo Kurazume, Oscar Martinez Mozos2026-03-12🤖 cs.LG

SDSR: A Spectral Divide-and-Conquer Approach for Species Tree Reconstruction

Die Arbeit stellt SDSR vor, einen skalierbaren, auf spektraler Graphentheorie basierenden Divide-and-Conquer-Algorithmus zur Rekonstruktion von Speziesbäumen, der die Rechenzeit im Vergleich zu herkömmlichen Methoden um das Zehnfache reduziert, ohne dabei die Genauigkeit der phylogenetischen Analyse zu beeinträchtigen.

Ortal Reshef (Hebrew University of Jerusalem), Ofer Glassman (Weizmann Institute of Science), Or Zuk (Hebrew University of Jerusalem), Yariv Aizenbud (Tel Aviv University), Boaz Nadler (Weizmann Institute of Science), Ariel Jaffe (Hebrew University of Jerusalem)2026-03-12🧬 q-bio

A Diffusion Analysis of Policy Gradient for Stochastic Bandits

Diese Arbeit analysiert eine Diffusionsapproximation des Policy-Gradient-Verfahrens für stochastische Banditen, indem sie zeigt, dass bei einer Lernrate von $\eta = O(\Delta^2/\log(n))$ ein logarithmisches Regret von $O(k \log(k) \log(n) / \eta)$ erreicht wird, während für bestimmte Instanzen mit logarithmisch vielen Armen eine lineare Lernrate $\eta = O(\Delta^2)$ erforderlich ist, um lineares Regret zu vermeiden.

Tor Lattimore2026-03-12📊 stat

Rethinking the Harmonic Loss via Non-Euclidean Distance Layers

Diese Arbeit erweitert den harmonischen Verlust über die reine euklidische Geometrie hinaus, indem sie systematisch verschiedene nicht-euklidische Distanzmetriken untersucht und nachweist, dass insbesondere kosinus-basierte Ansätze in Vision- und Sprachmodellen die Genauigkeit, Interpretierbarkeit und Nachhaltigkeit im Vergleich zur herkömmlichen Kreuzentropie verbessern.

Maxwell Miller-Golub, Kamil Faber, Marcin Pietron, Panpan Zheng, Pasquale Minervini, Roberto Corizzo2026-03-12🤖 cs.LG

← Zurück Weiter →