CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR

Das Papier stellt CLIPO vor, eine Methode zur Verallgemeinerung von Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) durch kontrastives Lernen, die die Robustheit und Generalisierungsfähigkeit von Large Language Models verbessert, indem sie inkonsistente Zwischenschritte in korrekten Lösungswegen erkennt und Halluzinationen unterdrückt.

Sijia Cui, Pengyu Cheng, Jiajun Song, Yongbo Gai, Guojun Zhang, Zhechao Yu, Jianhe Lin, Xiaoxi Jiang, Guanjun Jiang2026-03-12🤖 cs.LG

Unbalanced Optimal Transport Dictionary Learning for Unsupervised Hyperspectral Image Clustering

Dieses Papier schlägt eine Methode zur unüberwachten Hyperspektralbild-Clustering vor, die unbalancierte Wasserstein-Baryzentren nutzt, um eine robuste, niedrigdimensionale Darstellung zu lernen und so die Nachteile herkömmlicher ausbalancierter Ansätze wie Klassenverwischung und Empfindlichkeit gegenüber Ausreißern zu überwinden.

Joshua Lentz, Nicholas Karris, Alex Cloninger, James M. Murphy2026-03-12📊 stat

ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning

Die Arbeit stellt ReMix vor, einen neuartigen Router für Mixture-of-LoRAs, der durch den Einsatz nicht-lernbarer Routing-Gewichte und einer auf Reinforcement Learning basierenden RLOO-Gradientenschätzung das Problem der unausgewogenen LoRA-Nutzung löst und damit die Leistungsfähigkeit beim Fine-Tuning von LLMs signifikant verbessert.

Ruizhong Qiu, Hanqing Zeng, Yinglong Xia, Yiwen Meng, Ren Chen, Jiarui Feng, Dongqi Fu, Qifan Wang, Jiayi Liu, Jun Xiao, Xiangjun Fan, Benyu Zhang, Hong Li, Zhining Liu, Hyunsik Yoo, Zhichen Zeng, Tianxin Wei, Hanghang Tong2026-03-12🤖 cs.LG

Stability and Robustness via Regularization: Bandit Inference via Regularized Stochastic Mirror Descent

Diese Arbeit entwickelt eine systematische Stabilitätstheorie für Banditalgorithmen auf Basis des stochastischen spiegelnden Abstiegs, führt regularisierte EXP3-Varianten ein, die sowohl für gültige statistische Inferenz als auch für minimax-optimales Lernen sorgen, und zeigt deren Robustheit gegenüber adversarischen Korruptionen.

Budhaditya Halder, Ishan Sengupta, Koustav Chowdhury, Koulik Khamaru2026-03-12📊 stat

ARCHE: Autoregressive Residual Compression with Hyperprior and Excitation

Die Arbeit stellt ARCHE vor, ein effizientes, auf End-to-End-Lernen basierendes Bildkompressionsframework, das durch die Kombination von hierarchischen, räumlichen und kanalbasierten Priors sowie adaptiver Merkmalsneujustierung ohne rekurrente oder Transformer-Komponenten einen neuen State-of-the-Art in der Rate-Distortion-Leistung bei gleichzeitig hoher Recheneffizienz erreicht.

Sofia Iliopoulou, Dimitris Ampeliotis, Athanassios Skodras2026-03-12⚡ eess

Adaptive Activation Cancellation for Hallucination Mitigation in Large Language Models

Die Arbeit stellt Adaptive Activation Cancellation (AAC) vor, ein Echtzeit-Inferenz-Verfahren, das Halluzinationen in großen Sprachmodellen durch die gezielte Unterdrückung spezifischer neuronaler Aktivierungen ohne Nachtraining oder externe Wissensquellen reduziert und dabei gleichzeitig die allgemeine Sprachfähigkeit und das logische Denken des Modells vollständig erhält.

Eric Yocam, Varghese Vaidyan, Gurcan Comert, Paris Kalathas, Yong Wang, Judith L. Mwakalonge2026-03-12💬 cs.CL

Hybrid Hidden Markov Model for Modeling Equity Excess Growth Rate Dynamics: A Discrete-State Approach with Jump-Diffusion

Die Studie stellt ein hybrides Hidden-Markov-Modell vor, das diskrete Marktzustände mit einem Poisson-Sprungmechanismus kombiniert, um synthetische Aktienrenditen zu erzeugen, die sowohl die Verteilungseigenschaften als auch die zeitliche Struktur und Volatilitätsclustering realer Marktdaten besser abbilden als bestehende Ansätze wie GARCH oder Standard-HMMs.

Abdulrahman Alswaidan, Jeffrey D. Varner2026-03-12💰 q-fin

Flexible Cutoff Learning: Optimizing Machine Learning Potentials After Training

Die Studie stellt Flexible Cutoff Learning (FCL) vor, eine Methode zum Trainieren von Machine-Learning-Potenzialen mit nachträglich anpassbaren Abstandsabschnitten, die es ermöglicht, einen einzigen allgemeinen Ansatz für verschiedene Anwendungen zu optimieren, ohne das Modell neu trainieren zu müssen.

Rick Oerder (Institute for Numerical Simulation, University of Bonn, Fraunhofer Institute for Algorithms and Scientific Computing SCAI), Jan Hamaekers (Fraunhofer Institute for Algorithms and Scientific Computing SCAI)2026-03-12🔬 cond-mat.mtrl-sci

SDSR: A Spectral Divide-and-Conquer Approach for Species Tree Reconstruction

Die Arbeit stellt SDSR vor, einen skalierbaren, auf spektraler Graphentheorie basierenden Divide-and-Conquer-Algorithmus zur Rekonstruktion von Speziesbäumen, der die Rechenzeit im Vergleich zu herkömmlichen Methoden um das Zehnfache reduziert, ohne dabei die Genauigkeit der phylogenetischen Analyse zu beeinträchtigen.

Ortal Reshef (Hebrew University of Jerusalem), Ofer Glassman (Weizmann Institute of Science), Or Zuk (Hebrew University of Jerusalem), Yariv Aizenbud (Tel Aviv University), Boaz Nadler (Weizmann Institute of Science), Ariel Jaffe (Hebrew University of Jerusalem)2026-03-12🧬 q-bio

A Diffusion Analysis of Policy Gradient for Stochastic Bandits

Diese Arbeit analysiert eine Diffusionsapproximation des Policy-Gradient-Verfahrens für stochastische Banditen, indem sie zeigt, dass bei einer Lernrate von η=O(Δ2/log(n))\eta = O(\Delta^2/\log(n)) ein logarithmisches Regret von O(klog(k)log(n)/η)O(k \log(k) \log(n) / \eta) erreicht wird, während für bestimmte Instanzen mit logarithmisch vielen Armen eine lineare Lernrate η=O(Δ2)\eta = O(\Delta^2) erforderlich ist, um lineares Regret zu vermeiden.

Tor Lattimore2026-03-12📊 stat

Rethinking the Harmonic Loss via Non-Euclidean Distance Layers

Diese Arbeit erweitert den harmonischen Verlust über die reine euklidische Geometrie hinaus, indem sie systematisch verschiedene nicht-euklidische Distanzmetriken untersucht und nachweist, dass insbesondere kosinus-basierte Ansätze in Vision- und Sprachmodellen die Genauigkeit, Interpretierbarkeit und Nachhaltigkeit im Vergleich zur herkömmlichen Kreuzentropie verbessern.

Maxwell Miller-Golub, Kamil Faber, Marcin Pietron, Panpan Zheng, Pasquale Minervini, Roberto Corizzo2026-03-12🤖 cs.LG