cs.LG Arbeiten | Gist.Science

Beyond State-Wise Mirror Descent: Offline Policy Optimization with Parameteric Policies

Diese Arbeit überwindet die Beschränkungen bestehender offline-Reinforcement-Learning-Algorithmen für große oder kontinuierliche Aktionsräume, indem sie theoretische Garantien für parametrisierte Policies durch eine Verbindung von Mirror Descent und Natural Policy Gradient liefert, was zudem eine überraschende Vereinheitlichung von offline RL und Imitationslernen ermöglicht.

Xiang Li, Yuheng Zhang, Nan Jiang2026-03-04🤖 cs.AI

What Is the Alignment Tax?

Dieses Papier charakterisiert den Alignment-Tax erstmals formal durch eine geometrische Theorie im Repräsentationsraum, die eine exakte Pareto-Grenze für den Trade-off zwischen Sicherheit und Leistungsfähigkeit in Abhängigkeit vom Winkel zwischen den entsprechenden Unterräumen herleitet und eine Skalierungsgesetz-Zerlegung in einen irreduziblen strukturellen Anteil sowie einen mit der Modelldimension verschwindenden Restanteil liefert.

Robin Young2026-03-04📈 econ

A medical coding language model trained on clinical narratives from a population-wide cohort of 1.8 million patients

Dieses Papier stellt ein auf 5,8 Millionen elektronischen Gesundheitsakten trainiertes Sprachmodell vor, das medizinische Kodierungen automatisiert und dabei nicht nur eine hohe Genauigkeit erreicht, sondern auch systematische Untererfassungen von Sekundärdiagnosen in der dänischen Bevölkerung aufdeckt.

Joakim Edin, Sedrah Butt Balaganeshan, Annike Kjølby Kristensen + 3 more2026-03-04🤖 cs.LG

CoPeP: Benchmarking Continual Pretraining for Protein Language Models

Die Arbeit stellt CoPeP vor, ein Benchmark zum Evaluieren von kontinuierlichem Vor-Training für Protein-Sprachmodelle, das zeigt, wie die Nutzung zeitlicher Metadaten und fortgeschrittener Methoden die Modellleistung verbessert, um mit der dynamischen Natur biologischer Daten Schritt zu halten.

Darshan Patil, Pranshu Malviya, Mathieu Reymond + 2 more2026-03-04🤖 cs.LG

IDER: IDempotent Experience Replay for Reliable Continual Learning

Das Paper stellt IDER vor, eine neue Methode für zuverlässiges kontinuierliches Lernen, die durch die Ausnutzung der Idempotenz-Eigenschaft das Vergessen alter Aufgaben reduziert, die Vorhersagezuverlässigkeit erhöht und dabei rechenintensiv effizient mit bestehenden Replay-Verfahren kompatibel ist.

Zhanwang Liu, Yuting Li, Haoyuan Gao + 4 more2026-03-04🤖 cs.AI

BornoViT: A Novel Efficient Vision Transformer for Bengali Handwritten Basic Characters Classification

Die Studie stellt BornoViT vor, einen neuartigen, ressourcenschonenden Vision-Transformer mit nur 0,65 Millionen Parametern, der für die Klassifizierung bengalischer handschriftlicher Zeichen und Ziffern entwickelt wurde und auf dem BanglaLekha-Datensatz eine Genauigkeit von 95,77 % erreicht.

Rafi Hassan Chowdhury, Naimul Haque, Kaniz Fatiha2026-03-04🤖 cs.LG

Demystifying Group Relative Policy Optimization: Its Policy Gradient is a U-Statistic

Diese Arbeit stellt einen theoretischen Rahmen vor, der Group Relative Policy Optimization (GRPO) als U-Statistik charakterisiert, um dessen asymptotische Optimalität, Fehlergrenzen und eine universelle Skalierungsregel für die Gruppengröße herzuleiten und empirisch zu validieren.

Hongyi Zhou, Kai Ye, Erhan Xu + 4 more2026-03-04📊 stat

Grokking as a Phase Transition between Competing Basins: a Singular Learning Theory Approach

Diese Arbeit interpretiert das Phänomen des „Grokking" als Phasenübergang zwischen konkurrierenden Lösungsbecken mittels der Singular Learning Theory, wobei sie geschlossene Ausdrücke für den lokalen Lernkoeffizienten in quadratischen Netzwerken herleitet und empirisch nachweist, dass dieser Koeffizient ein zuverlässiges Werkzeug zur Verfolgung der Generalisierungsdynamik darstellt.

Ben Cullen, Sergio Estan-Ruiz, Riya Danait + 1 more2026-03-04📊 stat

Operator Learning Using Weak Supervision from Walk-on-Spheres

Die Arbeit stellt die Walk-on-Spheres Neural Operator (WoS-NO) vor, eine Methode, die mithilfe der Walk-on-Spheres-Methode schwache Supervision aus Monte-Carlo-Simulationen nutzt, um neuronale Operatoren für partielle Differentialgleichungen effizient und datenfrei zu trainieren, wodurch höhere Ableitungen vermieden werden und eine überlegene Genauigkeit, Geschwindigkeit sowie Speicherersparnis im Vergleich zu herkömmlichen physik-informierten Ansätzen erreicht wird.

Hrishikesh Viswanath, Hong Chul Nam, Xi Deng + 3 more2026-03-04🤖 cs.LG

What Helps---and What Hurts: Bidirectional Explanations for Vision Transformers

Die Arbeit stellt BiCAM vor, eine bidirektionale Methode zur Erzeugung von Klassifikationsaktivierungskarten für Vision Transformer, die sowohl positive als auch negative Beiträge berücksichtigt, um interpretierbare Erklärungen zu verbessern und Adversarial Examples effizient zu erkennen.

Qin Su, Tie Luo2026-03-04🤖 cs.AI

Rethinking Policy Diversity in Ensemble Policy Gradient in Large-Scale Reinforcement Learning

Diese Arbeit stellt die Coupled Policy Optimization vor, eine Methode, die durch KL-basierte Regularisierung die Inter-Policy-Diversität in Ensemble-Policy-Gradient-Algorithmen steuert, um stabile und effiziente Exploration in großskaligen Reinforcement-Learning-Szenarien zu ermöglichen und dabei bestehende Baselines wie SAPG, PBT und PPO zu übertreffen.

Naoki Shitanda, Motoki Omura, Tatsuya Harada + 1 more2026-03-04🤖 cs.AI

Hyperparameter Trajectory Inference with Conditional Lagrangian Optimal Transport

Dieses Paper stellt eine Methode zur Hyperparameter-Trajektorien-Inferenz vor, die mittels bedingtem Lagrange-optimalen Transport ein Surrogatmodell entwickelt, um das Verhalten neuronaler Netze bei veränderten Hyperparametern effizient vorherzusagen und teures Nachtrainieren zu vermeiden.

Harry Amad, Mihaela van der Schaar2026-03-04🤖 cs.AI

RxnNano:Training Compact LLMs for Chemical Reaction and Retrosynthesis Prediction via Hierarchical Curriculum Learning

Das Paper stellt RxnNano vor, ein kompaktes 0,5-Milliarden-Parameter-LLM, das durch hierarchisches Curriculum-Lernen und innovative chemische Konsistenzmechanismen deutlich bessere Vorhersagen für chemische Reaktionen und Retrosynthese erzielt als deutlich größere Modelle.

Ran Li, Shimin Di, Haowei LI + 4 more2026-03-04🤖 cs.AI

ATPO: Adaptive Tree Policy Optimization for Multi-Turn Medical Dialogue

Die vorgestellte Arbeit führt den adaptiven Baum-Policy-Optimierungsalgorithmus (ATPO) ein, der durch unsicherheitsgesteuerte Rollout-Allokation und effiziente Suchtechniken Large Language Models für mehrstufige medizinische Dialoge optimiert und dabei selbst kleinere Modelle wie Qwen3-8B in der Genauigkeit deutlich über größere Baseline-Modelle wie GPT-4o hebt.

Ruike Cao, Shaojie Bai, Fugen Yao + 3 more2026-03-04🤖 cs.AI

Is Retraining-Free Enough? The Necessity of Router Calibration for Efficient MoE Compression

Die Arbeit zeigt, dass eine retraining-freie Kompression von MoE-Modellen durch eine leichte Kalibrierung des Routers mittels Wissensdistillation (Router KD) signifikant verbessert werden kann, um die durch Router-Experten-Mismatch verursachten Leistungsverluste zu beheben.

Sieun Hyeon, Jaeyoung Do2026-03-04🤖 cs.AI

Self-Play Only Evolves When Self-Synthetic Pipeline Ensures Learnable Information Gain

Die Studie zeigt, dass eine nachhaltige Selbstentwicklung von Sprachmodellen nur durch einen selbstsynthetischen Datenpipeline mit messbarem Informationsgewinn gelingt, der durch asymmetrische Ko-Evolution, Kapazitätswachstum und proaktive Informationssuche erreicht wird.

Wei Liu, Siya Qi, Yali Du + 1 more2026-03-04💬 cs.CL

NExT-Guard: Training-Free Streaming Safeguard without Token-Level Labels

Die Arbeit stellt NExT-Guard vor, ein trainingsfreies Framework, das durch die Überwachung interpretierbarer latenter Merkmale aus Sparse Autoencodern Echtzeit-Sicherheitsgarantien für Streaming-Sprachmodelle ermöglicht und dabei teure Token-Level-Annotationen überflüssig macht.

Junfeng Fang, Nachuan Chen, Houcheng Jiang + 5 more2026-03-04🤖 cs.AI

Forecasting as Rendering: A 2D Gaussian Splatting Framework for Time Series Forecasting

Die Arbeit stellt TimeGS vor, ein neuartiges Framework, das die Zeitreihenvorhersage durch eine Umdeutung als 2D-Rendering mit adaptiven Gauß-Kernen und chronologisch kontinuierlicher Rasterisierung revolutioniert, um die Grenzen bestehender 2D-Reshaping-Ansätze zu überwinden und state-of-the-art Ergebnisse zu erzielen.

Yixin Wang, Yifan Hu, Peiyuan Liu + 3 more2026-03-04🤖 cs.AI

MedFeat: Model-Aware and Explainability-Driven Feature Engineering with LLMs for Clinical Tabular Prediction

MedFeat ist ein von LLMs gestützter, modellbewusster Framework für das Feature-Engineering im klinischen Bereich, der durch SHAP-basierte Erklärungen und Feedback-Schleifen stabile Vorhersageverbesserungen sowie generalisierbare, klinisch relevante Merkmale über verschiedene Datensätze hinweg erzielt.

Zizheng Zhang, Yiming Li, Justin Xu + 6 more2026-03-04🤖 cs.AI

MedCalc-Bench Doesn't Measure What You Think: A Benchmark Audit and the Case for Open-Book Evaluation

Die Studie zeigt durch eine systematische Fehlerbereinigung und den Einsatz von „Open-Book"-Prompting, dass MedCalc-Bench primär Formelwissen und Rechengenauigkeit statt klinischer Reasoning-Fähigkeiten misst und daher als Tool-Use-Evaluierung neu zu bewerten ist.

Artus Krohn-Grimberghe2026-03-04🤖 cs.AI

← Zurück Weiter →