cs.LG Arbeiten | Gist.Science

Tell Me What To Learn: Generalizing Neural Memory to be Controllable in Natural Language

Die vorgestellte Arbeit entwickelt ein generalisiertes neuronales Gedächtnissystem, das es ermöglicht, das Lernen und Vergessen von Informationen durch natürliche Sprachanweisungen flexibel zu steuern, um so kostspielige Nachtrainingsverfahren zu vermeiden und die Anpassungsfähigkeit an heterogene Datenquellen zu verbessern.

Max S. Bennett, Thomas P. Zollo, Richard Zemel2026-03-04🤖 cs.LG

FlexGuard: Continuous Risk Scoring for Strictness-Adaptive LLM Content Moderation

Die Arbeit stellt FlexGuard vor, ein LLM-basiertes Moderationssystem, das durch kontinuierliche Risikobewertung und eine neue Benchmark (FlexBench) die Anpassungsfähigkeit und Robustheit von Inhaltsfiltern an unterschiedliche und sich wandelnde Strengeanforderungen verbessert.

Zhihao Ding, Jinming Li, Ze Lu + 1 more2026-03-04🤖 cs.AI

A Boundary Integral-based Neural Operator for Mesh Deformation

Diese Arbeit stellt einen effizienten, auf Randintegralen und neuronalen Operatoren basierenden Ansatz (BINO) vor, der die Gitterverformung als lineares Elastizitätsproblem formuliert und durch die mathematische Entkopplung physikalischer Integration von geometrischen Darstellungen hohe Genauigkeit sowie Recheneffizienz für parametrische Gittergenerierung und Formoptimierung gewährleistet.

Zhengyu Wu, Jun Liu, Wei Wang2026-03-04🤖 cs.LG

Beyond State-Wise Mirror Descent: Offline Policy Optimization with Parameteric Policies

Diese Arbeit überwindet die Beschränkungen bestehender offline-Reinforcement-Learning-Algorithmen für große oder kontinuierliche Aktionsräume, indem sie theoretische Garantien für parametrisierte Policies durch eine Verbindung von Mirror Descent und Natural Policy Gradient liefert, was zudem eine überraschende Vereinheitlichung von offline RL und Imitationslernen ermöglicht.

Xiang Li, Yuheng Zhang, Nan Jiang2026-03-04🤖 cs.AI

What Is the Alignment Tax?

Dieses Papier charakterisiert den Alignment-Tax erstmals formal durch eine geometrische Theorie im Repräsentationsraum, die eine exakte Pareto-Grenze für den Trade-off zwischen Sicherheit und Leistungsfähigkeit in Abhängigkeit vom Winkel zwischen den entsprechenden Unterräumen herleitet und eine Skalierungsgesetz-Zerlegung in einen irreduziblen strukturellen Anteil sowie einen mit der Modelldimension verschwindenden Restanteil liefert.

Robin Young2026-03-04📈 econ

A medical coding language model trained on clinical narratives from a population-wide cohort of 1.8 million patients

Dieses Papier stellt ein auf 5,8 Millionen elektronischen Gesundheitsakten trainiertes Sprachmodell vor, das medizinische Kodierungen automatisiert und dabei nicht nur eine hohe Genauigkeit erreicht, sondern auch systematische Untererfassungen von Sekundärdiagnosen in der dänischen Bevölkerung aufdeckt.

Joakim Edin, Sedrah Butt Balaganeshan, Annike Kjølby Kristensen + 3 more2026-03-04🤖 cs.LG

CoPeP: Benchmarking Continual Pretraining for Protein Language Models

Die Arbeit stellt CoPeP vor, ein Benchmark zum Evaluieren von kontinuierlichem Vor-Training für Protein-Sprachmodelle, das zeigt, wie die Nutzung zeitlicher Metadaten und fortgeschrittener Methoden die Modellleistung verbessert, um mit der dynamischen Natur biologischer Daten Schritt zu halten.

Darshan Patil, Pranshu Malviya, Mathieu Reymond + 2 more2026-03-04🤖 cs.LG

IDER: IDempotent Experience Replay for Reliable Continual Learning

Das Paper stellt IDER vor, eine neue Methode für zuverlässiges kontinuierliches Lernen, die durch die Ausnutzung der Idempotenz-Eigenschaft das Vergessen alter Aufgaben reduziert, die Vorhersagezuverlässigkeit erhöht und dabei rechenintensiv effizient mit bestehenden Replay-Verfahren kompatibel ist.

Zhanwang Liu, Yuting Li, Haoyuan Gao + 4 more2026-03-04🤖 cs.AI

BornoViT: A Novel Efficient Vision Transformer for Bengali Handwritten Basic Characters Classification

Die Studie stellt BornoViT vor, einen neuartigen, ressourcenschonenden Vision-Transformer mit nur 0,65 Millionen Parametern, der für die Klassifizierung bengalischer handschriftlicher Zeichen und Ziffern entwickelt wurde und auf dem BanglaLekha-Datensatz eine Genauigkeit von 95,77 % erreicht.

Rafi Hassan Chowdhury, Naimul Haque, Kaniz Fatiha2026-03-04🤖 cs.LG

Demystifying Group Relative Policy Optimization: Its Policy Gradient is a U-Statistic

Diese Arbeit stellt einen theoretischen Rahmen vor, der Group Relative Policy Optimization (GRPO) als U-Statistik charakterisiert, um dessen asymptotische Optimalität, Fehlergrenzen und eine universelle Skalierungsregel für die Gruppengröße herzuleiten und empirisch zu validieren.

Hongyi Zhou, Kai Ye, Erhan Xu + 4 more2026-03-04📊 stat

Grokking as a Phase Transition between Competing Basins: a Singular Learning Theory Approach

Diese Arbeit interpretiert das Phänomen des „Grokking" als Phasenübergang zwischen konkurrierenden Lösungsbecken mittels der Singular Learning Theory, wobei sie geschlossene Ausdrücke für den lokalen Lernkoeffizienten in quadratischen Netzwerken herleitet und empirisch nachweist, dass dieser Koeffizient ein zuverlässiges Werkzeug zur Verfolgung der Generalisierungsdynamik darstellt.

Ben Cullen, Sergio Estan-Ruiz, Riya Danait + 1 more2026-03-04📊 stat

Operator Learning Using Weak Supervision from Walk-on-Spheres

Die Arbeit stellt die Walk-on-Spheres Neural Operator (WoS-NO) vor, eine Methode, die mithilfe der Walk-on-Spheres-Methode schwache Supervision aus Monte-Carlo-Simulationen nutzt, um neuronale Operatoren für partielle Differentialgleichungen effizient und datenfrei zu trainieren, wodurch höhere Ableitungen vermieden werden und eine überlegene Genauigkeit, Geschwindigkeit sowie Speicherersparnis im Vergleich zu herkömmlichen physik-informierten Ansätzen erreicht wird.

Hrishikesh Viswanath, Hong Chul Nam, Xi Deng + 3 more2026-03-04🤖 cs.LG

What Helps---and What Hurts: Bidirectional Explanations for Vision Transformers

Die Arbeit stellt BiCAM vor, eine bidirektionale Methode zur Erzeugung von Klassifikationsaktivierungskarten für Vision Transformer, die sowohl positive als auch negative Beiträge berücksichtigt, um interpretierbare Erklärungen zu verbessern und Adversarial Examples effizient zu erkennen.

Qin Su, Tie Luo2026-03-04🤖 cs.AI

Rethinking Policy Diversity in Ensemble Policy Gradient in Large-Scale Reinforcement Learning

Diese Arbeit stellt die Coupled Policy Optimization vor, eine Methode, die durch KL-basierte Regularisierung die Inter-Policy-Diversität in Ensemble-Policy-Gradient-Algorithmen steuert, um stabile und effiziente Exploration in großskaligen Reinforcement-Learning-Szenarien zu ermöglichen und dabei bestehende Baselines wie SAPG, PBT und PPO zu übertreffen.

Naoki Shitanda, Motoki Omura, Tatsuya Harada + 1 more2026-03-04🤖 cs.AI

Hyperparameter Trajectory Inference with Conditional Lagrangian Optimal Transport

Dieses Paper stellt eine Methode zur Hyperparameter-Trajektorien-Inferenz vor, die mittels bedingtem Lagrange-optimalen Transport ein Surrogatmodell entwickelt, um das Verhalten neuronaler Netze bei veränderten Hyperparametern effizient vorherzusagen und teures Nachtrainieren zu vermeiden.

Harry Amad, Mihaela van der Schaar2026-03-04🤖 cs.AI

RxnNano:Training Compact LLMs for Chemical Reaction and Retrosynthesis Prediction via Hierarchical Curriculum Learning

Das Paper stellt RxnNano vor, ein kompaktes 0,5-Milliarden-Parameter-LLM, das durch hierarchisches Curriculum-Lernen und innovative chemische Konsistenzmechanismen deutlich bessere Vorhersagen für chemische Reaktionen und Retrosynthese erzielt als deutlich größere Modelle.

Ran Li, Shimin Di, Haowei LI + 4 more2026-03-04🤖 cs.AI

ATPO: Adaptive Tree Policy Optimization for Multi-Turn Medical Dialogue

Die vorgestellte Arbeit führt den adaptiven Baum-Policy-Optimierungsalgorithmus (ATPO) ein, der durch unsicherheitsgesteuerte Rollout-Allokation und effiziente Suchtechniken Large Language Models für mehrstufige medizinische Dialoge optimiert und dabei selbst kleinere Modelle wie Qwen3-8B in der Genauigkeit deutlich über größere Baseline-Modelle wie GPT-4o hebt.

Ruike Cao, Shaojie Bai, Fugen Yao + 3 more2026-03-04🤖 cs.AI

Is Retraining-Free Enough? The Necessity of Router Calibration for Efficient MoE Compression

Die Arbeit zeigt, dass eine retraining-freie Kompression von MoE-Modellen durch eine leichte Kalibrierung des Routers mittels Wissensdistillation (Router KD) signifikant verbessert werden kann, um die durch Router-Experten-Mismatch verursachten Leistungsverluste zu beheben.

Sieun Hyeon, Jaeyoung Do2026-03-04🤖 cs.AI

Self-Play Only Evolves When Self-Synthetic Pipeline Ensures Learnable Information Gain

Die Studie zeigt, dass eine nachhaltige Selbstentwicklung von Sprachmodellen nur durch einen selbstsynthetischen Datenpipeline mit messbarem Informationsgewinn gelingt, der durch asymmetrische Ko-Evolution, Kapazitätswachstum und proaktive Informationssuche erreicht wird.

Wei Liu, Siya Qi, Yali Du + 1 more2026-03-04💬 cs.CL

NExT-Guard: Training-Free Streaming Safeguard without Token-Level Labels

Die Arbeit stellt NExT-Guard vor, ein trainingsfreies Framework, das durch die Überwachung interpretierbarer latenter Merkmale aus Sparse Autoencodern Echtzeit-Sicherheitsgarantien für Streaming-Sprachmodelle ermöglicht und dabei teure Token-Level-Annotationen überflüssig macht.

Junfeng Fang, Nachuan Chen, Houcheng Jiang + 5 more2026-03-04🤖 cs.AI

← Zurück Weiter →