A Boundary Integral-based Neural Operator for Mesh Deformation

Diese Arbeit stellt einen effizienten, auf Randintegralen und neuronalen Operatoren basierenden Ansatz (BINO) vor, der die Gitterverformung als lineares Elastizitätsproblem formuliert und durch die mathematische Entkopplung physikalischer Integration von geometrischen Darstellungen hohe Genauigkeit sowie Recheneffizienz für parametrische Gittergenerierung und Formoptimierung gewährleistet.

Zhengyu Wu, Jun Liu, Wei Wang2026-03-04🤖 cs.LG

Beyond State-Wise Mirror Descent: Offline Policy Optimization with Parameteric Policies

Diese Arbeit überwindet die Beschränkungen bestehender offline-Reinforcement-Learning-Algorithmen für große oder kontinuierliche Aktionsräume, indem sie theoretische Garantien für parametrisierte Policies durch eine Verbindung von Mirror Descent und Natural Policy Gradient liefert, was zudem eine überraschende Vereinheitlichung von offline RL und Imitationslernen ermöglicht.

Xiang Li, Yuheng Zhang, Nan Jiang2026-03-04🤖 cs.AI

A medical coding language model trained on clinical narratives from a population-wide cohort of 1.8 million patients

Dieses Papier stellt ein auf 5,8 Millionen elektronischen Gesundheitsakten trainiertes Sprachmodell vor, das medizinische Kodierungen automatisiert und dabei nicht nur eine hohe Genauigkeit erreicht, sondern auch systematische Untererfassungen von Sekundärdiagnosen in der dänischen Bevölkerung aufdeckt.

Joakim Edin, Sedrah Butt Balaganeshan, Annike Kjølby Kristensen + 3 more2026-03-04🤖 cs.LG

Grokking as a Phase Transition between Competing Basins: a Singular Learning Theory Approach

Diese Arbeit interpretiert das Phänomen des „Grokking" als Phasenübergang zwischen konkurrierenden Lösungsbecken mittels der Singular Learning Theory, wobei sie geschlossene Ausdrücke für den lokalen Lernkoeffizienten in quadratischen Netzwerken herleitet und empirisch nachweist, dass dieser Koeffizient ein zuverlässiges Werkzeug zur Verfolgung der Generalisierungsdynamik darstellt.

Ben Cullen, Sergio Estan-Ruiz, Riya Danait + 1 more2026-03-04📊 stat

Operator Learning Using Weak Supervision from Walk-on-Spheres

Die Arbeit stellt die Walk-on-Spheres Neural Operator (WoS-NO) vor, eine Methode, die mithilfe der Walk-on-Spheres-Methode schwache Supervision aus Monte-Carlo-Simulationen nutzt, um neuronale Operatoren für partielle Differentialgleichungen effizient und datenfrei zu trainieren, wodurch höhere Ableitungen vermieden werden und eine überlegene Genauigkeit, Geschwindigkeit sowie Speicherersparnis im Vergleich zu herkömmlichen physik-informierten Ansätzen erreicht wird.

Hrishikesh Viswanath, Hong Chul Nam, Xi Deng + 3 more2026-03-04🤖 cs.LG

Rethinking Policy Diversity in Ensemble Policy Gradient in Large-Scale Reinforcement Learning

Diese Arbeit stellt die Coupled Policy Optimization vor, eine Methode, die durch KL-basierte Regularisierung die Inter-Policy-Diversität in Ensemble-Policy-Gradient-Algorithmen steuert, um stabile und effiziente Exploration in großskaligen Reinforcement-Learning-Szenarien zu ermöglichen und dabei bestehende Baselines wie SAPG, PBT und PPO zu übertreffen.

Naoki Shitanda, Motoki Omura, Tatsuya Harada + 1 more2026-03-04🤖 cs.AI

ATPO: Adaptive Tree Policy Optimization for Multi-Turn Medical Dialogue

Die vorgestellte Arbeit führt den adaptiven Baum-Policy-Optimierungsalgorithmus (ATPO) ein, der durch unsicherheitsgesteuerte Rollout-Allokation und effiziente Suchtechniken Large Language Models für mehrstufige medizinische Dialoge optimiert und dabei selbst kleinere Modelle wie Qwen3-8B in der Genauigkeit deutlich über größere Baseline-Modelle wie GPT-4o hebt.

Ruike Cao, Shaojie Bai, Fugen Yao + 3 more2026-03-04🤖 cs.AI