cs.LG Arbeiten | Gist.Science

Stem: Rethinking Causal Information Flow in Sparse Attention

Das Paper stellt Stem vor, ein modulares Sparse-Attention-Verfahren, das durch eine positionsabhängige Top-k-Auswahl und eine output-bewusste Metrik die kausalen Informationsflüsse in Large Language Models effizienter gestaltet und dabei Rechenkosten sowie Latenz bei langer Kontextverarbeitung senkt.

Lin Niu, Xin Luo, Linchuan Xie, Yifu Sun, Guanghua Yu, Jianchen Zhu, S Kevin Zhou2026-03-09🤖 cs.AI

Learning Where the Physics Is: Probabilistic Adaptive Sampling for Stiff PDEs

Die Arbeit stellt GMM-PIELM vor, einen probabilistischen adaptiven Sampling-Ansatz, der die Genauigkeit und Konditionierung von Physics-Informed Extreme Learning Machines für steife PDEs mit scharfen Gradienten drastisch verbessert, indem er Radial-Basis-Funktionszentren autonom in Regionen mit hohem numerischem Fehler konzentriert, ohne dabei auf kostenintensive gradientenbasierte Optimierungen angewiesen zu sein.

Akshay Govind Srinivasan, Balaji Srinivasan2026-03-09🤖 cs.AI

3D CBCT Artefact Removal Using Perpendicular Score-Based Diffusion Models

Die vorgestellte Arbeit schlägt eine Methode zur Entfernung von Artefakten in 3D-CBCT-Bildern vor, die auf senkrechten score-basierten Diffusionsmodellen im Projektionsbereich basiert und durch die Kombination zweier 2D-Modelle die Konsistenz zwischen den einzelnen Projektionen verbessert.

Susanne Schaub, Florentin Bieder, Matheus L. Oliveira, Yulan Wang, Dorothea Dagassan-Berndt, Michael M. Bornstein, Philippe C. Cattin2026-03-09🤖 cs.LG

Polarized Direct Cross-Attention Message Passing in GNNs for Machinery Fault Diagnosis

Diese Arbeit stellt PolaDCA vor, ein neuartiges Framework für die Fehlerdiagnose rotierender Maschinen, das mithilfe eines polarisierten direkten Kreuz-Aufmerksamkeitsmechanismus datengesteuerte Graphen und adaptive Nachrichtenweitergabe ermöglicht, um die Robustheit gegenüber Rauschen und die Diagnosegenauigkeit im Vergleich zu herkömmlichen Graph-Neural-Networks signifikant zu verbessern.

Zongyu Shi, Laibin Zhang, Maoyin Chen2026-03-09🤖 cs.LG

From Entropy to Calibrated Uncertainty: Training Language Models to Reason About Uncertainty

Diese Arbeit stellt eine dreistufige Pipeline vor, die Sprachmodelle durch die Berechnung feinabgestimmter Entropie-Scores, deren Kalibrierung mittels Platt-Skalierung und anschließendes Reinforcement Learning trainiert, um effiziente, gut kalibrierte und interpretierbare Unsicherheitsschätzungen für ihre Antworten zu generieren.

Azza Jenane, Nassim Walha, Lukas Kuhn, Florian Buettner2026-03-09🤖 cs.AI

SAHOO: Safeguarded Alignment for High-Order Optimization Objectives in Recursive Self-Improvement

Die Arbeit stellt SAHOO vor, ein praktisches Framework, das durch einen gelernten Zielabweichungsindex, die Durchsetzung sicherheitskritischer Invarianten und die Quantifizierung von Regressionsrisiken die Ausrichtungsdrift während des rekursiven Selbstverbesserungsprozesses überwacht und kontrolliert, um signifikante Qualitätssteigerungen bei gleichzeitiger Wahrung von Sicherheitsgrenzen zu ermöglichen.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary2026-03-09🤖 cs.AI

AI End-to-End Radiation Treatment Planning Under One Second

Die Studie stellt AIRT vor, ein tiefes Lernframework, das innerhalb einer Sekunde auf einer einzigen GPU direkt aus CT-Bildern und Konturen strahlentherapeutische Behandlungspläne für Prostatakrebs generiert und dabei eine Qualität aufweist, die mit dem etablierten RapidPlan Eclipse vergleichbar ist.

Simon Arberet, Riqiang Gao, Martin Kraus, Florin C. Ghesu, Wilko Verbakel, Mamadou Diallo, Anthony Magliari, Venkatesan Karuppusamy, Sushil Beriwal, REQUITE Consortium, Ali Kamen, Dorin Comaniciu2026-03-09🤖 cs.AI

MoEless: Efficient MoE LLM Serving via Serverless Computing

Das Paper stellt MoEless vor, ein serverloses Framework zur effizienten Bereitstellung von Mixture-of-Experts-LLMs, das durch lastproaktive Skalierung und Platzierung von Experten die Inferenz-Latenz um 43 % und die Kosten um 84 % im Vergleich zu bestehenden Lösungen reduziert.

Hanfei Yu, Bei Ouyang, Shwai He, Ang Li, Hao Wang2026-03-09🤖 cs.AI

Dynamic Chunking Diffusion Transformer

Das Paper stellt den Dynamic Chunking Diffusion Transformer (DC-DiT) vor, der durch einen lernbasierten Encoder-Router-Decoder adaptiv und datenabhängig die Anzahl der Tokens je nach Bildinhalt und Diffusionszeitpunkt optimiert, um die Recheneffizienz zu steigern und gleichzeitig die Bildqualität im Vergleich zu herkömmlichen DiT-Modellen zu verbessern.

Akash Haridas, Utkarsh Saxena, Parsa Ashrafi Fashi, Mehdi Rezagholizadeh, Vikram Appia, Emad Barsoum2026-03-09🤖 cs.AI

Frequency-Separable Hamiltonian Neural Network for Multi-Timescale Dynamics

Die Arbeit stellt das Frequency-Separable Hamiltonian Neural Network (FS-HNN) vor, ein neues Framework, das durch die Aufteilung der Hamilton-Funktion in separate Netzwerke für unterschiedliche Frequenzbereiche die Erfassung komplexer Mehrzeitskalen-Dynamiken und die langfristige Extrapolation bei ODE- und PDE-Problemen verbessert.

Yaojun Li, Yulong Yang, Christine Allen-Blanchette2026-03-09🤖 cs.LG

Tiny, Hardware-Independent, Compression-based Classification

Diese Arbeit stellt eine hardwareunabhängige, komprimierungsbasierte Klassifizierungsmethode vor, die trotz fehlender formaler metrischer Eigenschaften hohe Genauigkeit auf Client-Geräten mit wenigen Daten erreicht, indem sie die Normalized Compression Distance für Kernel-Methoden adaptiert und deren Trainingszeit optimiert.

Charles Meyers, Aaron MacSween, Erik Elmroth, Tommy Löfstedt2026-03-09🤖 cs.LG

CLAIRE: Compressed Latent Autoencoder for Industrial Representation and Evaluation -- A Deep Learning Framework for Smart Manufacturing

Dieses Paper stellt CLAIRE vor, ein hybrides Deep-Learning-Framework für die intelligente Qualitätskontrolle in der Fertigung, das durch einen optimierten Autoencoder komprimierte latente Repräsentationen erzeugt und mit einer spieltheoretischen Interpretierbarkeitstechnik eine robuste und erklärbare Fehlererkennung in hochdimensionalen Umgebungen ermöglicht.

Mohammadhossein Ghahramani, Mengchu Zhou2026-03-09🤖 cs.AI

Adaptive Lipschitz-Free Conditional Gradient Methods for Stochastic Composite Nonconvex Optimization

Die Arbeit stellt ALFCG vor, das erste adaptive, projektionsfreie Framework für stochastische nichtkonvexe Optimierung, das ohne globale Lipschitz-Konstanten oder Linien-Suche auskommt und durch die Nutzung historischer Iterationsunterschiede zur Schätzung lokaler Glattheit sowie durch Varianzreduktion optimale Konvergenzraten erreicht.

Ganzhao Yuan2026-03-09🤖 cs.LG

Kinetic-based regularization: Learning spatial derivatives and PDE applications

Die Arbeit erweitert die kinetische Regularisierung (KBR) um zwei effiziente Schemata zur präzisen und rauschadaptiven Schätzung räumlicher Ableitungen, die sich erfolgreich für die stabile Lösung von PDEs auf unregelmäßigen Punktwolken unter Wahrung von Erhaltungssätzen einsetzen lassen.

Abhisek Ganguly, Santosh Ansumali, Sauro Succi2026-03-09🤖 cs.AI

Talk Freely, Execute Strictly: Schema-Gated Agentic AI for Flexible and Reproducible Scientific Workflows

Diese Arbeit stellt ein Schema-gated Orchestrierungs-Modell vor, das durch die Trennung von konversationeller Flexibilität und deterministischer Ausführung den Zielkonflikt zwischen natürlichsprachlicher Interaktion und reproduzierbaren wissenschaftlichen Workflows löst.

Joel Strickland, Arjun Vijeta, Chris Moores, Oliwia Bodek, Bogdan Nenchev, Thomas Whitehead, Charles Phillips, Karl Tassenberg, Gareth Conduit, Ben Pellegrini2026-03-09🤖 cs.AI

Efficient, Property-Aligned Fan-Out Retrieval via RL-Compiled Diffusion

Die Arbeit stellt R4T vor, ein dreistufiges Framework, das Reinforcement Learning nutzt, um Trainingsdaten für einen effizienten Diffusions-Retriever zu synthetisieren, wodurch die Latenz bei der set-basierten Fan-Out-Retrieval drastisch reduziert und gleichzeitig die Qualität der Ergebnisse optimiert wird.

Pengcheng Jiang, Judith Yue Li, Moonkyung Ryu, R. Lily Hu, Kun Su, Zhong Yi Wan, Liam Hebert, Hao Peng, Jiawei Han, Dima Kuzmin, Craig Boutilier2026-03-09🤖 cs.LG

U6G XL-MIMO Radiomap Prediction: Multi-Config Dataset and Beam Map Approach

Diese Arbeit stellt den ersten XL-MIMO-Radiokarten-Datensatz mit multiplen Konfigurationen vor und führt den physikbasierten „Beam Map"-Ansatz ein, der die Generalisierungsfähigkeit von Radiokarten-Vorhersagen auf unbekannte Antennenkonfigurationen und Umgebungen ohne erneutes Training erheblich verbessert.

Xiaojie Li, Yu Han, Zhizheng Lu, Shi Jin, Chao-Kai Wen2026-03-09🤖 cs.LG

Adapter-Augmented Bandits for Online Multi-Constrained Multi-Modal Inference Scheduling

Der Artikel stellt M-CMAB vor, einen Multi-Adapter-basierten Rahmen für das Online-Scheduling von Multi-Modal-LLM-Inferenzen, der durch die Kombination eines adaptiven Prädiktors, eines primal-dualen Constraints und eines zweiphasigen Schedulers komplexe Unsicherheiten bewältigt und dabei mehrdimensionale Budgetbeschränkungen einhält, um die Belohnung im Vergleich zu bestehenden Methoden signifikant zu steigern.

Xianzhi Zhang, Yue Xu, Yinlin Zhu, Di Wu, Yipeng Zhou, Miao Hu, Guocong Quan2026-03-09🤖 cs.LG

A Reference Architecture of Reinforcement Learning Frameworks

Diese Arbeit schlägt eine Referenzarchitektur für Reinforcement-Learning-Frameworks vor, die durch eine Grounded-Theory-Analyse von 18 aktuellen Implementierungen entwickelt wurde, um eine gemeinsame Basis für Vergleich, Bewertung und Integration zu schaffen.

Xiaoran Liu, Istvan David2026-03-09🤖 cs.AI

CLoPA: Continual Low Parameter Adaptation of Interactive Segmentation for Medical Image Annotation

Die Studie stellt CLoPA vor, eine kontinuierliche Anpassungsstrategie, die durch das Feinabstimmen eines kleinen Teils der Parameter des nnInteractive-Modells auf annotierten Daten die Segmentierungsleistung in der medizinischen Bildgebung schnell auf Expertenniveau hebt, ohne neue Parameter oder Änderungen am Inferenzprozess zu erfordern.

Parhom Esmaeili, Chayanin Tangwiriyasakul, Eli Gibson, Sebastien Ourselin, M. Jorge Cardoso2026-03-09🤖 cs.AI

← Zurück Weiter →