cs.LG Arbeiten | Gist.Science

OpenSanctions Pairs: Large-Scale Entity Matching with LLMs

Die Studie stellt OpenSanctions Pairs, einen großen Datensatz für das Entity Matching vor, und zeigt, dass große Sprachmodelle (LLMs) die bestehende regelbasierte Produktionslösung in Bezug auf die Genauigkeit deutlich übertreffen, was einen Paradigmenwechsel hin zu verbesserten Pipeline-Komponenten wie Blocking und Clustering nahelegt.

Chandler Smith, Magnus Sesodia, Friedrich Lindenberg, Christian Schroeder de Witt2026-03-13💬 cs.CL

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Der vorgestellte Ansatz quantifiziert die epistemische Unsicherheit von neuronalen Operatoren für PDEs effizient und räumlich präzise, indem er stochastische Störungen gezielt nur im Anhebe-Modul (Lifting) einführt, anstatt das gesamte Netzwerk zu perturbieren, was zu verlässlicheren Unsicherheitsbändern und einer besseren Ausrichtung mit lokalen Fehlerstrukturen führt.

Haoze Song, Zhihao Li, Mengyi Deng, Xin Li, Duyi Pan, Zhilu Lai, Wei Wang2026-03-13🤖 cs.LG

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Diese Arbeit stellt eine theoretische Grundlage vor, die es ermöglicht, die für den Durchsatz optimalen Hyperparameter von vortrainierten Sprachmodellen analytisch vorherzusagen, um das kostspielige experimentelle Training für die Optimierung von spekulativem Decodieren zu vermeiden.

Amirhossein Bozorgkhoo, Igor Molybog2026-03-13💬 cs.CL

TinyNav: End-to-End TinyML for Real-Time Autonomous Navigation on Microcontrollers

Der Artikel stellt TinyNav vor, ein ressourceneffizientes TinyML-System, das auf einem ESP32-Mikrocontroller läuft und durch ein quantisiertes, 23.000 Parameter großes neuronales Netz Echtzeit-Navigationsbefehle basierend auf Tiefendaten berechnet, wodurch autonome Roboter ohne externe Rechenleistung gesteuert werden können.

Pooria Roy, Nourhan Jadallah. Tomer Lapid, Shahzaib Ahmad, Armita Afroushe, Mete Bayrak2026-03-13🤖 cs.LG

Interventional Time Series Priors for Causal Foundation Models

Die Arbeit stellt CausalTimePrior vor, ein Framework zur Generierung synthetischer zeitlicher struktureller kausaler Modelle mit Beobachtungs- und Interventionsdaten, das Prior-Data-Fitted-Netzwerke (PFNs) befähigt, kausale Effekte in Zeitreihen im Kontext zu schätzen.

Dennis Thumm, Ying Chen2026-03-13🤖 cs.LG

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Das Paper stellt FiCSUM vor, ein allgemeines Framework, das durch die Erstellung von Fingerabdrücken aus zahlreichen dynamisch gewichteten Meta-Informationen sowohl überwachtes als auch unüberwachtes Konzeptverhalten in Datenströmen präziser darstellt und damit die Erkennung von Konzeptdrift im Vergleich zu bestehenden Methoden verbessert.

Ben Halstead, Yun Sing Koh, Patricia Riddle, Mykola Pechenizkiy, Albert Bifet, Russel Pears2026-03-13🤖 cs.LG

Graph Tokenization for Bridging Graphs and Transformers

Diese Arbeit stellt einen Graph-Tokenisierung-Framework vor, der reversible Graphen-Serialisierung mit Byte-Pair-Encoding kombiniert, um Transformer-Modelle ohne architektonische Änderungen auf Graphendaten anzuwenden und dabei auf 14 Benchmark-Datensätzen state-of-the-art-Ergebnisse zu erzielen.

Zeyuan Guo, Enmao Diao, Cheng Yang, Chuan Shi2026-03-13🤖 cs.LG

Task-Conditioned Routing Signatures in Sparse Mixture-of-Experts Transformers

Die Studie zeigt, dass Routing-Signaturen in Sparse-Mixture-of-Experts-Transformern eine messbare, aufgabenabhängige Struktur aufweisen, die eine hochpräzise Klassifizierung von Aufgaben ermöglicht und beweist, dass der Routing-Mechanismus mehr als nur ein Lastausgleich ist.

Mynampati Sri Ranganadha Avinash2026-03-13🤖 cs.LG

A Learning-Based Superposition Operator for Non-Renewal Arrival Processes in Queueing Networks

Dieses Paper stellt einen skalierbaren, datengesteuerten Superpositionsoperator vor, der mithilfe von Deep Learning auf synthetischen Markov-Ankunftsprozessen trainiert wird, um die statistischen Eigenschaften nicht-erneuernder Ankunftsströme in Warteschlangennetzwerken präzise zu approximieren und dabei klassische Methoden in Bezug auf Genauigkeit und Berücksichtigung höherer Abhängigkeitsstrukturen übertrifft.

Eliran Sherzer2026-03-13🤖 cs.LG

Group Resonance Network: Learnable Prototypes and Multi-Subject Resonance for EEG Emotion Recognition

Das Paper stellt das Group Resonance Network (GRN) vor, ein neues Modell zur EEG-basierten Emotionserkennung, das individuelle Dynamiken mit lernbaren Gruppenprototypen und einer Multi-Subjekt-Resonanzanalyse kombiniert, um die Herausforderungen der interindividuellen Variabilität in Cross-Subject-Szenarien zu überwinden.

Renwei Meng2026-03-13🤖 cs.LG

High-resolution weather-guided surrogate modeling for data-efficient cross-location building energy prediction

Diese Studie stellt einen hochauflösenden, wettergesteuerten Surrogatmodellierungsansatz vor, der durch die Erfassung kurzfristiger wetterbedingter Energieverbrauchsmuster eine dateneffiziente und wiederverwendbare Vorhersage der Gebäudeenergieleistung über verschiedene Standorte hinweg ermöglicht, ohne umfangreiche Simulationen mehrerer Standorte zu benötigen.

Piragash Manmatharasan, Girma Bitsuamlak, Katarina Grolinger2026-03-13🤖 cs.LG

Co-Diffusion: An Affinity-Aware Two-Stage Latent Diffusion Framework for Generalizable Drug-Target Affinity Prediction

Die Arbeit stellt Co-Diffusion vor, ein neuartiges, affinitätsbewusstes Zwei-Phasen-Framework auf Basis latenter Diffusion, das die Generalisierungsfähigkeit bei der Vorhersage von Arzneimittel-Ziel-Affinitäten, insbesondere in kalten Start-Szenarien mit neuen Molekülgerüsten und Proteinfamilien, erheblich verbessert.

Yining Qian, Pengjie Wang, Yixiao Li, An-Yang Lu, Cheng Tan, Shuang Li, Lijun Liu2026-03-13📊 stat

Efficient Approximation to Analytic and $L^p$ functions by Height-Augmented ReLU Networks

Diese Arbeit überwindet fundamentale Grenzen der neuronalen Approximationstheorie, indem sie eine dreidimensionale ReLU-Architektur einführt, die durch effiziente Sägezahn-Funktionen exponentielle Approximationsraten für analytische Funktionen und erstmals quantitative, nicht-asymptotische Ergebnisse für allgemeine $L^p$ -Funktionen ermöglicht.

ZeYu Li, FengLei Fan, TieYong Zeng2026-03-13📊 stat

Beyond Barren Plateaus: A Scalable Quantum Convolutional Architecture for High-Fidelity Image Classification

Diese Arbeit stellt eine skalierbare Quanten-Convolutional-Architektur vor, die durch lokalisierte Kostenfunktionen und eine tensornetzwerkbasierte Initialisierung das Problem der barren plateaus löst und damit auf dem MNIST-Datensatz eine Klassifikationsgenauigkeit von 98,7 % bei deutlich reduzierter Parameteranzahl erreicht.

Radhakrishnan Delhibabu2026-03-13🤖 cs.LG

Higher-Order Modular Attention: Fusing Pairwise and Triadic Interactions for Protein Sequences

Die Arbeit stellt HOMA vor, einen neuen Aufmerksamkeitsoperator für Proteinsequenzen, der durch die Fusion von paarweisen und expliziten triadischen Interaktionen die Vorhersagegenauigkeit bei strukturellen und funktionellen Eigenschaften verbessert, ohne dabei die Recheneffizienz übermäßig zu beeinträchtigen.

Shirin Amiraslani, Xin Gao2026-03-13🤖 cs.LG

Conformal e-prediction in the presence of confounding

Dieser Beitrag erweitert die konforme e-Vorhersage auf Fälle mit beobachteter Verwechslung (Confounding) zwischen den Zufallsobjekten und ihren Labels, wobei sowohl unabhängige und identisch verteilte Daten als auch Szenarien mit Abhängigkeiten zwischen den Beobachtungen betrachtet werden.

Vladimir Vovk, Ruodu Wang2026-03-13📊 stat

Scaling Reasoning Efficiently via Relaxed On-Policy Distillation

Die Arbeit stellt REOPOLD vor, ein Framework, das durch die Interpretation von On-Policy-Distillation als Policy-Optimierung und die Einführung relaxierter Belohnungsmechanismen die Stabilität und Effizienz bei der Übertragung von Reasoning-Fähigkeiten auf kleinere Modelle signifikant verbessert.

Jongwoo Ko, Sara Abdali, Young Jin Kim, Tianyi Chen, Pashmina Cameron2026-03-13🤖 cs.LG

Deep regression learning from dependent observations with minimum error entropy principle

Diese Arbeit stellt nichtparametrische Regressionsmethoden auf Basis von tiefen neuronalen Netzen unter dem Prinzip der minimalen Fehlerentropie für stark mischende Beobachtungen vor und zeigt, dass sowohl nicht- als auch sparse-gestraffte Schätzer die minimax-optimalen Konvergenzraten erreichen.

William Kengne, Modou Wade2026-03-13📊 stat

H2LooP Spark Preview: Continual Pretraining of Large Language Models for Low-Level Embedded Systems Code

Die Studie stellt H2LooP Spark Preview vor, einen kontinuierlichen Vortrainings-Pipeline, der das Open-Source-Modell OLMo-3-7B durch die Verarbeitung von 23,5 Milliarden Tokens eingebetteter Systemdaten spezialisiert und dabei auf Benchmark-Tests in 8 von 13 Kategorien die Leistung von großen geschlossenen Modellen wie Claude Opus 4.6 und Qwen3-Coder-30B übertrifft.

Amit Singh, Vedant Nipane, Pulkit Agrawal, Jatin Kishnani2026-03-13🤖 cs.LG

Procedural Fairness via Group Counterfactual Explanation

Diese Arbeit stellt GCIG (Group Counterfactual Integrated Gradients) vor, ein Regularisierungsframework, das prozedurale Fairness in maschinellen Lernmodellen sicherstellt, indem es während des Trainings die Erklärungsstabilität über verschiedene geschützte Gruppen hinweg erzwingt und so das Vertrauen in die Modellentscheidungen stärkt, ohne die Vorhersagegenauigkeit zu beeinträchtigen.

Gideon Popoola, John Sheppard2026-03-13🤖 cs.LG

← Zurück Weiter →

cs.LG