OpenSanctions Pairs: Large-Scale Entity Matching with LLMs

Die Studie stellt OpenSanctions Pairs, einen großen Datensatz für das Entity Matching vor, und zeigt, dass große Sprachmodelle (LLMs) die bestehende regelbasierte Produktionslösung in Bezug auf die Genauigkeit deutlich übertreffen, was einen Paradigmenwechsel hin zu verbesserten Pipeline-Komponenten wie Blocking und Clustering nahelegt.

Chandler Smith, Magnus Sesodia, Friedrich Lindenberg, Christian Schroeder de Witt2026-03-13💬 cs.CL

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Der vorgestellte Ansatz quantifiziert die epistemische Unsicherheit von neuronalen Operatoren für PDEs effizient und räumlich präzise, indem er stochastische Störungen gezielt nur im Anhebe-Modul (Lifting) einführt, anstatt das gesamte Netzwerk zu perturbieren, was zu verlässlicheren Unsicherheitsbändern und einer besseren Ausrichtung mit lokalen Fehlerstrukturen führt.

Haoze Song, Zhihao Li, Mengyi Deng, Xin Li, Duyi Pan, Zhilu Lai, Wei Wang2026-03-13🤖 cs.LG

TinyNav: End-to-End TinyML for Real-Time Autonomous Navigation on Microcontrollers

Der Artikel stellt TinyNav vor, ein ressourceneffizientes TinyML-System, das auf einem ESP32-Mikrocontroller läuft und durch ein quantisiertes, 23.000 Parameter großes neuronales Netz Echtzeit-Navigationsbefehle basierend auf Tiefendaten berechnet, wodurch autonome Roboter ohne externe Rechenleistung gesteuert werden können.

Pooria Roy, Nourhan Jadallah. Tomer Lapid, Shahzaib Ahmad, Armita Afroushe, Mete Bayrak2026-03-13🤖 cs.LG

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Das Paper stellt FiCSUM vor, ein allgemeines Framework, das durch die Erstellung von Fingerabdrücken aus zahlreichen dynamisch gewichteten Meta-Informationen sowohl überwachtes als auch unüberwachtes Konzeptverhalten in Datenströmen präziser darstellt und damit die Erkennung von Konzeptdrift im Vergleich zu bestehenden Methoden verbessert.

Ben Halstead, Yun Sing Koh, Patricia Riddle, Mykola Pechenizkiy, Albert Bifet, Russel Pears2026-03-13🤖 cs.LG

A Learning-Based Superposition Operator for Non-Renewal Arrival Processes in Queueing Networks

Dieses Paper stellt einen skalierbaren, datengesteuerten Superpositionsoperator vor, der mithilfe von Deep Learning auf synthetischen Markov-Ankunftsprozessen trainiert wird, um die statistischen Eigenschaften nicht-erneuernder Ankunftsströme in Warteschlangennetzwerken präzise zu approximieren und dabei klassische Methoden in Bezug auf Genauigkeit und Berücksichtigung höherer Abhängigkeitsstrukturen übertrifft.

Eliran Sherzer2026-03-13🤖 cs.LG

High-resolution weather-guided surrogate modeling for data-efficient cross-location building energy prediction

Diese Studie stellt einen hochauflösenden, wettergesteuerten Surrogatmodellierungsansatz vor, der durch die Erfassung kurzfristiger wetterbedingter Energieverbrauchsmuster eine dateneffiziente und wiederverwendbare Vorhersage der Gebäudeenergieleistung über verschiedene Standorte hinweg ermöglicht, ohne umfangreiche Simulationen mehrerer Standorte zu benötigen.

Piragash Manmatharasan, Girma Bitsuamlak, Katarina Grolinger2026-03-13🤖 cs.LG

Co-Diffusion: An Affinity-Aware Two-Stage Latent Diffusion Framework for Generalizable Drug-Target Affinity Prediction

Die Arbeit stellt Co-Diffusion vor, ein neuartiges, affinitätsbewusstes Zwei-Phasen-Framework auf Basis latenter Diffusion, das die Generalisierungsfähigkeit bei der Vorhersage von Arzneimittel-Ziel-Affinitäten, insbesondere in kalten Start-Szenarien mit neuen Molekülgerüsten und Proteinfamilien, erheblich verbessert.

Yining Qian, Pengjie Wang, Yixiao Li, An-Yang Lu, Cheng Tan, Shuang Li, Lijun Liu2026-03-13📊 stat

H2LooP Spark Preview: Continual Pretraining of Large Language Models for Low-Level Embedded Systems Code

Die Studie stellt H2LooP Spark Preview vor, einen kontinuierlichen Vortrainings-Pipeline, der das Open-Source-Modell OLMo-3-7B durch die Verarbeitung von 23,5 Milliarden Tokens eingebetteter Systemdaten spezialisiert und dabei auf Benchmark-Tests in 8 von 13 Kategorien die Leistung von großen geschlossenen Modellen wie Claude Opus 4.6 und Qwen3-Coder-30B übertrifft.

Amit Singh, Vedant Nipane, Pulkit Agrawal, Jatin Kishnani2026-03-13🤖 cs.LG

Procedural Fairness via Group Counterfactual Explanation

Diese Arbeit stellt GCIG (Group Counterfactual Integrated Gradients) vor, ein Regularisierungsframework, das prozedurale Fairness in maschinellen Lernmodellen sicherstellt, indem es während des Trainings die Erklärungsstabilität über verschiedene geschützte Gruppen hinweg erzwingt und so das Vertrauen in die Modellentscheidungen stärkt, ohne die Vorhersagegenauigkeit zu beeinträchtigen.

Gideon Popoola, John Sheppard2026-03-13🤖 cs.LG