cs.LG Arbeiten | Gist.Science

Representation Finetuning for Continual Learning

Die Arbeit stellt CoRe vor, ein neuartiges Framework für das kontinuierliche Lernen, das das Feinabstimmungsparadigma vom Gewichtsraum in den Repräsentationsraum verlagert, indem es taskspezifische Eingriffe in einem niedrigrangigen linearen Unterraum versteckter Repräsentationen vornimmt, um Stabilität und Plastizität bei hoher Parameter-Effizienz zu gewährleisten.

Haihua Luo, Xuming Ran, Tommi Kärkkäinen, Huiyan Xue, Zhonghua Chen, Qi Xu, Fengyu Cong2026-03-13🤖 cs.LG

Reference-Guided Machine Unlearning

Die Arbeit stellt ReGUn vor, einen Referenz-gesteuerten Ansatz für maschinelles Vergessen, der durch die Nutzung eines separaten Datensatzes als Referenz eine stabilere und effektivere Entfernung spezifischer Daten bei gleichzeitiger Wahrung der allgemeinen Modellleistung ermöglicht.

Jonas Mirlach, Sonia Laguna, Julia E. Vogt2026-03-13🤖 cs.LG

Security-by-Design for LLM-Based Code Generation: Leveraging Internal Representations for Concept-Driven Steering Mechanisms

Die Arbeit stellt „Secure Concept Steering for CodeLLMs" (SCS-Code) vor, eine Methode, die die internen Repräsentationen von Sicherheitskonzepten in Large Language Models nutzt, um während der Token-Generierung gezielt sichere und funktionale Codeausgaben zu steuern und dabei bestehende State-of-the-Art-Methoden in puncto Sicherheit und Korrektheit zu übertreffen.

Maximilian Wendlinger, Daniel Kowatsch, Konstantin Böttinger, Philip Sperl2026-03-13🤖 cs.LG

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Die Studie zeigt, dass autonome KI-Agenten bei komplexen Cyberangriffen ihre Leistung sowohl durch erhöhten Rechenbedarf als auch durch Modellgenerationen signifikant steigern, wobei fortgeschrittene Modelle in einem Unternehmensnetzwerk bis zu 22 von 32 Schritten autonom bewältigen können, während die Fähigkeiten in industriellen Steuerungssystemen jedoch noch begrenzt bleiben.

Linus Folkerts, Will Payne, Simon Inman, Philippos Giavridis, Joe Skinner, Sam Deverett, James Aung, Ekin Zorer, Michael Schmatz, Mahmoud Ghanem, John Wilkinson, Alan Steer, Vy Hong, Jessica Wang2026-03-13🤖 cs.AI

Markovian Generation Chains in Large Language Models

Diese Studie untersucht Markovsche Generierungsketten in großen Sprachmodellen, bei denen iterative Inferenzprozesse ohne Gedächtnis entweder zu einer Konvergenz in eine kleine rekurrente Menge oder zu einer begrenzten Produktion neuer Sätze führen, wobei die Satzdiversität je nach Temperaturparameter und Eingabe zunehmen oder abnehmen kann.

Mingmeng Geng, Amr Mohamed, Guokan Shang, Michalis Vazirgiannis, Thierry Poibeau2026-03-13💬 cs.CL

Trustworthy predictive distributions for rare events via diagnostic transport maps

Diese Arbeit stellt diagnostische Transportkarten vor, die als covariatenabhängige Korrekturmechanismen dienen, um ungenaue Vorhersageverteilungen für seltene Ereignisse neu zu kalibrieren und gleichzeitig Echtzeit-Diagnosedaten über spezifische Modellfehler zu liefern, was in einer Anwendung zur Vorhersage tropischer Wirbelstürme zu verbesserten Ergebnissen im Vergleich zu operationellen Modellen führt.

Elizabeth Cucuzzella, Rafael Izbicki, Ann B. Lee2026-03-13📊 stat

Monitoring and Prediction of Mood in Elderly People during Daily Life Activities

Die Studie stellt ein intelligentes tragbares System vor, das mithilfe von physiologischen Daten eines Armbands und maschinellem Lernen die Stimmung älterer Menschen im Alltag überwacht und vorhersagt.

Daniel Bautista-Salinas, Joaquín Roca González, Inmaculada Méndez, Oscar Martinez Mozos2026-03-13🤖 cs.LG

Cough activity detection for automatic tuberculosis screening

Die Studie zeigt, dass ein auf XLS-R basierendes Modell mit nur den ersten drei Schichten die Erkennung von Hustenereignissen in Audiodaten für die Tuberkulose-Screening-Programme in Südafrika und Uganda mit hoher Präzision ermöglicht und dabei rechenintensive Alternativen wie den Audio Spectrogram Transformer übertrifft.

Joshua Jansen van Vüren, Devendra Singh Parihar, Daphne Naidoo, Kimsey Zajac, Willy Ssengooba, Grant Theron, Thomas Niesler2026-03-13⚡ eess

A Standardized Framework For Evaluating Gene Expression Generative Models

Die Arbeit stellt GGE vor, ein Open-Source-Python-Framework, das durch die Bereitstellung standardisierter, biologisch fundierter Metriken die inkonsistente Evaluierung generativer Modelle für Einzelzell-Genexpressionsdaten behebt und vergleichbare Benchmarking-Prozesse ermöglicht.

Andrea Rubbi, Andrea Giuseppe Di Francesco, Mohammad Lotfollahi, Pietro Liò2026-03-13🧬 q-bio

Differentiable Thermodynamic Phase-Equilibria for Machine Learning

Die Arbeit stellt DISCOMAX vor, einen differentierbaren Algorithmus, der auf der diskreten Enumeration thermodynamisch zulässiger Zustände und einer maskierten Softmax-Aggregation basiert, um physik-konsistente neuronale Modelle für Phasengleichgewichte zu trainieren und dabei die Genauigkeit bestehender Methoden bei binären flüssig-flüssig-Gleichgewichten zu übertreffen.

Karim K. Ben Hicham, Moreno Ascani, Jan G. Rittig, Alexander Mitsos2026-03-13🤖 cs.LG

A Machine Learning-Enhanced Hopf-Cole Formulation for Nonlinear Gas Flow in Porous Media

Diese Arbeit stellt ein integriertes Framework vor, das die Hopf-Cole-Transformation mit einem Deep-Learning-Ansatz kombiniert, um die nichtlineare Gasströmung in porösen Medien unter Berücksichtigung von Klinkenberg-Effekten präzise zu modellieren und gleichzeitig eine effiziente inversen Bestimmung schwer messbarer Parameter zu ermöglichen.

V. S. Maduru, K. B. Nakshatrala2026-03-13🔢 math

Beyond the Class Subspace: Teacher-Guided Training for Reliable Out-of-Distribution Detection in Single-Domain Models

Die Arbeit identifiziert das Phänomen des Domain-Sensitivity Collapse bei Single-Domain-Modellen und stellt Teacher-Guided Training (TGT) vor, das durch Wissensdistillation von einem eingefrorenen Multi-Domain-Lehrer die Out-of-Distribution-Erkennung verbessert, ohne zusätzliche Inferenzkosten zu verursachen.

Hong Yang, Devroop Kar, Qi Yu, Travis Desell, Alex Ororbia2026-03-13🤖 cs.LG

Duration Aware Scheduling for ASR Serving Under Workload Drift

Die Studie zeigt, dass die Integration von duration-bewussten Scheduling-Algorithmen wie HRRN in vLLM die End-to-End-Latenz bei ASR-Serving unter wechselnder Arbeitslast signifikant reduziert, ohne dabei die Durchsatzleistung zu beeinträchtigen oder die Tail-Latenz übermäßig zu verschlechtern.

Darshan Makwana, Yash Jogi, Harsh Kotta, Aayush Kubba2026-03-13🤖 cs.LG

RIE-Greedy: Regularization-Induced Exploration for Contextual Bandits

Die Arbeit stellt RIE-Greedy vor, eine Methode für kontextbasierte Banditen, die durch die Nutzung der inhärenten Stochastizität im Regularisierungsprozess beim Modelltraining eine effektive Exploration ohne zusätzliche Strategien ermöglicht und theoretisch sowie empirisch mit Thompson Sampling vergleichbare Ergebnisse liefert.

Tong Li, Thiago de Queiroz Casanova, Eric M. Schwartz, Victor Kostyuk, Dehan Kong, Joseph J. Williams2026-03-13📊 stat

Single molecule localization microscopy challenge: a biologically inspired benchmark for long-sequence modeling

Diese Arbeit stellt den SMLM-C-Benchmark vor, um State Space Models auf biologisch realistischen, langfristigen Daten der Einzelmolekül-Lokalisierungsmikroskopie zu evaluieren, und zeigt dabei, dass deren Leistung bei zunehmender zeitlicher Diskontinuität und schwerfälligen Blinkdynamiken erheblich abnimmt.

Fatemeh Valeh, Monika Farsang, Radu Grosu, Gerhard Schütz2026-03-13🧬 q-bio

Worst-case low-rank approximations

Die Arbeit stellt einen unified Framework namens wcPCA vor, der robuste, worst-case-optimale Low-Rank-Approximationen für heterogene Datenbereiche entwickelt, deren Konsistenz und asymptotische Garantien theoretisch bewiesen und in Anwendungen wie Matrix Completion sowie realen Ökosystemdaten erfolgreich validiert werden.

Anya Fries, Markus Reichstein, David Blei, Jonas Peters2026-03-13📊 stat

Client-Conditional Federated Learning via Local Training Data Statistics

Die vorgeschlagene Methode verbessert das federierte Lernen unter Datenheterogenität, indem sie ein globales Modell auf lokal berechnete PCA-Statistiken konditioniert, wodurch eine Oracle-Leistung erreicht wird, die bei kombinierter Heterogenität sogar übertroffen wird und gleichzeitig eine robuste Leistung bei spärlichen Daten gewährleistet.

Rickard Brännvall2026-03-13🤖 cs.LG

Heavy-Tailed Principle Component Analysis

Diese Arbeit stellt eine robuste Hauptkomponentenanalyse für hochdimensionale, schwerfällige Daten vor, die auf einem logarithmischen Verlust und einem superstatistischen Modell basiert, um die Hauptkomponenten auch bei fehlenden Momenten zuverlässig zu schätzen und dabei klassische PCA-Methoden in Bezug auf Rauschen und Ausreißer zu übertreffen.

Mario Sayde, Christopher Khater, Jihad Fahs, Ibrahim Abou-Faycal2026-03-13🤖 cs.LG

MRI2Qmap: multi-parametric quantitative mapping with MRI-driven denoising priors

Die Studie stellt MRI2Qmap vor, ein quantitatives Rekonstruktionsframework, das räumliche Struktur-Priors aus großen Mengen klinischer gewichteter MRT-Bilder nutzt, um hochbeschleunigte quantitative MRT-Daten (z. B. MRF) ohne Ground-Truth-Trainingsdaten für quantitative Bilder präzise zu rekonstruieren.

Mohammad Golbabaee, Matteo Cencini, Carolin Pirkl, Marion Menzel, Michela Tosetti, Bjoern Menze2026-03-13🔬 physics

On the Robustness of Langevin Dynamics to Score Function Error

Diese Arbeit zeigt, dass Langevin-Dynamik selbst bei beliebig kleinen L²-Fehlern der geschätzten Score-Funktion in hohen Dimensionen innerhalb polynomieller Zeit nicht zur Zielverteilung konvergiert, was die Überlegenheit von Diffusionsmodellen unterstreicht und vor der Verwendung von Langevin-Dynamik mit geschätzten Scores warnt.

Daniel Yiming Cao, August Y. Chen, Karthik Sridharan, Yuchen Wu2026-03-13🤖 cs.LG

← Zurück Weiter →