cs.LG Arbeiten | Gist.Science

Scaling Reasoning Efficiently via Relaxed On-Policy Distillation

Die Arbeit stellt REOPOLD vor, ein Framework, das durch die Interpretation von On-Policy-Distillation als Policy-Optimierung und die Einführung relaxierter Belohnungsmechanismen die Stabilität und Effizienz bei der Übertragung von Reasoning-Fähigkeiten auf kleinere Modelle signifikant verbessert.

Jongwoo Ko, Sara Abdali, Young Jin Kim, Tianyi Chen, Pashmina Cameron2026-03-13🤖 cs.LG

Deep regression learning from dependent observations with minimum error entropy principle

Diese Arbeit stellt nichtparametrische Regressionsmethoden auf Basis von tiefen neuronalen Netzen unter dem Prinzip der minimalen Fehlerentropie für stark mischende Beobachtungen vor und zeigt, dass sowohl nicht- als auch sparse-gestraffte Schätzer die minimax-optimalen Konvergenzraten erreichen.

William Kengne, Modou Wade2026-03-13📊 stat

H2LooP Spark Preview: Continual Pretraining of Large Language Models for Low-Level Embedded Systems Code

Die Studie stellt H2LooP Spark Preview vor, einen kontinuierlichen Vortrainings-Pipeline, der das Open-Source-Modell OLMo-3-7B durch die Verarbeitung von 23,5 Milliarden Tokens eingebetteter Systemdaten spezialisiert und dabei auf Benchmark-Tests in 8 von 13 Kategorien die Leistung von großen geschlossenen Modellen wie Claude Opus 4.6 und Qwen3-Coder-30B übertrifft.

Amit Singh, Vedant Nipane, Pulkit Agrawal, Jatin Kishnani2026-03-13🤖 cs.LG

Procedural Fairness via Group Counterfactual Explanation

Diese Arbeit stellt GCIG (Group Counterfactual Integrated Gradients) vor, ein Regularisierungsframework, das prozedurale Fairness in maschinellen Lernmodellen sicherstellt, indem es während des Trainings die Erklärungsstabilität über verschiedene geschützte Gruppen hinweg erzwingt und so das Vertrauen in die Modellentscheidungen stärkt, ohne die Vorhersagegenauigkeit zu beeinträchtigen.

Gideon Popoola, John Sheppard2026-03-13🤖 cs.LG

Attention Gathers, MLPs Compose: A Causal Analysis of an Action-Outcome Circuit in VideoViT

Die Studie nutzt mechanistische Interpretierbarkeit, um in einem VideoViT-Modell einen kausalen Schaltkreis zu identifizieren, bei dem Aufmerksamkeitsköpfe als „Evidenzsammler" und MLP-Blöcke als „Konzept-Komponisten" fungieren, um den Erfolg oder Misserfolg einer Handlung zu berechnen, was auf die Entwicklung von verstecktem Wissen in KI-Modellen hinweist.

Sai V R Chereddy2026-03-13🤖 cs.LG

Catalogue Grounded Multimodal Attribution for Museum Video under Resource and Regulatory Constraints

Die vorgestellte Arbeit schlägt einen lokal einsetzbaren, mehrstufigen Pipeline-Ansatz mit einem Video-Sprachmodell vor, um audiovisuelle Museumsbestände durch automatische, kataloggestützte Metadaten-Generierung und Attribution unter Einhaltung von Ressourcen- und regulatorischen Grenzen erschließbar zu machen.

Minsak Nanang, Adrian Hilton, Armin Mustafa2026-03-13🤖 cs.LG

Systematic Scaling Analysis of Jailbreak Attacks in Large Language Models

Diese Arbeit führt ein Skalierungsgesetz-Framework für Jailbreak-Angriffe auf Large Language Models ein, das zeigt, dass promptbasierte Methoden im Vergleich zu optimierungsbasierten Ansätzen rechnerisch effizienter sind und bei der Erzeugung von Desinformation besonders anfällig sind.

Xiangwen Wang, Ananth Balashankar, Varun Chandrasekaran2026-03-13🤖 cs.LG

Algorithmic Capture, Computational Complexity, and Inductive Bias of Infinite Transformers

Die Arbeit definiert algorithmisches Erfassen formal und zeigt, dass unendliche Transformer trotz universeller Ausdruckskraft durch einen induktiven Bias auf Algorithmen mit geringer Komplexität innerhalb der EPTHS-Klasse beschränkt sind, was das Erlernen komplexerer Algorithmen verhindert.

Orit Davidovich, Zohar Ringel2026-03-13🤖 cs.LG

Learning to Unscramble: Simplifying Symbolic Expressions via Self-Supervised Oracle Trajectories

Die Autoren stellen einen selbstüberwachten maschinellen Lernansatz vor, der mithilfe von Oracle-Trajektorien und einem transformerbasierten Policy-Netzwerk komplexe mathematische Ausdrücke in der Hochenergiephysik nahezu perfekt vereinfacht und dabei bestehende Reinforcement-Learning-Methoden deutlich übertrifft.

David Shih2026-03-13⚛️ hep-th

Huntington Disease Automatic Speech Recognition with Biomarker Supervision

Diese Studie stellt eine systematische Untersuchung zur automatischen Spracherkennung bei Huntington-Krankheit vor, die durch die Einführung einer biomarkerbasierten auxiliary Supervision und die Anpassung von Modellen an pathologische Sprachmerkmale die Wortfehlerrate signifikant senkt und dabei zeigt, dass sich Fehlermuster in Abhängigkeit vom Schweregrad der Erkrankung spezifisch verändern.

Charles L. Wang, Cady Chen, Ziwei Gong, Julia Hirschberg2026-03-13🤖 cs.LG

PACED: Distillation at the Frontier of Student Competence

Die Arbeit stellt PACED vor, ein Framework zur effizienteren LLM-Distillation, das durch eine theoretisch fundierte Beta-Gewichtungsfunktion den Lernprozess gezielt auf die Zone der proximalen Entwicklung konzentriert, in der das Schülermodell weder bereits vollständig kompetent noch völlig überfordert ist, um so Rechenressourcen zu sparen und die Leistung auf Benchmarks zu steigern.

Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang2026-03-13🤖 cs.AI

Bayesian Optimization of Partially Known Systems using Hybrid Models

Die vorgestellte Arbeit entwickelt eine hybride Bayesian-Optimierungsmethode, die partiell bekannte physikalische Modelle mit probabilistischen Gauß-Prozessen kombiniert, um effizientere und schneller konvergierende Lösungen für komplexe Systeme wie Destillationsprozesse zu finden als herkömmliche Black-Box-Ansätze.

Eike Cramer, Luis Kutschat, Oliver Stollenwerk, Joel A. Paulson, Alexander Mitsos2026-03-13🤖 cs.LG

DNS-GT: A Graph-based Transformer Approach to Learn Embeddings of Domain Names from DNS Queries

Die Studie stellt DNS-GT vor, einen graphbasierten Transformer-Ansatz, der durch selbstüberwachtes Vortraining und Feinabstimmung auf DNS-Abfrage-Sequenzen aussagekräftige Domain-Name-Embeddings lernt, um die Genauigkeit bei der Erkennung von Botnets und der Klassifizierung von Domains im Vergleich zu bestehenden Methoden zu verbessern.

Massimiliano Altieri, Ronan Hamon, Roberto Corizzo, Michelangelo Ceci, Ignacio Sanchez2026-03-13🤖 cs.LG

Representation Finetuning for Continual Learning

Die Arbeit stellt CoRe vor, ein neuartiges Framework für das kontinuierliche Lernen, das das Feinabstimmungsparadigma vom Gewichtsraum in den Repräsentationsraum verlagert, indem es taskspezifische Eingriffe in einem niedrigrangigen linearen Unterraum versteckter Repräsentationen vornimmt, um Stabilität und Plastizität bei hoher Parameter-Effizienz zu gewährleisten.

Haihua Luo, Xuming Ran, Tommi Kärkkäinen, Huiyan Xue, Zhonghua Chen, Qi Xu, Fengyu Cong2026-03-13🤖 cs.LG

Reference-Guided Machine Unlearning

Die Arbeit stellt ReGUn vor, einen Referenz-gesteuerten Ansatz für maschinelles Vergessen, der durch die Nutzung eines separaten Datensatzes als Referenz eine stabilere und effektivere Entfernung spezifischer Daten bei gleichzeitiger Wahrung der allgemeinen Modellleistung ermöglicht.

Jonas Mirlach, Sonia Laguna, Julia E. Vogt2026-03-13🤖 cs.LG

Security-by-Design for LLM-Based Code Generation: Leveraging Internal Representations for Concept-Driven Steering Mechanisms

Die Arbeit stellt „Secure Concept Steering for CodeLLMs" (SCS-Code) vor, eine Methode, die die internen Repräsentationen von Sicherheitskonzepten in Large Language Models nutzt, um während der Token-Generierung gezielt sichere und funktionale Codeausgaben zu steuern und dabei bestehende State-of-the-Art-Methoden in puncto Sicherheit und Korrektheit zu übertreffen.

Maximilian Wendlinger, Daniel Kowatsch, Konstantin Böttinger, Philip Sperl2026-03-13🤖 cs.LG

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Die Studie zeigt, dass autonome KI-Agenten bei komplexen Cyberangriffen ihre Leistung sowohl durch erhöhten Rechenbedarf als auch durch Modellgenerationen signifikant steigern, wobei fortgeschrittene Modelle in einem Unternehmensnetzwerk bis zu 22 von 32 Schritten autonom bewältigen können, während die Fähigkeiten in industriellen Steuerungssystemen jedoch noch begrenzt bleiben.

Linus Folkerts, Will Payne, Simon Inman, Philippos Giavridis, Joe Skinner, Sam Deverett, James Aung, Ekin Zorer, Michael Schmatz, Mahmoud Ghanem, John Wilkinson, Alan Steer, Vy Hong, Jessica Wang2026-03-13🤖 cs.AI

Markovian Generation Chains in Large Language Models

Diese Studie untersucht Markovsche Generierungsketten in großen Sprachmodellen, bei denen iterative Inferenzprozesse ohne Gedächtnis entweder zu einer Konvergenz in eine kleine rekurrente Menge oder zu einer begrenzten Produktion neuer Sätze führen, wobei die Satzdiversität je nach Temperaturparameter und Eingabe zunehmen oder abnehmen kann.

Mingmeng Geng, Amr Mohamed, Guokan Shang, Michalis Vazirgiannis, Thierry Poibeau2026-03-13💬 cs.CL

Trustworthy predictive distributions for rare events via diagnostic transport maps

Diese Arbeit stellt diagnostische Transportkarten vor, die als covariatenabhängige Korrekturmechanismen dienen, um ungenaue Vorhersageverteilungen für seltene Ereignisse neu zu kalibrieren und gleichzeitig Echtzeit-Diagnosedaten über spezifische Modellfehler zu liefern, was in einer Anwendung zur Vorhersage tropischer Wirbelstürme zu verbesserten Ergebnissen im Vergleich zu operationellen Modellen führt.

Elizabeth Cucuzzella, Rafael Izbicki, Ann B. Lee2026-03-13📊 stat

Monitoring and Prediction of Mood in Elderly People during Daily Life Activities

Die Studie stellt ein intelligentes tragbares System vor, das mithilfe von physiologischen Daten eines Armbands und maschinellem Lernen die Stimmung älterer Menschen im Alltag überwacht und vorhersagt.

Daniel Bautista-Salinas, Joaquín Roca González, Inmaculada Méndez, Oscar Martinez Mozos2026-03-13🤖 cs.LG

← Zurück Weiter →