cs.LG Arbeiten | Gist.Science

Function Induction and Task Generalization: An Interpretability Study with Off-by-One Addition

Diese Studie nutzt Interpretierbarkeitsmethoden, um zu zeigen, wie Large Language Models durch einen neuartigen Mechanismus namens „Funktionsinduktion" generalisieren, bei dem parallele Aufmerksamkeitsköpfe abstrakte Funktionen (wie eine Off-by-One-Addition) lernen und auf diverse neue Aufgaben übertragen.

Qinyuan Ye, Robin Jia, Xiang Ren2026-03-05🤖 cs.AI

Finite-Dimensional Gaussian Approximation for Deep Neural Networks: Universality in Random Weights

Die Arbeit beweist, dass die endlich-dimensionalen Verteilungen von tiefen neuronalen Netzen mit zufällig initialisierten Gewichten und Lipschitz-stetigen Aktivierungsfunktionen bei wachsender Schichtbreite gegen eine Gauß-Verteilung konvergieren, wobei für proportional wachsende Schichten explizite Konvergenzraten hergeleitet werden.

Krishnakumar Balasubramanian, Nathan Ross2026-03-05🤖 cs.LG

Self-Supervised Inductive Logic Programming

Die Arbeit stellt Poker vor, ein neues selbstüberwachtes Induktives Logikprogrammierungssystem, das ohne negative Beispiele oder maßgeschneiderte Hintergrundtheorien auskommt, indem es automatisch neue Trainingsbeispiele generiert und eine zweite Ordnung Definite Normal Form (SONF) als allgemeine Hintergrundtheorie verwendet, um rekursive Logikprogramme zu erlernen.

Stassa Patsantzis2026-03-05🤖 cs.AI

Effective Sample Size and Generalization Bounds for Temporal Networks

Die Arbeit schlägt eine abhängigkeitssensible Evaluierungsmethodik vor, die die effektive Stichprobengröße statt der Rohlänge berücksichtigt, und liefert damit generalisierbare Garantien für Temporal Convolutional Networks auf β-mischenden Sequenzen, die zeigen, dass stärkere zeitliche Abhängigkeiten bei korrekter Kontrolle die Generalisierungslücken sogar verringern können.

Barak Gahtan, Alex M. Bronstein2026-03-05🤖 cs.AI

ObfusQAte: A Proposed Framework to Evaluate LLM Robustness on Obfuscated Factual Question Answering

Die Studie stellt ObfusQAte und das darauf aufbauende Framework ObfusQA vor, um die Robustheit von Large Language Models bei der Beantwortung von Fragen mit mehrstufiger Verschleierung zu evaluieren und dabei festzustellen, dass Modelle bei solchen nuancierten Variationen häufig versagen oder Halluzinationen produzieren.

Shubhra Ghosh, Abhilekh Borah, Aditya Kumar Guru + 1 more2026-03-05🤖 cs.AI

Subsampling Factorization Machine Annealing

Die Autoren stellen Subsampling Factorization Machine Annealing (SFMA) vor, einen optimierten Algorithmus für die schwarze-Box-Optimierung, der durch das Training auf Stichprobendatensätzen eine ausgewogene Balance zwischen Exploration und Exploitation erreicht und damit gegenüber dem ursprünglichen FMA-Verfahren sowohl in Geschwindigkeit als auch Genauigkeit überlegen ist.

Yusuke Hama, Tadashi Kadowaki2026-03-05⚛️ quant-ph

On the Generalization Limits of Quantum Generative Adversarial Networks with Pure State Generators

Die Studie zeigt, dass Quanten-Generative Adversarial Networks (QGANs) mit reinen Zuständen als Generatoren aufgrund analytisch hergeleiteter Fidelity-Schranken Schwierigkeiten haben, Trainingsdaten zu generalisieren, und stattdessen lediglich deren Durchschnittsrepräsentation lernen.

Jasmin Frkatovic, Akash Malemath, Ivan Kankeu + 7 more2026-03-05⚛️ quant-ph

Zono-Conformal Prediction: Zonotope-Based Uncertainty Quantification for Regression and Classification Tasks

Die Arbeit stellt „Zono-Conformal Prediction" vor, eine neue Methode zur Unsicherheitsquantifizierung, die mittels Zonotopen effizientere und weniger konservative Vorhersagemengen für Regressions- und Klassifikationsaufgaben bereitstellt als bestehende Ansätze.

Laura Lützow, Michael Eichelbeck, Mykel J. Kochenderfer + 1 more2026-03-05🤖 cs.AI

Adaptive Quantized Planetary Crater Detection System for Autonomous Space Exploration

Dieses Konzeptpapier stellt das Adaptive Quantized Planetary Crater Detection System (AQ-PCDSys) vor, eine Architektur, die durch Quantisierungsbewusstes Training und adaptive Multi-Sensor-Fusion die Echtzeit-Erkennung von Planetenkranzern auf ressourcenbeschränkter, strahlungsharter Weltraumhardware ermöglicht.

Aditri Paul, Archan Paul2026-03-05🤖 cs.AI

Performance Assessment Strategies for Generative AI Applications in Healthcare

Der Artikel diskutiert aktuelle Methoden zur Leistungsbeurteilung von generativer KI im Gesundheitswesen und hebt dabei die Grenzen quantitativer Benchmarks sowie den wachsenden Stellenwert von Evaluierungsstrategien hervor, die menschliche Expertise und kosteneffiziente Rechenmodelle nutzen.

Victor Garcia, Mariia Sidulova, Aldo Badano2026-03-05🤖 cs.AI

QDFlow: A Python package for physics simulations of quantum dot devices

QDFlow ist ein Open-Source-Python-Paket, das realistische synthetische Daten für Quantenpunkt-Arrays mit Ground-Truth-Labels generiert, um die Entwicklung und Validierung von Machine-Learning-Methoden zur Kalibrierung und zum Betrieb dieser Geräte zu erleichtern.

Donovan L. Buterakos, Sandesh S. Kalantre, Joshua Ziegler + 2 more2026-03-05⚛️ quant-ph

Segment-to-Act: Label-Noise-Robust Action-Prompted Video Segmentation Towards Embodied Intelligence

Diese Arbeit stellt mit ActiSeg-NL den ersten Benchmark für die label-noise-robuste, aktionsbasierte Videosegmentierung vor, analysiert systematisch die Auswirkungen von Text- und Maskenrauschen und führt einen Parallel Mask Head Mechanism (PMHM) zur Verbesserung der Robustheit ein.

Wenxin Li, Kunyu Peng, Di Wen + 4 more2026-03-05🤖 cs.LG

Deep Hierarchical Learning with Nested Subspace Networks for Large Language Models

Die Arbeit stellt Nested Subspace Networks (NSNs) vor, ein neuartiges Architekturen-Paradigma, das es ermöglicht, einzelne vortrainierte Large Language Models durch eine verschachtelte Untergruppenstruktur dynamisch an verschiedene Rechenbudgets anzupassen und dabei einen glatten Kompromiss zwischen Inferenzkosten und Leistung zu erreichen.

Paulius Rauba, Mihaela van der Schaar2026-03-05🤖 cs.LG

Bridging Computational Social Science and Deep Learning: Cultural Dissemination-Inspired Graph Neural Networks

Die Arbeit stellt AxelGNN vor, eine neuartige Graph-Neural-Network-Architektur, die auf Axelrods kultureller Dissemination basiert und durch similarity-gesteuerte Interaktionen, segmentweises Feature-Copying sowie globale Polarisation die Herausforderungen von Feature-Oversmoothing und heterogenen Beziehungen überwindet, um sowohl homophile als auch heterophile Graphen effizient zu verarbeiten.

Asela Hevapathige2026-03-05🤖 cs.AI

Best-of- $\infty$ -- Asymptotic Performance of Test-Time LLM Ensembling

Die Arbeit untersucht die asymptotische Leistung von Best-of- $N$ -Ensembles für Large Language Models bei unendlicher Stichprobengröße und schlägt einen adaptiven, gewichteten Ansatz vor, der die Inferenzkosten effizient steuert und durch optimale Modellkombinationen die Leistung einzelner Modelle übertrifft.

Junpei Komiyama, Daisuke Oba, Masafumi Oyamada2026-03-05🤖 cs.AI

CAD-Tokenizer: Towards Text-based CAD Prototyping via Modality-Specific Tokenization

Die Arbeit stellt CAD-Tokenizer vor, ein Framework, das durch modality-spezifische Tokenisierung und primitive-basierte Kodierung die Text-zu-CAD-Generierung und -Bearbeitung verbessert, indem sie die strukturellen Semantiken von CAD-Modellen besser erfasst als herkömmliche LLM-Tokenisierer.

Ruiyu Wang, Shizhao Sun, Weijian Ma + 1 more2026-03-05🤖 cs.LG

Talking Trees: Reasoning-Assisted Induction of Decision Trees for Tabular Data

Diese Arbeit stellt einen Ansatz vor, bei dem ein reasoning-fähiger LLM-Agent mittels eines agentic-Setups kleine tabellarische Datensätze in interpretierbare, faire und leichtgewichtige Entscheidungsbäume überführt, die mit state-of-the-art Black-Box-Modellen konkurrieren können.

George Yakushev, Alina Shutova, Ivan Rubachev + 3 more2026-03-05🤖 cs.LG

Scalable Second-order Riemannian Optimization for $K$ -means Clustering

Dieses Papier stellt eine neue Formulierung des $K$ -Means-Clustering-Problems als glatte, unbeschränkte Optimierung auf einer Untermannigfaltigkeit vor, die durch einen zweiten Ordnung Riemannschen Newton-Algorithmus mit kubischer Regularisierung effizient gelöst wird und dabei eine signifikant schnellere Konvergenz als bestehende erste-Ordnung-Methoden bei gleicher statistischer Genauigkeit erreicht.

Peng Xu, Chun-Ying Hou, Xiaohui Chen + 1 more2026-03-05🤖 cs.LG

Erase or Hide? Suppressing Spurious Unlearning Neurons for Robust Unlearning

Die Studie stellt Ssiuu vor, eine neue Methode zum maschinellen Vergessen, die durch attributionsgesteuerte Regularisierung oberflächliche Verdrängung vermeidet und sensitive Daten in großen Sprachmodellen zuverlässig und dauerhaft löscht, um deren Wiederauftauchen bei nachfolgendem Training zu verhindern.

Nakyeong Yang, Dong-Kyum Kim, Jea Kwon + 3 more2026-03-05🤖 cs.LG

The Lie of the Average: How Class Incremental Learning Evaluation Deceives You?

Die Arbeit entlarvt die Verzerrung herkömmlicher Evaluierungsprotokolle im Class Incremental Learning durch unzureichende Sequenzstichproben und stellt EDGE vor, ein neues Verfahren, das mittels inter-task-Ähnlichkeit extreme Sequenzen identifiziert, um die wahre Leistungsverteilung präziser abzubilden.

Guannan Lai, Da-Wei Zhou, Xin Yang + 1 more2026-03-05🤖 cs.LG

← Zurück Weiter →

cs.LG