cs.LG Arbeiten | Gist.Science

Time series forecasting with Hahn Kolmogorov-Arnold networks

Das Paper stellt HaKAN vor, ein leichtgewichtiges und interpretierbares Modell für die multivariate Zeitreihenvorhersage, das auf Kolmogorov-Arnold-Netzwerken mit Hahn-Polynomen als lernbaren Aktivierungsfunktionen basiert und in Experimenten neuartige State-of-the-Art-Methoden übertrifft.

Md Zahidul Hasan, A. Ben Hamza, Nizar Bouguila2026-03-12📊 stat

Breaking the Stochasticity Barrier: An Adaptive Variance-Reduced Method for Variational Inequalities

Die Arbeit stellt VR-SDA-A vor, einen neuartigen, adaptiven Algorithmus mit Varianzreduktion und einer „Same-Batch"-Krümmungsverifikation, der die stochastische Barriere bei nicht-konvexen, nicht-konkaven Variationsungleichungen überwindet und eine optimale Orakelkomplexität von O(ε⁻³) bei automatischer Schrittweitenanpassung erreicht.

Yungi Jeong, Takumi Otsuka2026-03-12🤖 cs.LG

Singular Bayesian Neural Networks

Die Arbeit stellt singuläre Bayes'sche neuronale Netze vor, die durch eine Low-Rank-Parametrisierung der Gewichte die Parameteranzahl drastisch reduzieren, gleichzeitig strukturierte Korrelationen erfassen und in Bezug auf Vorhersagegenauigkeit, Kalibrierung und Out-of-Distribution-Erkennung mit Deep Ensembles konkurrieren.

Mame Diarra Toure, David A. Stephens2026-03-12📊 stat

Emergence of Distortions in High-Dimensional Guided Diffusion Models

Diese Arbeit analysiert die durch Classifier-free Guidance verursachten Verzerrungen in hochdimensionalen Diffusionsmodellen als Phasenübergang und schlägt einen theoretisch fundierten Guidance-Verlauf mit einem Fenster negativer Guidance vor, um den Diversitätsverlust zu mindern.

Enrico Ventura, Beatrice Achilli, Luca Ambrogioni, Carlo Lucibello2026-03-12📊 stat

Hallucination is a Consequence of Space-Optimality: A Rate-Distortion Theorem for Membership Testing

Die Arbeit zeigt, dass Halluzinationen in großen Sprachmodellen eine unvermeidbare Konsequenz der informationstheoretisch optimalen Speichereffizienz bei begrenzter Kapazität sind, da der Zwang zur verlustbehafteten Kompression von Fakten dazu führt, dass auch nicht-zutreffende Aussagen mit hoher Wahrscheinlichkeit bewertet werden.

Anxin Guo, Jingwei Li2026-03-12💬 cs.CL

Grounding Generated Videos in Feasible Plans via World Models

Die Arbeit stellt GVP-WM vor, eine Planungsmethode, die durch die Projektion von generierten Video-Plänen auf einen dynamisch machbaren latenten Raum mittels eines weltmodellsbasierten Optimierungsansatzes physikalisch konsistente und ausführbare Aktionssequenzen für langfristige Aufgaben erzeugt.

Christos Ziakas, Amir Bar, Alessandra Russo2026-03-12🤖 cs.LG

Expert-Data Alignment Governs Generation Quality in Decentralized Diffusion Models

Die Studie widerlegt die Annahme, dass numerische Stabilität die Generierungsqualität in dezentralen Diffusionsmodellen bestimmt, und zeigt stattdessen, dass die Ausrichtung der Routing-Entscheidungen auf Experten mit passenden Trainingsdaten für die Qualität entscheidend ist.

Marcos Villagra, Bidhan Roy, Raihan Seraj, Zhiying Jiang2026-03-12🤖 cs.LG

A Bandit-Based Approach to Educational Recommender Systems: Contextual Thompson Sampling for Learner Skill Gain Optimization

Diese Studie stellt einen banditbasierten Ansatz vor, der mithilfe von Contextual Thompson Sampling personalisierte Übungsfolgen für Lernende generiert, um den Kompetenzzuwachs in digitalen Lernumgebungen zu optimieren und gleichzeitig skalierbare individuelle Förderung sowie gezielte Unterstützungsmaßnahmen für Lehrende zu ermöglichen.

Lukas De Kerpel, Arthur Thuy, Dries F. Benoit2026-03-12📊 stat

Universality of General Spiked Tensor Models

Die Arbeit beweist die Universalität von asymmetrischen rank-one Spiked-Tensor-Modellen, indem sie zeigt, dass die asymptotischen spektralen Eigenschaften und statistischen Grenzen des Maximum-Likelihood-Schätzers auch bei nicht-gaußschen Rauschverteilungen mit endlicher vierter Moment identisch mit dem klassischen gaußschen Fall sind.

Yanjin Xiang, Zhihua Zhang2026-03-12📊 stat

BLITZRANK: Principled Zero-shot Ranking Agents with Tournament Graphs

Die Arbeit stellt BLITZRANK vor, ein prinzipielles Zero-Shot-Ranking-Framework, das auf Turniergraphen basiert, um durch die Aggregation von $k$ -weisen Vergleichen und die Berechnung der transitiven Hülle die Top- $m$ -Elemente mit signifikant weniger Token-Verbrauch und höherer Effizienz als bestehende Methoden zu identifizieren.

Sheshansh Agrawal, Thien Hang Nguyen, Douwe Kiela2026-03-12🤖 cs.LG

Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization

Die Arbeit stellt Fine-grained Group Policy Optimization (FGO) vor, einen Reinforcement-Learning-Algorithmus, der als effiziente Weiterentwicklung von GRPO übermäßige Chain-of-Thought-Verläufe in großen Sprachmodellen komprimiert und dabei gleichzeitig die Probleme der ineffizienten Datennutzung sowie des Entropie-Kollapses löst, ohne die Leistungsfähigkeit zu beeinträchtigen.

Xinchen Han, Hossam Afifi, Michel Marot, Xilu Wang, Lu Yin2026-03-12🤖 cs.LG

GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture

Die Arbeit stellt GOT-JEPA vor, ein Framework zur Vorhersage von Tracking-Modellen mittels Joint-Embedding Predictive Architecture, das in Kombination mit dem OccuSolver-Modul die Generalisierungsfähigkeit und die Verarbeitungsleistung bei Verdeckungen in der generischen Objektverfolgung signifikant verbessert.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu Lin2026-03-12🤖 cs.AI

LexiSafe: Offline Safe Reinforcement Learning with Lexicographic Safety-Reward Hierarchy

Das Paper stellt LexiSafe vor, ein theoretisch fundiertes Offline-Safe-Reinforcement-Learning-Framework, das durch eine lexikographische Hierarchie von Sicherheits- und Belohnungszielen sowie strukturelle Verzerrungen Sicherheitsverletzungen in cyber-physischen Systemen effektiv verhindert und gleichzeitig die Leistung verbessert.

Hsin-Jung Yang, Zhanhong Jiang, Prajwal Koirala, Qisai Liu, Cody Fleming, Soumik Sarkar2026-03-12⚡ eess

ZACH-ViT: Regime-Dependent Inductive Bias in Compact Vision Transformers for Medical Imaging

Die Arbeit stellt ZACH-ViT vor, einen kompakten Vision Transformer ohne Positionscodierung und [CLS]-Token, der durch permutationsinvariante Verarbeitung und globale Durchschnittspooling in datenarmen medizinischen Bildgebungsszenarien regimeabhängige Vorteile zeigt, insbesondere bei Datensätzen mit schwachen räumlichen Priors.

Athanasios Angelakis2026-03-12⚡ eess

Benchmarking Graph Neural Networks in Solving Hard Constraint Satisfaction Problems

Diese Studie stellt neue Benchmarks für harte Zufallsprobleme aus der Sicht der statistischen Physik vor und zeigt durch einen fairen Vergleich, dass klassische Algorithmen Graph Neural Networks bei der Lösung komplexer Constraint Satisfaction Problems weiterhin überlegen sind.

Geri Skenderi, Lorenzo Buffoni, Francesco D'Amico, David Machado, Raffaele Marino, Matteo Negri, Federico Ricci-Tersenghi, Carlo Lucibello, Maria Chiara Angelini2026-03-12🔬 cond-mat

Many AI Analysts, One Dataset: Navigating the Agentic Data Science Multiverse

Die Studie zeigt, dass autonome KI-Analysten große Datenmengen kostengünstig analysieren können, wobei sie jedoch aufgrund unterschiedlicher analytischer Entscheidungen zu stark variierenden Ergebnissen führen, was die Notwendigkeit einer neuen Transparenznorm mit Multiversen-Berichterstattung unterstreicht.

Martin Bertran, Riccardo Fogliato, Zhiwei Steven Wu2026-03-12🤖 cs.AI

Active Value Querying to Minimize Additive Error in Subadditive Set Function Learning

Diese Arbeit untersucht aktive Abfragestrategien, um den additiven Fehler bei der Approximation unbekannter subadditiver Mengenfunktionen zu minimieren, indem sie Methoden zur Verringerung der Unsicherheit zwischen minimalen und maximalen Ergänzungen entwickelt und empirisch validiert.

Martin Černý, David Sychrovský, Filip Úradník, Jakub Černý2026-03-12🤖 cs.LG

How Large Language Models Get Stuck: Early structure with persistent errors

Die Studie zeigt, dass Large Language Models bei bestimmten syntaktischen Aufgaben oft frühzeitig falsche Wahrscheinlichkeitsmuster verfestigen, die sich durch das Training hinweg nicht korrigieren lassen, und führt dies auf eine fehlerhafte Bigramm-Statistik zurück, die zu verfestigten Verzerrungen führt.

Alokesh Manna, William Snyder, Whitney Tabor2026-03-12💬 cs.CL

CARE: Towards Clinical Accountability in Multi-Modal Medical Reasoning with an Evidence-Grounded Agentic Framework

Die Arbeit stellt CARE vor, ein evidenzbasiertes, agentisches Framework für die multimodale medizinische Reasoning, das durch die Dekomposition in spezialisierte Module und die Integration von pixelgenauen Bildsegmentierungen die klinische Verantwortlichkeit und Genauigkeit im Vergleich zu bestehenden Black-Box-Modellen signifikant verbessert.

Yuexi Du, Jinglu Wang, Shujie Liu, Nicha C. Dvornek, Yan Lu2026-03-12🤖 cs.AI

CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance

Die Arbeit stellt CFG-Ctrl vor, ein Framework, das Classifier-Free Guidance als Kontrollmechanismus neu interpretiert, und führt mit SMC-CFG eine auf dem Sliding-Mode-Control-Prinzip basierende Methode ein, die durch nichtlineare Rückkopplung die Stabilität und semantische Ausrichtung von Diffusionsmodellen über einen weiten Bereich von Führungsparametern verbessert.

Hanyang Wang, Yiyang Liu, Jiawei Chi, Fangfu Liu, Ran Xue, Yueqi Duan2026-03-12🤖 cs.LG

← Zurück Weiter →