cs.LG Arbeiten | Gist.Science

Continual uncertainty learning

Diese Studie stellt ein curriculumbasiertes, kontinuierliches Lernframework vor, das durch die schrittweise Zerlegung komplexer Unsicherheiten und die Kombination von modellbasierter Regelung mit Deep Reinforcement Learning robuste Steuerungen für nichtlineare mechanische Systeme ermöglicht und erfolgreich eine Sim-zu-Real-Übertragung für aktive Schwingungskontrolle in Fahrzeugantriebssträngen demonstriert.

Heisei Yonezawa, Ansei Yonezawa, Itsuro Kajiwara2026-03-11🤖 cs.AI

Breaking the Factorization Barrier in Diffusion Language Models

Die Arbeit stellt Coupled Discrete Diffusion (CoDD) vor, einen hybriden Rahmen, der die „Faktorisierungsbarriere" in Diffusions-Sprachmodellen durch eine leichte probabilistische Inferenzschicht überwindet, um komplexe gemeinsame Abhängigkeiten effizient zu modellieren und dabei sowohl die Geschwindigkeit als auch die Kohärenz der Generierung erheblich verbessert.

Ian Li, Zilei Shao, Benjie Wang, Rose Yu, Guy Van den Broeck, Anji Liu2026-03-11🤖 cs.AI

Detecting Transportation Mode Using Dense Smartphone GPS Trajectories and Transformer Models

Die Studie stellt SpeedTransformer vor, ein auf Transformer-Architekturen basierendes Modell, das mithilfe von Geschwindigkeitsdaten aus dichten Smartphone-GPS-Trajektorien Transportmittel erkennt und dabei traditionelle Deep-Learning-Modelle in Bezug auf Genauigkeit, Transferfähigkeit und Robustheit in realen Umgebungen übertrifft.

Yuandong Zhang, Othmane Echchabi, Tianshu Feng, Wenyi Zhang, Hsuai-Kai Liao, Charles Chang2026-03-11🤖 cs.LG

Non-Rectangular Average-Reward Robust MDPs: Optimal Policies and Their Transient Values

Diese Arbeit untersucht nicht-rechteckige robuste Markov-Entscheidungsprozesse mit Durchschnittsbelohnung, zeigt, dass sublineare Regret-Policies robust-optimal sind und eine Minimax-Darstellung der robusten Werte ohne Rechteckigkeitsannahme ermöglichen, und entwickelt ein transientes Bewertungsframework sowie eine epochenbasierte Policy, die eine konstante transiente Leistung garantiert.

Shengbo Wang, Nian Si2026-03-11🤖 cs.LG

DUEL: Exact Likelihood for Masked Diffusion via Deterministic Unmasking

Die Arbeit stellt das DUEL-Framework vor, das durch deterministische Unmasking-Strategien eine exakte Likelihood-Berechnung für Masked Diffusion Models ermöglicht und damit deren wahre Leistungsfähigkeit aufdeckt, die deutlich besser ist als bisher angenommen und sogar autoregressive Modelle übertreffen kann.

Gilad Turok, Chris De Sa, Volodymyr Kuleshov2026-03-11🤖 cs.LG

Reasoning as Gradient: Scaling MLE Agents Beyond Tree Search

Die Arbeit stellt \textsc{Gome} vor, einen MLE-Agenten, der gradientenbasierte Optimierung anstelle von Baumsuche nutzt und durch die Abbildung diagnostischer Schlussfolgerungen auf Gradientenberechnung bei leistungsstarken Modellen einen neuen State-of-the-Art auf MLE-Bench erreicht.

Yifei Zhang, Xu Yang, Xiao Yang, Bowen Xian, Qizheng Li, Shikai Fang, Jingyuan Li, Jian Wang, Mingrui Xu, Weiqing Liu, Jiang Bian2026-03-11🤖 cs.AI

FinTexTS: Financial Text-Paired Time-Series Dataset via Semantic-Based and Multi-Level Pairing

Die Arbeit stellt FinTexTS vor, ein neues groß angelegtes Datenset für Finanzzeitreihen, das durch einen semantikbasierten und mehrstufigen Paarungsansatz mit LLMs erstellt wurde, um komplexe Marktinterdependenzen besser zu erfassen und die Vorhersagegenauigkeit von Aktienkursen zu verbessern.

Jaehoon Lee, Suhwan Park, Tae Yoon Lim, Seunghan Lee, Jun Seo, Dongwan Kang, Hwanil Choi, Minjae Kim, Sungdong Yoo, SoonYoung Lee, Yongjae Lee, Wonbin Ahn2026-03-11🤖 cs.AI

Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction

Die Studie stellt zwei rein softwarebasierte Techniken, Overflow-Aware Scaling (OAS) und Macro Block Scaling (MBS), vor, die die Genauigkeit des MXFP4-Formats für Large Language Models signifikant verbessern und die Leistungslücke zu NVFP4 von durchschnittlich 10 % auf unter 1 % verringern, ohne Hardwareänderungen vorzunehmen.

Jatin Chhugani, Geonhwa Jeong, Bor-Yiing Su, Yunjie Pan, Hanmei Yang, Aayush Ankit, Jiecao Yu, Summer Deng, Yunqing Chen, Nadathur Satish, Changkyu Kim2026-03-11🤖 cs.AI

Equitable Multi-Task Learning for AI-RANs

Diese Arbeit stellt das OWO-FMTL-Framework vor, ein Online-in-Online-Verfahren für faire Multi-Task-Lernprozesse in KI-gestützten Funkzugangsnetzen, das durch adaptive Priorisierungen und einen primaldualen Mechanismus langfristige Gleichheit bei geringem Rechenaufwand gewährleistet.

Panayiotis Raptis, Fatih Aslan, George Iosifidis2026-03-11🤖 cs.LG

KernelCraft: Benchmarking for Agentic Close-to-Metal Kernel Generation on Emerging Hardware

Die Arbeit stellt KernelCraft vor, den ersten Benchmark, der nachweist, dass agentic LLM-Systeme durch einen feedbackgesteuerten Workflow effizient und korrekt optimierte Low-Level-Kernel für neuartige Hardware-Architekturen mit bisher unbekannten Instruktionssätzen generieren können.

Jiayi Nie, Haoran Wu, Yao Lai, Zeyu Cao, Cheng Zhang, Binglei Lou, Erwei Wang, Jianyi Cheng, Timothy M. Jones, Robert Mullins, Rika Antonova, Yiren Zhao2026-03-11🤖 cs.LG

ALADIN: Accuracy-Latency-Aware Design-space Inference Analysis for Embedded AI Accelerators

Die Arbeit stellt ALADIN vor, ein Framework zur genauigkeits- und latenzbewussten Analyse des Designraums für gemischt-präzise quantisierte neuronale Netze auf eingebetteten KI-Beschleunigern, das die Bewertung von Trade-offs zwischen Genauigkeit, Latenz und Ressourcenverbrauch ohne physische Bereitstellung auf der Zielplattform ermöglicht.

T. Baldi, D. Casini, A. Biondi2026-03-11🤖 cs.AI

Performance Analysis of Edge and In-Sensor AI Processors: A Comparative Review

Diese Arbeit bietet eine umfassende Analyse und einen empirischen Vergleich von Edge- und In-Sensor-AI-Prozessoren, wobei Benchmarks auf GAP9, STM32N6 und Sony IMX500 die überlegene Energieeffizienz und den Reifegrad von In-Sensor-Verarbeitung im Vergleich zu herkömmlichen Mikrocontroller- und Beschleuniger-Architekturen unterstreichen.

Luigi Capogrosso, Pietro Bonazzi, Michele Magno2026-03-11🤖 cs.LG

Data-Rate-Aware High-Speed CNN Inference on FPGAs

Dieser Artikel stellt eine datenratenbewusste CNN-Beschleunigerarchitektur für FPGAs vor, die durch Multi-Pixel-Verarbeitung und eine optimierte Designraumexploration die Hardwareauslastung verbessert und den Einsatz komplexer CNNs auf einem einzigen FPGA bei verschiedenen Datenraten ermöglicht.

Tobias Habermann, Martin Kumm2026-03-11🤖 cs.LG

Memory-Augmented Spiking Networks: Synergistic Integration of Complementary Mechanisms for Neuromorphic Vision

Die Studie zeigt, dass die synergetische Integration von überwachtem kontrastivem Lernen, Hopfield-Netzen und hierarchischen gated recurrenten Netzwerken in Spiking Neural Networks zu einer ausgewogenen Verbesserung von Genauigkeit, Energieeffizienz und neuronalen Clusterstrukturen auf dem N-MNIST-Datensatz führt.

Effiong Blessing, Chiung-Yi Tseng, Isaac Nkrumah, Junaid Rehman2026-03-11🤖 cs.LG

Hebbian-Oscillatory Co-Learning

Die Arbeit stellt Hebbian-Oscillatory Co-Learning (HOC-L) vor, ein einheitliches Zwei-Zeitskalen-Framework, das hyperbolische spärliche Geometrie mit oszillatorischer Phasensynchronisation koppelt, um durch synchrone Gate-Mechanismen strukturelle Plastizität zu steuern und dabei theoretische Konvergenz sowie lineare Komplexität nachzuweisen.

Hasi Hays2026-03-11🤖 cs.LG

Autonomous Edge-Deployed AI Agents for Electric Vehicle Charging Infrastructure Management

Die Arbeit stellt Auralink SDC vor, ein Edge-Architekturkonzept mit spezialisierten KI-Agenten, das durch Techniken wie confidence-kalibrierte autonome Fehlerbehebung und adaptive Retrieval-Augmented Reasoning die Zuverlässigkeit und Reaktionsgeschwindigkeit von EV-Ladeinfrastruktur signifikant verbessert und dabei 78 % autonome Störungsbehebung bei sub-50ms-Latenz erreicht.

Mohammed Cherifi2026-03-11🤖 cs.AI

Sensitivity-Guided Framework for Pruned and Quantized Reservoir Computing Accelerators

Diese Arbeit stellt einen Sensitivitäts-basierten Kompressionsrahmen für Reservoir Computing vor, der durch systematische Kombination von Pruning und Quantisierung die Hardware-Effizienz auf FPGAs erheblich steigert, ohne die Modellgenauigkeit zu beeinträchtigen.

Atousa Jafari, Mahdi Taheri, Hassan Ghasemzadeh Mohammadi, Christian Herglotz, Marco Platzner2026-03-11🤖 cs.AI

The AetherFloat Family: Block-Scale-Free Quad-Radix Floating-Point Architectures for AI Accelerators

Die Arbeit stellt die AetherFloat-Familie vor, eine hardwareoptimierte Quad-Radix-Gleitkomma-Architektur für KI-Beschleuniger, die durch den Verzicht auf Block-Skalierung und die Einführung expliziter Mantissen signifikante Verbesserungen bei Chipfläche, Energieverbrauch und Latenz ermöglicht, wobei AF8 speziell als Block-Scale-Free-Format für Inferenz mit Quantisierungsbewusstsein entwickelt wurde.

Keita Morisaki2026-03-11🤖 cs.LG

Robust Parameter and State Estimation in Multiscale Neuronal Systems Using Physics-Informed Neural Networks

Diese Arbeit stellt einen physik-informierten neuronalen Netzwerk-Ansatz (PINN) vor, der robuste und genaue Schätzungen biophysikalischer Parameter und rekonstruierte Zustandsvariablen aus teilweise verrauschten Beobachtungen in multiskaligen neuronalen Systemen ermöglicht und dabei die Grenzen traditioneller numerischer Methoden überwindet.

Changliang Wei, Yangyang Wang, Xueyu Zhu2026-03-11🤖 cs.LG

Permutation-Equivariant 2D State Space Models: Theory and Canonical Architecture for Multivariate Time Series

Die Arbeit führt das theoretisch fundierte, permutationsäquivariante VI 2D SSM ein, das durch den Verzicht auf künstliche Variablenreihenfolgen und die Reduzierung der Abhängigkeitstiefe auf konstante Komplexität einen neuen State-of-the-Art bei der Modellierung multivariater Zeitreihen erreicht.

Seungwoo Jeong, Heung-Il Suk2026-03-11🤖 cs.AI

← Zurück Weiter →