cs.LG Arbeiten | Gist.Science

Overcoming Valid Action Suppression in Unmasked Policy Gradient Algorithms

Die Arbeit identifiziert und beweist, dass unmaskierte Policy-Gradient-Algorithmen in Umgebungen mit zustandsabhängigen Aktionsvaliditäten durch geteilte Netzwerkgewichte dazu neigen, gültige Aktionen in noch nicht besuchten Zuständen systematisch zu unterdrücken, und zeigt, dass eine Klassifizierung der Machbarkeit diese Suppression effektiv verhindert.

Renos Zabounidis, Roy Siegelmann, Mohamad Qadri, Woojun Kim, Simon Stepputtis, Katia P. Sycara2026-03-11🤖 cs.LG

Probabilistic Hysteresis Factor Prediction for Electric Vehicle Batteries with Graphite Anodes Containing Silicon

Diese Arbeit stellt einen datengesteuerten Ansatz zur probabilistischen Vorhersage des Hysterese-Faktors bei Lithium-Ionen-Batterien mit Silizium-Graphit-Anoden vor, der durch Datenharmonisierung und maschinelles Lernen eine robuste und recheneffiziente Zustand-Schätzung unter Unsicherheiten ermöglicht.

Runyao Yu, Viviana Kleine, Philipp Gromotka, Thomas Rudolf, Adrian Eisenmann, Gautham Ram Chandra Mouli, Peter Palensky, Jochen L. Cremer2026-03-11🤖 cs.LG

Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

Die Arbeit stellt DCPO vor, ein Framework, das durch die Entkopplung von Optimierungszielen für logisches Schließen und Kalibrierung die Überkonfidenz in RLVR-Modellen beseitigt und gleichzeitig hohe Genauigkeit sowie eine optimale Kalibrierung gewährleistet.

Zhengzhao Ma, Xueru Wen, Boxi Cao, Yaojie Lu, Hongyu Lin, Jinglin Yang, Min He, Xianpei Han, Le Sun2026-03-11🤖 cs.LG

Causally Sufficient and Necessary Feature Expansion for Class-Incremental Learning

Diese Arbeit stellt eine Regularisierungsmethode auf Basis der Wahrscheinlichkeit von Notwendigkeit und Hinreichendheit (PNS) für das klasseninkrementelle Lernen vor, die durch die Generierung von kontrafaktischen Merkmalen innerhalb und zwischen Aufgaben kausale Vollständigkeit und Trennschärfe sicherstellt, um Kollisionen von Merkmalen und katastrophales Vergessen zu verhindern.

Zhen Zhang, Jielei Chu, Tianrui Li2026-03-11🤖 cs.AI

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

Das Paper stellt RubiCap vor, ein neuartiges Reinforcement-Learning-Framework, das mithilfe von LLM-generierten Rubriken feingranulare Belohnungssignale für das Dichte-Bildbeschreiben erzeugt und damit sowohl die Vielfalt der Ergebnisse als auch die Leistung von Vision-Language-Modellen im Vergleich zu bestehenden Methoden und menschlichen Annotationen signifikant verbessert.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot Bilkhu2026-03-11🤖 cs.AI

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

Diese Arbeit schlägt ein kosteneffizientes Framework vor, das funktional fehlerhafte, aber strukturell aussagekräftige von LLMs generierte RTL-Codes nutzt, um Netlist-Repräsentationen zu lernen und so die Datenknappheit für das Training von KI-Modellen in der Schaltungsanalyse zu überwinden.

Siyang Cai, Cangyuan Li, Yinhe Han, Ying Wang2026-03-11🤖 cs.AI

GIAT: A Geologically-Informed Attention Transformer for Lithology Identification

Die Arbeit stellt GIAT vor, einen neuartigen Geologisch-Informierten Attention Transformer, der durch die Integration von geologischen Priors in den Aufmerksamkeitsmechanismus die Genauigkeit und Interpretierbarkeit der Lithologie-Identifikation aus Bohrlochdaten signifikant verbessert.

Jie Li, Qishun Yang, Nuo Li2026-03-11🤖 cs.AI

Better Bounds for the Distributed Experts Problem

Dieses Paper stellt ein Kommunikationsprotokoll für das verteilte Expertenproblem vor, das im Vergleich zu früheren Arbeiten eine verbesserte Regret-Schranke bei minimalem Kommunikationsaufwand erreicht.

David P. Woodruff, Samson Zhou2026-03-11🤖 cs.LG

Differentiable Stochastic Traffic Dynamics: Physics-Informed Generative Modelling in Transportation

Diese Arbeit stellt ein physik-informiertes generatives Modell vor, das stochastische Verkehrsflüsse durch eine auf der Itô-LWR-Gleichung basierende Verteilungsdynamik und ein score-basiertes Netzwerk abbildet, um datenbasierte Schätzungen von Verkehrsdichteverteilungen einschließlich Unsicherheitsintervallen zu ermöglichen.

Wuping Xin2026-03-11🤖 cs.AI

Latent-DARM: Bridging Discrete Diffusion And Autoregressive Models For Reasoning

Die Arbeit stellt Latent-DARM vor, ein latenter Kommunikationsrahmen, der diskrete Diffusionsmodelle als Planer und autoregressive Modelle als Ausführer verbindet, um die reasoning-Fähigkeiten in Multi-Agenten-Systemen signifikant zu verbessern und dabei den Token-Verbrauch drastisch zu senken.

Lina Berrayana, Ahmed Heakl, Abdullah Sohail, Thomas Hofmann, Salman Khan, Wei Chen2026-03-11🤖 cs.AI

The Costs of Reproducibility in Music Separation Research: a Replication of Band-Split RNN

Diese Arbeit repliziert das Band-Split-RNN-Modell zur Musikquellen-Trennung, um die durch fehlenden Quellcode verursachten Reproduzierbarkeitsprobleme zu analysieren, optimierte Varianten zu entwickeln und die Bedeutung transparenter Forschungspraktiken in der Community zu unterstreichen.

Paul Magron, Romain Serizel, Constance Douwes2026-03-11🤖 cs.LG

$P^2$ GNN: Two Prototype Sets to boost GNN Performance

Die Arbeit stellt $P^2$ GNN vor, eine Plug-and-Play-Methode, die durch die Nutzung von zwei Prototyp-Sets den Informationsfluss in Graph Neural Networks verbessert, indem sie globale Kontextinformationen integriert und Rauschen in lokalen Nachbarschaften reduziert, was zu signifikant besseren Ergebnissen bei Empfehlungssystemen und Klassifizierungsaufgaben führt.

Arihant Jain, Gundeep Arora, Anoop Saladi, Chaosheng Dong2026-03-11🤖 cs.LG

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

Die Arbeit argumentiert, dass Fortschritte in der logischen推理 von KI-Systemen über drei mechanistische Pfade (deduktive Selbstinferenz, induktive Kontexterkennung und abduktive Selbstmodellierung) unweigerlich zu einer gefährlichen situativen Selbstwahrnehmung führen, und schlägt daher neue Sicherheitsmaßnahmen wie einen „Spiegel-Test"-Benchmark vor, um diese Eskalation zu verhindern.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary2026-03-11🤖 cs.AI

The Radio-Frequency Transformer for Signal Separation

Die Autoren stellen einen vollständig datengesteuerten Transformer-basierten Ansatz vor, der mithilfe eines verfeinerten Tokenizers und eines Cross-Entropy-Trainings Signale von nicht-gaußschen Störungen trennt und dabei im Vergleich zu bestehenden Methoden eine drastische Reduktion der Bitfehlerrate bei gleichzeitiger Null-Shot-Generalisierung auf unbekannte Mischungen erreicht.

Egor Lifar, Semyon Savkin, Rachana Madhukara, Tejas Jayashankar, Yury Polyanskiy, Gregory W. Wornell2026-03-11🤖 cs.LG

Emotion is Not Just a Label: Latent Emotional Factors in LLM Processing

Die Studie zeigt, dass emotionale Töne die Aufmerksamkeitsgeometrie von Large Language Models systematisch verändern, und stellt mit dem AURA-QA-Datensatz sowie einem emotionalen Regularisierungsrahmen neue Methoden vor, um die Leseverständnisleistung unter emotionalen Distributionsschwankungen zu verbessern.

Benjamin Reichman, Adar Avasian, Samuel Webster, Larry Heck2026-03-11🤖 cs.AI

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

Die Arbeit stellt MM-Zero vor, ein RL-basiertes Framework, das erstmals die datenlose Selbstentwicklung von Vision-Language-Modellen durch ein dreiteiliges Rollenkonzept (Proposer, Coder, Solver) ermöglicht, das abstrakte visuelle Konzepte generiert, in ausführbaren Code übersetzt und multimodale Schlussfolgerungen trifft.

Zongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao Liu2026-03-11🤖 cs.LG

Strategically Robust Multi-Agent Reinforcement Learning with Linear Function Approximation

Die Arbeit stellt \texttt{RQRE-OVI} vor, einen optimistischen Wert-Iterationsalgorithmus mit linearer Funktionsapproximation, der das Risiko-sensitive Quantal-Response-Gleichgewicht (RQRE) berechnet und dabei eine einzigartige, glatte Lösung bietet, die im Vergleich zum Nash-Gleichgewicht eine überlegene Robustheit und Stabilität in general-sum Markov-Spielen gewährleistet.

Jake Gonzales, Max Horwitz, Eric Mazumdar, Lillian J. Ratliff2026-03-11🤖 cs.LG

Beyond Test-Time Training: Learning to Reason via Hardware-Efficient Optimal Control

Die Arbeit stellt die Test-Time Control (TTC)-Schicht vor, eine hardware-effiziente Architekturerweiterung für große Sprachmodelle, die durch die Einbettung von optimaler Steuerung und LQR-Planung in den Inferenzprozess die mathematische Schlussfolgerungsfähigkeit signifikant verbessert, ohne auf Testzeit-Training angewiesen zu sein.

Peihao Wang, Shan Yang, Xijun Wang, Tesi Xiao, Xin Liu, Changlong Yu, Yu Lou, Pan Li, Zhangyang Wang, Ming Lin, René Vidal2026-03-11🤖 cs.LG

A Generative Sampler for distributions with possible discrete parameter based on Reversibility

Die vorgestellte Arbeit entwickelt einen einheitlichen, zielgradientenfreien generativen Sampler, der durch die Minimierung der Maximum Mean Discrepancy zwischen vorwärts- und rückwärtsgerichteten Trajektorien unter Einhaltung der Reversibilität komplexe Verteilungen in kontinuierlichen, diskreten und hybriden Räumen effizient sampelt.

Lei Li, Zhen Wang, Lishuo Zhang2026-03-11🤖 cs.LG

Efficient Reasoning at Fixed Test-Time Cost via Length-Aware Attention Priors and Gain-Aware Training

Diese Arbeit stellt zwei rein trainingsseitige Komponenten vor, die durch längenbewusste Aufmerksamkeitspriors und einen gewinnbewussten Controller die Effizienz des logischen Schlussfolgerns bei festen Testzeitkosten verbessern, indem sie die Validierungsverluste senken, ohne die Inferenzlatenz oder den Speicherbedarf zu erhöhen.

Rian Atri2026-03-11🤖 cs.LG

← Zurück Weiter →

cs.LG