cs.LG Arbeiten | Gist.Science

Personalized Multi-Agent Average Reward TD-Learning via Joint Linear Approximation

Diese Arbeit untersucht personalisierte Multi-Agenten-TD-Lernverfahren mit durchschnittlicher Belohnung, bei denen Agenten durch die gemeinsame Schätzung eines linearen Unterraums und lokaler Köpfe trotz heterogener Umgebungen und Markov-Sampling eine lineare Beschleunigung erreichen und negative Signaleffekte minimieren.

Leo Muxing Wang, Pengkun Yang, Lili Su2026-03-10🤖 cs.LG

Embedding interpretable $\ell_1$ -regression into neural networks for uncovering temporal structure in cell imaging

Diese Arbeit stellt eine Methode vor, die ein interpretierbares, durch $\ell_1$ -Regularisierung sparse autoregressives Modell in ein Convolutional Autoencoder integriert, um aus Zwei-Photonen-Calcium-Bilddaten sowohl reduzierte zeitliche Dynamiken als auch räumliche Beitragskarten zu extrahieren.

Fabian Kabus, Maren Hackenberg, Julia Hindel, Thibault Cholvin, Antje Kilias, Thomas Brox, Abhinav Valada, Marlene Bartos, Harald Binder2026-03-10🤖 cs.LG

Interpretable Motion-Attentive Maps: Spatio-Temporally Localizing Concepts in Video Diffusion Transformers

Diese Arbeit stellt eine neue Methode vor, die mit GramCol und einem Motion-Feature-Selection-Algorithmus ohne Gradientenberechnung interpretierbare, räumlich-zeitliche Saliency-Karten für Bewegungs- und Objektkonzepte in Video-Diffusion-Transformern erzeugt.

Youngjun Jun, Seil Kang, Woojung Han, Seong Jae Hwang2026-03-10🤖 cs.LG

CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning

Das Paper stellt CGL vor, ein Framework für das kontinuierliche Lernen von GUI-Agenten, das durch eine dynamische Balance zwischen überwachtem Feinabstimmung und Bestärkendem Lernen sowie eine spezielle Gradienten-Chirurgie-Strategie das Vergessen alter Aufgaben bei der Anpassung an neue GUIs verhindert.

Zhenquan Yao, Zitong Huang, Yihan Zeng, Jianhua Han, Hang Xu, Chun-Mei Feng, Jianwei Ma, Wangmeng Zuo2026-03-10🤖 cs.LG

Why Adam Can Beat SGD: Second-Moment Normalization Yields Sharper Tails

Diese Arbeit liefert den ersten theoretischen Beweis, dass Adam im Vergleich zu SGD unter der klassischen Annahme beschränkter Varianz durch eine zweite Momenten-Normalisierung eine überlegene Konvergenz mit einer $\delta^{-1/2}$ -Abhängigkeit vom Konfidenzparameter $\delta$ erreicht, während SGD mindestens eine $\delta^{-1}$ -Abhängigkeit aufweist.

Ruinan Jin, Yingbin Liang, Shaofeng Zou2026-03-10🤖 cs.LG

Information Routing in Atomistic Foundation Models: How Task Alignment and Equivariance Shape Linear Disentanglement

Die Studie stellt die Compositional Probe Decomposition (CPD) vor und zeigt, dass die lineare Entwirrung geometrischer und kompositioneller Informationen in atomistischen Fundamentmodellen primär durch die Ausrichtung des Trainingsziels bestimmt wird, wobei spezifische Symmetrie-Kanäle unterschiedliche Moleküleigenschaften bevorzugt kodieren.

Joshua Steier2026-03-10🤖 cs.LG

XInsight: Integrative Stage-Consistent Psychological Counseling Support Agents for Digital Well-Being

Das Paper stellt XInsight vor, ein mehrstufiges Multi-Agenten-Framework, das psychologische Unterstützung durch einen klinisch fundierten Workflow nach dem Explorations-Einsicht-Aktions-Paradigma strukturiert, um die Transparenz, Interpretierbarkeit und therapeutische Wirksamkeit von KI-gestützten Beratungschatbots für das digitale Wohlbefinden zu verbessern.

Fei Wang, Jiangnan Yang, Junjie Chen, Yuxin Liu, Kun Li, Yanyan Wei, Dan Guo, Meng Wang2026-03-10🤖 cs.LG

vLLM Hook v0: A Plug-in for Programming Model Internals on vLLM

Das Paper stellt vLLM Hook vor, ein Open-Source-Plug-in für vLLM, das durch passive und aktive Programmierung den Zugriff auf interne Modellzustände ermöglicht, um Anwendungen wie die Erkennung von Prompt-Injection, die Verbesserung von RAG und das Aktivitäts-Steering zu unterstützen.

Ching-Yun Ko, Pin-Yu Chen2026-03-10🤖 cs.LG

Isotonic Layer: A Universal Framework for Generic Recommendation Debiasing

Die vorgestellte Arbeit führt die „Isotonic Layer" ein, ein neuartiges, differenzierbares Framework, das durch die Integration stückweiser linearer Anpassungen und lernbarer Embeddings eine universelle, kontextsensitive Entzerrung und Kalibrierung von Empfehlungssystemen ermöglicht und damit systematische Verzerrungen effektiv reduziert.

Hailing Cheng, Yafang Yang, Hemeng Tao, Fengyu Zhang2026-03-10🤖 cs.LG

How Attention Sinks Emerge in Large Language Models: An Interpretability Perspective

Diese Arbeit identifiziert den „P0 Sink Circuit" als einen semantikunabhängigen Mechanismus in den ersten beiden Transformer-Blöcken, der die Entstehung von Attention Sinks am ersten Eingabetoken erklärt und als Indikator für den Konvergenzstatus während des Pretrainings dienen kann.

Runyu Peng, Ruixiao Li, Mingshu Chen, Yunhua Zhou, Qipeng Guo, Xipeng Qiu2026-03-10🤖 cs.LG

Hierarchical Latent Structures in Data Generation Process Unify Mechanistic Phenomena across Scale

Diese Arbeit zeigt, dass hierarchische Strukturen im Datengenerierungsprozess, modelliert durch probabilistische kontextfreie Grammatiken, als entscheidender Faktor die Entstehung scheinbar unabhängiger mechanistischer Phänomene in Sprachmodellen einheitlich erklären.

Jonas Rohweder, Subhabrata Dutta, Iryna Gurevych2026-03-10🤖 cs.LG

Hierarchical Embedding Fusion for Retrieval-Augmented Code Generation

Die vorgestellte Arbeit führt Hierarchical Embedding Fusion (HEF) ein, eine zweistufige Methode zur komprimierten Repräsentation von Code-Repositories, die durch den Ersatz tausender Suchergebnisse durch feste Pseudo-Token die Latenz bei der retrievalgestützten Codegenerierung drastisch senkt, ohne dabei die Genauigkeit zu beeinträchtigen.

Nikita Sorokin, Ivan Sedykh, Valentin Malykh2026-03-10🤖 cs.LG

FuzzingRL: Reinforcement Fuzz-Testing for Revealing VLM Failures

Der Paper stellt „FuzzingRL" vor, eine Methode, die Fuzz-Testing mit verstärkendem Fein-Tuning kombiniert, um automatisch adversarische Fragen zu generieren, die gezielt Schwachstellen in Vision-Language-Modellen aufdecken und deren Antwortgenauigkeit signifikant senken.

Jiajun Xu, Jiageng Mao, Ang Qi, Weiduo Yuan, Alexander Romanus, Helen Xia, Vitor Campagnolo Guizilini, Yue Wang2026-03-10🤖 cs.LG

Switchable Activation Networks

Die Arbeit stellt SWAN (Switchable Activation Networks) vor, ein Framework, das durch deterministische, eingangsabhängige binäre Gatter in jedem neuronalen Unit eine adaptive Aktivierung ermöglicht, um die Rechenkosten dynamisch zu reduzieren und gleichzeitig die Genauigkeit zu erhalten, ohne die Modelle nachträglich statisch zu beschneiden.

Laha Ale, Ning Zhang, Scott A. King, Pingzhi Fan2026-03-10🤖 cs.LG

Khatri-Rao Clustering for Data Summarization

Die vorgestellte Arbeit führt das Khatri-Rao-Clustering-Paradigma ein, das durch die Zerlegung von Centroiden in interagierende Protocentroid-Sets sowohl den k-Means- als auch den Deep-Clustering-Ansatz verbessert, um prägnantere und dennoch genauere Datensummen zu erzeugen.

Martino Ciaperoni, Collin Leiber, Aristides Gionis, Heikki Mannila2026-03-10🤖 cs.LG

Scale Dependent Data Duplication

Die Studie zeigt, dass semantische Daten-Duplikate mit zunehmender Modellgröße und Korpusumfang zu stärkeren Gradienten-Übereinstimmungen und schnelleren semantischen Kollisionen führen, was die Leistung größerer Modelle beeinträchtigt und eine Anpassung der Skalierungsgesetze für präzisere Vorhersagen erfordert.

Joshua Kazdan, Noam Levi, Rylan Schaeffer, Jessica Chudnovsky, Abhay Puri, Bo He, Mehmet Donmez, Sanmi Koyejo, David Donoho2026-03-10🤖 cs.LG

Know When You're Wrong: Aligning Confidence with Correctness for LLM Error Detection

Diese Arbeit stellt einen normalisierten Konfidenzscore vor, der Fehler in Large Language Models zuverlässig erkennt, zeigt, dass Reinforcement-Learning-Methoden zu übermäßigem Selbstvertrauen führen, und schlägt eine Nachschulung mit Selbst-Distillation vor, um die Kalibrierung wiederherzustellen und die Effizienz von Retrieval-Augmented Generation zu steigern.

Xie Xiaohu, Liu Xiaohu, Yao Benjamin2026-03-10🤖 cs.LG

Structure-Aware Set Transformers: Temporal and Variable-Type Attention Biases for Asynchronous Clinical Time Series

Die Arbeit stellt STAR-Set vor, einen strukturbewussten Set-Transformer, der durch parametereffiziente, weiche Aufmerksamkeitsverzerrungen für zeitliche Lokalität und Variablentyp-Kompatibilität die Lücken bei der Verarbeitung asynchroner klinischer Zeitreihen schließt und auf drei ICU-Vorhersageaufgaben die Leistung bestehender Gitter- und Set-basierter Basismodelle übertrifft.

Joohyung Lee, Kwanhyung Lee, Changhun Kim, Eunho Yang2026-03-10🤖 cs.LG

LegoNet: Memory Footprint Reduction Through Block Weight Clustering

Der Artikel stellt LegoNet vor, eine komprimierungstechnische Methode, die durch das Clustern von Gewichtsblöcken statt einzelner Werte das Speicherprofil von neuronalen Netzen wie ResNet-50 um den Faktor 64 ohne Genauigkeitsverlust und ohne Nachtraining reduziert.

Joseph Bingham, Noah Green, Saman Zonouz2026-03-10🤖 cs.LG

Multi-Agent DRL for V2X Resource Allocation: Disentangling Challenges and Benchmarking Solutions

Diese Arbeit entwirft eine systematische Benchmark-Suite, die Multi-Agenten-DRL-Herausforderungen in C-V2X-Ressourcenallokation isoliert und zeigt, dass Robustheit und Generalisierung gegenüber veränderlichen Verkehrstopologien die dominierenden Hürden darstellen, wobei actor-critic-Methoden die besten Ergebnisse erzielen.

Siyuan Wang, Lei Lei, Pranav Maheshwari, Sam Bellefeuille, Kan Zheng, Dusit Niyato2026-03-10🤖 cs.LG

← Zurück Weiter →

cs.LG