cs.LG Arbeiten | Gist.Science

Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

Diese Arbeit analysiert theoretisch die Vor- und Nachteile von Reinforcement Learning für die Planung in Sprachmodellen und zeigt, dass Exploration entscheidend für die Generalisierung ist, während Policy Gradient zu einem Diversitätsverlust führt, wohingegen Q-Learning durch Off-Policy-Lernen und Diversitätserhaltung Vorteile bietet, sofern die Belohnungsfunktion sorgfältig gestaltet wird.

Siwei Wang, Yifei Shen, Haoran Sun + 5 more2026-03-04📊 stat

Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization

Diese Arbeit schließt die Lücke zwischen Versprechen und Leistung bei der FP4-Quantisierung, indem sie den neu entwickelten MR-GPTQ-Algorithmus mit spezialisierten GPU-Kernen einführt, der durch Block-Hadamard-Transformationen und formatoptimierte Techniken auf NVIDIA-B200- und RTX5090-Hardware eine bis zu 4-fache End-to-End-Beschleunigung bei gleichzeitiger Erhaltung oder Steigerung der Genauigkeit ermöglicht.

Vage Egiazarian, Roberto L. Castro, Denis Kuznedelev + 8 more2026-03-04🤖 cs.LG

CREPE: Controlling Diffusion with Replica Exchange

Die Arbeit stellt CREPE vor, eine flexible Methode zur Steuerung von Diffusionsmodellen während der Inferenz durch Replica Exchange, die im Vergleich zu bisherigen Sequential-Monte-Carlo-Ansätzen sequenzielle Partikelgenerierung, hohe Probenvielfalt und die Möglichkeit zur Online-Verfeinerung bietet.

Jiajun He, Paul Jeha, Peter Potaptchik + 5 more2026-03-04🤖 cs.LG

Entering the Era of Discrete Diffusion Models: A Benchmark for Schrödinger Bridges and Entropic Optimal Transport

Diese Arbeit stellt das erste Benchmark für die Bewertung von Schrödinger-Brücken auf diskreten Räumen vor, indem sie analytisch lösbare Verteilungspaare bereitstellt, und leitet daraus neue Algorithmen sowie eine umfassende Evaluierung bestehender und neu entwickelter Solver in hochdimensionalen diskreten Settings ab.

Xavier Aramayo Carrasco, Grigoriy Ksenofontov, Aleksei Leonov + 2 more2026-03-04🤖 cs.LG

Fine-Tuning Diffusion Models via Intermediate Distribution Shaping

Die Arbeit stellt einen neuen Ansatz vor, der Diffusionsmodelle durch gezielte Formung der Verteilung auf Zwischen-Rauschstufen (P-GRAFT) und eine inverse Rauschkorrektur effizienter feinabstimmt und dabei sowohl die Leistung bei Text-zu-Bild-Generierung als auch die Bildqualität bei unbedingter Generierung verbessert.

Gautham Govind Anil, Shaan Ul Haque, Nithish Kannen + 3 more2026-03-04🤖 cs.AI

Lightweight Transformer for EEG Classification via Balanced Signed Graph Algorithm Unrolling

Die vorgestellte Arbeit entwickelt einen leichten und interpretierbaren Transformer-ähnlichen Klassifikator für EEG-Signale, der durch das Entfalten eines spektralen Denoising-Algorithmus auf balancierten Vorzeichen-Graphen Epilepsiepatienten von gesunden Probanden mit vergleichbarer Genauigkeit wie tiefe neuronale Netze, jedoch bei deutlich geringerem Parametervolumen, unterscheidet.

Junyi Yao, Parham Eftekhar, Gene Cheung + 3 more2026-03-04🤖 cs.LG

AdaBet: Gradient-free Layer Selection for Efficient Training of Deep Neural Networks

Das Paper stellt AdaBet vor, eine gradientenfreie Methode zur effizienten Auswahl wichtiger Schichten für das On-Device-Training tiefer neuronaler Netze durch Analyse topologischer Aktivierungseigenschaften mittels Betti-Zahlen, die ohne Labels oder Rückwärtspropagierung auskommt und dabei Speicherbedarf senkt sowie die Genauigkeit steigert.

Irene Tenison, Soumyajit Chatterjee, Fahim Kawsar + 1 more2026-03-04🤖 cs.LG

Cache-to-Cache: Direct Semantic Communication Between Large Language Models

Das Paper stellt Cache-to-Cache (C2C) vor, ein neues Paradigma für die direkte semantische Kommunikation zwischen großen Sprachmodellen über deren KV-Caches, das im Vergleich zur herkömmlichen Textkommunikation sowohl die Genauigkeit als auch die Latenz signifikant verbessert.

Tianyu Fu, Zihan Min, Hanling Zhang + 4 more2026-03-04💬 cs.CL

LaDiR: Latent Diffusion Enhances LLMs for Text Reasoning

Die Arbeit stellt LaDiR vor, ein neues Reasoning-Framework, das die Ausdruckskraft kontinuierlicher latenter Räume mit den iterativen Verfeinerungsfähigkeiten latenter Diffusionsmodelle kombiniert, um die Genauigkeit, Vielfalt und Interpretierbarkeit von Schlussfolgerungen in großen Sprachmodellen über die Grenzen der autoregressiven Generierung hinaus zu verbessern.

Haoqiang Kang, Yizhe Zhang, Nikki Lijing Kuang + 4 more2026-03-04💬 cs.CL

Post-hoc Stochastic Concept Bottleneck Models

Dieses Paper stellt Post-hoc Stochastic Concept Bottleneck Models (PSCBMs) vor, eine effiziente Methode, die vortrainierte CBMs durch das Hinzufügen eines kleinen Kovarianz-Vorhersagemoduls erweitert, um ohne Nachtraining des Hauptmodells sowohl die Genauigkeit als auch die Robustheit gegenüber Interventionen durch die Modellierung von Konzeptabhängigkeiten zu verbessern.

Wiktor Jan Hoffmann, Sonia Laguna, Moritz Vandenhirtz + 2 more2026-03-04🤖 cs.LG

Characterizing the Multiclass Learnability of Forgiving 0-1 Loss Functions

Diese Arbeit charakterisiert die Multiklassen-Lernbarkeit von vergebenden 0-1-Verlustfunktionen durch die Einführung einer neuen kombinatorischen Dimension, der verallgemeinerten Natarajan-Dimension, deren Endlichkeit eine notwendige und hinreichende Bedingung für die Lernbarkeit darstellt und zudem andere Lernsettings wie Set-valued Feedback und modifiziertes Listenlernen umfasst.

Jacob Trauger, Tyson Trauger, Ambuj Tewari2026-03-04📊 stat

Mitigating Over-Refusal in Aligned Large Language Models via Inference-Time Activation Energy

Die Arbeit stellt Energy Landscape Steering (ELS) vor, ein nachschulungsfreies Framework, das durch inferencezeitbasierte Steuerung der Aktivierungsenergie mittels eines externen Energy-Based-Models die Überverweigerung in abgestimmten Sprachmodellen effektiv reduziert, ohne die Sicherheit zu beeinträchtigen.

Eric Hanchen Jiang, Weixuan Ou, Run Liu + 8 more2026-03-04📊 stat

Physically Valid Biomolecular Interaction Modeling with Gauss-Seidel Projection

Die vorgestellte Arbeit führt einen differentierbaren Gauss-Seidel-Projektionsmodul ein, der während des Trainings und der Inferenz physikalische Gültigkeit erzwingt und dadurch ein 2-Schritt-Diffusionsmodell ermöglicht, das in Bezug auf strukturelle Genauigkeit mit 200-Schritt-Baselines gleichzieht, dabei jedoch zehnmal schneller ist und sterische Kollisionen garantiert vermeidet.

Siyuan Chen, Minghao Guo, Caoliwen Wang + 6 more2026-03-04🧬 q-bio

Efficient Resource-Constrained Training of Transformers via Subspace Optimization

Die vorgestellte Arbeit führt die Weight-Activation Subspace Iteration (WASI) ein, eine Methode, die durch das Training von Transformer-Modellen in einem festgelegten Unterraum den Speicherbedarf um das 62-fache und die Rechenkosten um das 2-fache reduziert, wodurch effizientes On-Device-Learning auf ressourcenbeschränkten Geräten wie dem Raspberry Pi 5 ermöglicht wird.

Le-Trung Nguyen, Enzo Tartaglione, Van-Tam Nguyen2026-03-04🤖 cs.LG

Auditing Information Disclosure During LLM-Scale Gradient Descent Using Gradient Uniqueness

Diese Arbeit stellt Gradient Uniqueness (GNQ) vor, eine effiziente Metrik zur quantitativen Bewertung des Datenschutzrisikos bei der Veröffentlichung von LLMs, die durch den neu entwickelten Batch-Space Ghost GNQ-Algorithmus eine praktikable, datenpunktgenaue Analyse der Informationslecks während des Trainings ermöglicht.

Sleem Abdelghafar, Maryam Aliakbarpour, Chris Jermaine2026-03-04📊 stat

Quantum Kernel Methods: Convergence Theory, Separation Bounds and Applications to Marketing Analytics

Diese Arbeit untersucht die Machbarkeit von Quanten-Kernel-Methoden für eine reale Verbraucher-Klassifizierungsaufgabe im NISQ-Regime und stellt einen hybriden Q-SVM-Ansatz vor, der trotz Hardware-Rauschen eine hohe Sensitivität und wettbewerbsfähige Leistung gegenüber klassischen SVMs zeigt.

Laura Sáez-Ortuño, Santiago Forgas-Coll, Massimiliano Ferrara2026-03-04⚛️ quant-ph

Secure Sparse Matrix Multiplications and their Applications to Privacy-Preserving Machine Learning

Diese Arbeit stellt optimierte MPC-Algorithmen für die Multiplikation von geheimgeteilten dünnbesetzten Matrizen vor, die Speicher- und Kommunikationskosten im Vergleich zu dichten Verfahren drastisch senken und so datenschutzkonformes maschinelles Lernen für Anwendungen mit hochdimensionalen dünnbesetzten Daten wie Empfehlungssystemen oder Genomik ermöglichen.

Marc Damie, Florian Hahn, Andreas Peter + 1 more2026-03-04🤖 cs.LG

Policy Transfer for Continuous-Time Reinforcement Learning: A (Rough) Differential Equation Approach

Diese Arbeit liefert den ersten theoretischen Beweis für Policy Transfer im kontinuierlichen Reinforcement Learning, indem sie die Stabilität von Riccati-Gleichungen und der Rough-Path-Theorie nutzt, um zu zeigen, dass eine optimale Policy für ein Problem als Startpunkt für ein ähnliches Problem dienen kann, ohne die Konvergenzrate zu verschlechtern.

Xin Guo, Zijiu Lyu2026-03-04🤖 cs.LG

Boosted Trees on a Diet: Compact Models for Resource-Constrained Devices

Die Arbeit stellt ein Komprimierungsschema für Boosted Decision Trees vor, das durch optimiertes Training und Speicherlayout Modelle mit einem 4- bis 16-fach reduzierten Speicherbedarf erzeugt, um Machine Learning auf ressourcenbeschränkten IoT-Geräten effizient einzusetzen.

Nina Herrmann, Jan Stenkamp, Benjamin Karic + 2 more2026-03-04🤖 cs.LG

Adversarial Spatio-Temporal Attention Networks for Epileptic Seizure Forecasting

Die vorgestellte Arbeit stellt STAN, ein adversarielles räumlich-zeitliches Aufmerksamkeitsnetzwerk, vor, das durch die gemeinsame Modellierung von Hirnkonnektivität und neuronaler Dynamik eine präzise, subjektindividuelle Epilepsie-Anfallsvorhersage mit hoher Sensitivität und niedriger Fehlalarmrate ermöglicht.

Zan Li, Kyongmin Yeo, Wesley Gifford + 3 more2026-03-04🤖 cs.AI

← Zurück Weiter →