cs.LG Arbeiten | Gist.Science

Online Minimization of Polarization and Disagreement via Low-Rank Matrix Bandits

Diese Arbeit stellt einen neuartigen zweistufigen Algorithmus auf Basis von Low-Rank-Matrix-Bandits vor, der in einem Online-Setting mit unbekannten Meinungen die Polarisation und Uneinigkeit im Friedkin-Johnsen-Modell durch subspace-basierte Schätzung und lineare Bandit-Optimierung minimiert.

Federico Cinus, Yuko Kuroki, Atsushi Miyauchi, Francesco Bonchi2026-03-09🤖 cs.LG

Self-Speculative Masked Diffusions

Die vorgestellte Arbeit führt „Self-Speculative Masked Diffusions" ein, eine neue Klasse diskreter generativer Modelle, die durch einen kausalen Aufmerksamkeitsmechanismus und integrierte spekulative Stichproben die Anzahl der erforderlichen Vorwärtsdurchläufe im Vergleich zu herkömmlichen Masked-Diffusion-Modellen um etwa die Hälfte reduziert, ohne dabei die Probenqualität zu beeinträchtigen.

Andrew Campbell, Valentin De Bortoli, Jiaxin Shi, Arnaud Doucet2026-03-09🤖 cs.LG

TCR-EML: Explainable Model Layers for TCR-pMHC Prediction

Die Studie stellt TCR-EML vor, einen neuartigen Ansatz, der erklärbare Modellschichten in Protein-Sprachmodelle integriert, um die Vorhersage von TCR-pMHC-Bindungen sowohl präzise als auch biologisch nachvollziehbar zu machen.

Jiarui Li, Zixiang Yin, Zhengming Ding, Samuel J. Landry, Ramgopal R. Mettu2026-03-09🤖 cs.LG

Decoding Partial Differential Equations: Cross-Modal Adaptation of Decoder-only Models to PDEs

Diese Studie zeigt, dass Decoder-only-Modelle bei der Anpassung an partielle Differentialgleichungen ohne Modifikation deutlich schlechter abschneiden als Encoder-only-Modelle, und stellt zwei neue Methoden (Parallel Flipping und Sequence Doubling) vor, die durch Nachahmung der Bidirektionalität diese Leistungslücke schließen.

Paloma García-de-Herreros, Philipp Slusallek, Dietrich Klakow, Vagrant Gautam2026-03-09🤖 cs.LG

How Reliable is Language Model Micro-Benchmarking?

Die Studie stellt fest, dass Mikro-Benchmarks für Sprachmodelle oft nicht zuverlässig genug sind, um Modelle mit ähnlicher Leistung korrekt zu rangieren, und zeigt auf, dass für konsistente Ergebnisse häufig so viele Testbeispiele benötigt werden, dass eine zufällige Stichprobe ebenso effektiv ist wie bestehende Mikro-Benchmarking-Methoden.

Gregory Yauney, Shahzaib Saqib Warraich, Swabha Swayamdipta2026-03-09🤖 cs.LG

CanvasMAR: Improving Masked Autoregressive Video Prediction With Canvas

Das Paper stellt CanvasMAR vor, ein neuartiges autoregressives Videovorhersagemodell, das durch die Einführung eines globalen „Canvas"-Vorschlags und einer bewegungsbewussten Lernkurve hochqualitative Videos mit weniger Sampling-Schritten erzeugt und dabei diffusionbasierte Methoden auf Benchmarks wie Kinetics-600 konkurrenzfähig ist.

Zian Li, Muhan Zhang2026-03-09🤖 cs.AI

Escaping Model Collapse via Synthetic Data Verification: Near-term Improvements and Long-term Convergence

Diese Arbeit zeigt, dass die Einführung eines externen Verifizierers für synthetische Daten das Phänomen des „Model Collapse" verhindert und kurzfristige Verbesserungen ermöglicht, wobei die langfristigen Parameter jedoch auf das „Wissenszentrum" des Verifizierers konvergieren.

Bingji Yi, Qiyuan Liu, Yuwei Cheng, Haifeng Xu2026-03-09🤖 cs.LG

Mixed Monotonicity Reachability Analysis of Neural ODE: A Trade-Off Between Tightness and Efficiency

Die vorgestellte Arbeit entwickelt eine effiziente, intervallbasierte Erreichbarkeitsanalyse für neuronale ODEs mittels gemischter Monotonie, die durch den gezielten Kompromiss zwischen Genauigkeit und Rechenleistung besonders für hochdimensionale, sicherheitskritische Echtzeitanwendungen geeignet ist.

Abdelrahman Sayed Sayed, Pierre-Jean Meyer, Mohamed Ghazel2026-03-09🤖 cs.LG

Real-Time Learning of Predictive Dynamic Obstacle Models for Robotic Motion Planning

Diese Arbeit stellt einen Echtzeit-Rahmen vor, der mithilfe einer modifizierten Hankel-DMD mit gleitendem Fenster verrauschte, partielle Messdaten dynamischer Hindernisse denoist und für die robotische Bewegungsplanung vorhersagt.

Stella Kombo, Masih Haseli, Skylar X. Wei, Joel W. Burdick2026-03-09🤖 cs.LG

KLASS: KL-Guided Fast Inference in Masked Diffusion Models

Die Arbeit stellt KLASS vor, eine effiziente Sampling-Methode für Masked Diffusion Models, die durch die adaptive Freigabe mehrerer Token basierend auf der Token-Level-KL-Divergenz die Inferenzgeschwindigkeit erheblich steigert und gleichzeitig die Generierungsqualität verbessert.

Seo Hyun Kim, Sunwoo Hong, Hojung Jung, Youngrok Park, Se-Young Yun2026-03-09🤖 cs.LG

CADM: Cluster-customized Adaptive Distance Metric for Categorical Data Clustering

Der vorgestellte CADM-Algorithmus verbessert das Clustering kategorialer und gemischter Daten durch eine cluster-spezifische, adaptive Distanzmetrik, die die unterschiedlichen Attributverteilungen innerhalb der Cluster berücksichtigt und in Experimenten auf fourteen Datensätzen die beste Leistung erzielt.

Taixi Chen, Yiu-ming Cheung, Yiqun Zhang2026-03-09🤖 cs.LG

FireScope: Wildfire Risk Prediction with a Chain-of-Thought Oracle

Die Arbeit stellt FireScope vor, ein auf Vision-Language-Modellen basierendes Framework mit Chain-of-Thought-Orakel, das durch die Integration von Sentinel-2-Bildern, Klimadaten und Expertenwissen sowie durch das Lernen aus Verstärkungslernen und visueller Überwachung präzise und interpretierbare Waldbrandrisikokarten erstellt, die eine robuste Generalisierung über Kontinente hinweg ermöglichen.

Mario Markov (INSAIT, Sofia University "St. Kliment Ohridski"), Stefan Maria Ailuro (INSAIT, Sofia University "St. Kliment Ohridski"), Luc Van Gool (INSAIT, Sofia University "St. Kliment Ohridski"), Konrad Schindler (ETH Zurich), Danda Pani Paudel (INSAIT, Sofia University "St. Kliment Ohridski")2026-03-09🤖 cs.LG

EgoCogNav: Cognition-aware Human Egocentric Navigation

Das Paper stellt EgoCogNav, ein multimodales Framework zur Vorhersage von menschlicher Egocentric-Navigation durch die Integration kognitiver Unsicherheitsfaktoren, und führt dazu den neuen CEN-Datensatz mit realen Aufnahmen ein.

Zhiwen Qiu, Ziang Liu, Wenqian Niu, Tapomayukh Bhattacharjee, Saleh Kalantari2026-03-09🤖 cs.LG

SPINE: Token-Selective Test-Time Reinforcement Learning with Entropy-Band Regularization

Das Paper stellt SPINE vor, ein testzeitbasiertes Reinforcement-Learning-Verfahren für große Sprachmodelle, das durch token-selektive Updates an entscheidenden Verzweigungspunkten und eine Entropie-Band-Regularisierung den Zusammenfall von Antworten verhindert und die Genauigkeit bei Chain-of-Thought-Reasoning ohne externe Labels verbessert.

Jianghao Wu, Yasmeen George, Jin Ye, Yicheng Wu, Daniel F. Schmidt, Jianfei Cai2026-03-09🤖 cs.LG

DAISI: Data Assimilation with Inverse Sampling using Stochastic Interpolants

Das Paper stellt DAISI vor, einen skalierbaren Filteralgorithmus auf Basis von stochastischen Interpolanten und generativen Modellen, der durch einen inversen Sampling-Schritt und beobachtungsgeleitete Bedingung eine präzise Datenassimilation in hochdimensionalen, nichtlinearen Systemen ermöglicht, ohne dass das generative Prior-Modell bei jedem Schritt neu trainiert werden muss.

Martin Andrae, Erik Larsson, So Takao, Tomas Landelius, Fredrik Lindsten2026-03-09🤖 cs.LG

Diffusion Fine-Tuning via Reparameterized Policy Gradient of the Soft Q-Function

Die Arbeit stellt SQDF vor, eine neuartige KL-regulierte Reinforcement-Learning-Methode zur Feinabstimmung von Diffusionsmodellen, die durch einen reparametrisierten Policy-Gradienten der Soft-Q-Funktion sowie weitere Innovationen wie einen Diskontfaktor und einen Replay-Puffer das Problem der Reward-Überoptimierung löst und gleichzeitig hohe Zielbelohnungen mit natürlicher Vielfalt in der Bildgenerierung vereint.

Hyeongyu Kang, Jaewoo Lee, Woocheol Shin, Kiyoung Om, Jinkyoo Park2026-03-09🤖 cs.AI

Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity

Die Arbeit stellt eine Methode vor, die durch die Approximation einer gefilterten Zielverteilung mittels der $\alpha$ -Divergenz-Familie die durch herkömmliches Reinforcement Learning verursachte Diversitätsverlust bei LLMs überwindet und so auf dem Lean-Theorembeweis-Benchmark einen neuen State-of-the-Art in Bezug auf die Abdeckung-Präzision-Pareto-Grenze erreicht.

Germán Kruszewski, Pierre Erbacher, Jos Rozen, Marc Dymetman2026-03-09🤖 cs.AI

A-3PO: Accelerating Asynchronous LLM Training with Staleness-aware Proximal Policy Approximation

Das Paper stellt A-3PO vor, eine Methode, die den rechenintensiven zusätzlichen Vorwärtsdurchlauf bei der Decoupled PPO durch eine einfache Interpolation zur Approximation der proximalen Policy ersetzt, wodurch das asynchrone Training von Large Language Models um den Faktor 1,8 beschleunigt wird, ohne die Leistung einzubüßen.

Xiaocan Li, Shiliang Wu, Zheng Shen2026-03-09🤖 cs.AI

DFIR-DETR: Frequency-Domain Iterative Refinement and Dynamic Feature Aggregation for Small Object Detection

Der Artikel stellt DFIR-DETR vor, einen Transformer-basierten Detektor, der durch dynamische Inhalts-Feature-Aggregation, eine normerhaltende Feature-Pyramide und eine frequenzdomänenbasierte iterative Verfeinerung die Erkennung kleiner Objekte in komplexen Szenen verbessert.

Bo Gao, Jingcheng Tong, Xingsheng Chen, Han Yu, Zichen Li2026-03-09🤖 cs.LG

Two-dimensional RMSD projections for reaction path visualization and validation

Die Autoren stellen eine Methode vor, die Reaktionspfade durch zweidimensionale, permutationskorrigierte RMSD-Projektionen und eine energiebasierende Gauß-Prozess-Visualisierung darstellt, um strukturelle Umordnungen besser zu analysieren und Optimierungshistorien verschiedener computergestützter Chemie-Methoden unabhängig von der Reaktionsgeschichte vergleichbar zu machen.

Rohit Goswami2026-03-09🔬 cond-mat.mtrl-sci

← Zurück Weiter →