Self-Speculative Masked Diffusions

Die vorgestellte Arbeit führt „Self-Speculative Masked Diffusions" ein, eine neue Klasse diskreter generativer Modelle, die durch einen kausalen Aufmerksamkeitsmechanismus und integrierte spekulative Stichproben die Anzahl der erforderlichen Vorwärtsdurchläufe im Vergleich zu herkömmlichen Masked-Diffusion-Modellen um etwa die Hälfte reduziert, ohne dabei die Probenqualität zu beeinträchtigen.

Andrew Campbell, Valentin De Bortoli, Jiaxin Shi, Arnaud Doucet2026-03-09🤖 cs.LG

Decoding Partial Differential Equations: Cross-Modal Adaptation of Decoder-only Models to PDEs

Diese Studie zeigt, dass Decoder-only-Modelle bei der Anpassung an partielle Differentialgleichungen ohne Modifikation deutlich schlechter abschneiden als Encoder-only-Modelle, und stellt zwei neue Methoden (Parallel Flipping und Sequence Doubling) vor, die durch Nachahmung der Bidirektionalität diese Leistungslücke schließen.

Paloma García-de-Herreros, Philipp Slusallek, Dietrich Klakow, Vagrant Gautam2026-03-09🤖 cs.LG

FireScope: Wildfire Risk Prediction with a Chain-of-Thought Oracle

Die Arbeit stellt FireScope vor, ein auf Vision-Language-Modellen basierendes Framework mit Chain-of-Thought-Orakel, das durch die Integration von Sentinel-2-Bildern, Klimadaten und Expertenwissen sowie durch das Lernen aus Verstärkungslernen und visueller Überwachung präzise und interpretierbare Waldbrandrisikokarten erstellt, die eine robuste Generalisierung über Kontinente hinweg ermöglichen.

Mario Markov (INSAIT, Sofia University "St. Kliment Ohridski"), Stefan Maria Ailuro (INSAIT, Sofia University "St. Kliment Ohridski"), Luc Van Gool (INSAIT, Sofia University "St. Kliment Ohridski"), Konrad Schindler (ETH Zurich), Danda Pani Paudel (INSAIT, Sofia University "St. Kliment Ohridski")2026-03-09🤖 cs.LG

SPINE: Token-Selective Test-Time Reinforcement Learning with Entropy-Band Regularization

Das Paper stellt SPINE vor, ein testzeitbasiertes Reinforcement-Learning-Verfahren für große Sprachmodelle, das durch token-selektive Updates an entscheidenden Verzweigungspunkten und eine Entropie-Band-Regularisierung den Zusammenfall von Antworten verhindert und die Genauigkeit bei Chain-of-Thought-Reasoning ohne externe Labels verbessert.

Jianghao Wu, Yasmeen George, Jin Ye, Yicheng Wu, Daniel F. Schmidt, Jianfei Cai2026-03-09🤖 cs.LG

DAISI: Data Assimilation with Inverse Sampling using Stochastic Interpolants

Das Paper stellt DAISI vor, einen skalierbaren Filteralgorithmus auf Basis von stochastischen Interpolanten und generativen Modellen, der durch einen inversen Sampling-Schritt und beobachtungsgeleitete Bedingung eine präzise Datenassimilation in hochdimensionalen, nichtlinearen Systemen ermöglicht, ohne dass das generative Prior-Modell bei jedem Schritt neu trainiert werden muss.

Martin Andrae, Erik Larsson, So Takao, Tomas Landelius, Fredrik Lindsten2026-03-09🤖 cs.LG

Diffusion Fine-Tuning via Reparameterized Policy Gradient of the Soft Q-Function

Die Arbeit stellt SQDF vor, eine neuartige KL-regulierte Reinforcement-Learning-Methode zur Feinabstimmung von Diffusionsmodellen, die durch einen reparametrisierten Policy-Gradienten der Soft-Q-Funktion sowie weitere Innovationen wie einen Diskontfaktor und einen Replay-Puffer das Problem der Reward-Überoptimierung löst und gleichzeitig hohe Zielbelohnungen mit natürlicher Vielfalt in der Bildgenerierung vereint.

Hyeongyu Kang, Jaewoo Lee, Woocheol Shin, Kiyoung Om, Jinkyoo Park2026-03-09🤖 cs.AI

Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity

Die Arbeit stellt eine Methode vor, die durch die Approximation einer gefilterten Zielverteilung mittels der α\alpha-Divergenz-Familie die durch herkömmliches Reinforcement Learning verursachte Diversitätsverlust bei LLMs überwindet und so auf dem Lean-Theorembeweis-Benchmark einen neuen State-of-the-Art in Bezug auf die Abdeckung-Präzision-Pareto-Grenze erreicht.

Germán Kruszewski, Pierre Erbacher, Jos Rozen, Marc Dymetman2026-03-09🤖 cs.AI

Two-dimensional RMSD projections for reaction path visualization and validation

Die Autoren stellen eine Methode vor, die Reaktionspfade durch zweidimensionale, permutationskorrigierte RMSD-Projektionen und eine energiebasierende Gauß-Prozess-Visualisierung darstellt, um strukturelle Umordnungen besser zu analysieren und Optimierungshistorien verschiedener computergestützter Chemie-Methoden unabhängig von der Reaktionsgeschichte vergleichbar zu machen.

Rohit Goswami2026-03-09🔬 cond-mat.mtrl-sci