Planner Aware Path Learning in Diffusion Language Models Training

Deze paper introduceert Planner Aware Path Learning (PAPL), een nieuwe trainingsmethode voor diffusie-taalmodellen die de discrepantie tussen training en planning-gebaseerde inferentie oplost door een aangepaste P-ELBO te gebruiken, wat leidt tot aanzienlijke prestatieverbeteringen in domeinen zoals eiwitsequenties, tekstgeneratie en code.

Fred Zhangzhi Peng, Zachary Bezemek, Jarrid Rector-Brooks, Shuibai Zhang, Anru R. Zhang, Michael Bronstein, Alexander Tong, Avishek Joey Bose2026-03-09🤖 cs.LG

Diffusion Alignment as Variational Expectation-Maximization

Dit paper introduceert DAV, een raamwerk dat diffusiemodels optimaliseert voor downstream-doelen door het aligneren als een variational expectation-maximatie-proces te formuleren, waardoor zowel beloning als diversiteit behouden blijven zonder last te hebben van over-optimalisatie of mode-collapse.

Jaewoo Lee, Minsu Kim, Sanghyeok Choi, Inhyuck Song, Sujin Yun, Hyeongyu Kang, Woocheol Shin, Taeyoung Yun, Kiyoung Om, Jinkyoo Park2026-03-09🤖 cs.LG

Decoding Partial Differential Equations: Cross-Modal Adaptation of Decoder-only Models to PDEs

Deze studie toont aan dat decoder-only modellen, ondanks hun succes in taal, slechter presteren dan encoder-only modellen bij het oplossen van partiële differentiaalvergelijkingen, maar dat deze kloof kan worden gedicht door twee nieuwe methoden, Parallel Flipping en Sequence Doubling, die bidirectionaliteit nabootsen.

Paloma García-de-Herreros, Philipp Slusallek, Dietrich Klakow, Vagrant Gautam2026-03-09🤖 cs.LG

Mixed Monotonicity Reachability Analysis of Neural ODE: A Trade-Off Between Tightness and Efficiency

Dit paper introduceert een nieuwe intervalgebaseerde bereikbaarheidsmethode voor neurale differentiaalvergelijkingen die, door gebruik te maken van gemengde monotonie, een efficiënte en betrouwbare over-benadering biedt die ideaal is voor hoogdimensionale en veiligheidskritische toepassingen, ten koste van enige nauwkeurigheid.

Abdelrahman Sayed Sayed, Pierre-Jean Meyer, Mohamed Ghazel2026-03-09🤖 cs.LG

FireScope: Wildfire Risk Prediction with a Chain-of-Thought Oracle

Dit paper introduceert FireScope, een VLM-gebaseerd raamwerk dat chain-of-thought redenering combineert met visuele supervisie om op Sentinel-2-beelden en klimaatdata gebaseerde, interpreteerbare en cross-continentaal generaliserende wildvuurrisicokaarten te genereren.

Mario Markov (INSAIT, Sofia University "St. Kliment Ohridski"), Stefan Maria Ailuro (INSAIT, Sofia University "St. Kliment Ohridski"), Luc Van Gool (INSAIT, Sofia University "St. Kliment Ohridski"), Konrad Schindler (ETH Zurich), Danda Pani Paudel (INSAIT, Sofia University "St. Kliment Ohridski")2026-03-09🤖 cs.LG

SPINE: Token-Selective Test-Time Reinforcement Learning with Entropy-Band Regularization

Het artikel introduceert SPINE, een token-selectief test-tijd versterkingsleerframework dat alleen kritieke besluitvormingspunten in redeneringsketens aanpast met entropie-band regularisatie om instabiliteit en lengte-inzakking te voorkomen, waardoor de prestaties van grote taalmodellen zonder labels worden verbeterd.

Jianghao Wu, Yasmeen George, Jin Ye, Yicheng Wu, Daniel F. Schmidt, Jianfei Cai2026-03-09🤖 cs.LG