cs.LG papers | Gist.Science

Planner Aware Path Learning in Diffusion Language Models Training

Deze paper introduceert Planner Aware Path Learning (PAPL), een nieuwe trainingsmethode voor diffusie-taalmodellen die de discrepantie tussen training en planning-gebaseerde inferentie oplost door een aangepaste P-ELBO te gebruiken, wat leidt tot aanzienlijke prestatieverbeteringen in domeinen zoals eiwitsequenties, tekstgeneratie en code.

Fred Zhangzhi Peng, Zachary Bezemek, Jarrid Rector-Brooks, Shuibai Zhang, Anru R. Zhang, Michael Bronstein, Alexander Tong, Avishek Joey Bose2026-03-09🤖 cs.LG

Diffusion Alignment as Variational Expectation-Maximization

Dit paper introduceert DAV, een raamwerk dat diffusiemodels optimaliseert voor downstream-doelen door het aligneren als een variational expectation-maximatie-proces te formuleren, waardoor zowel beloning als diversiteit behouden blijven zonder last te hebben van over-optimalisatie of mode-collapse.

Jaewoo Lee, Minsu Kim, Sanghyeok Choi, Inhyuck Song, Sujin Yun, Hyeongyu Kang, Woocheol Shin, Taeyoung Yun, Kiyoung Om, Jinkyoo Park2026-03-09🤖 cs.LG

Online Minimization of Polarization and Disagreement via Low-Rank Matrix Bandits

Dit paper introduceert een online leer-algoritme op basis van laag-rang matrixbandits dat polarisatie en onenigheid in het Friedkin-Johnsen opiniedynamica-model minimaliseert door de onbekende inheemse meningen van agenten sequentieel te leren en te interveniëren met slechts schaarse feedback.

Federico Cinus, Yuko Kuroki, Atsushi Miyauchi, Francesco Bonchi2026-03-09🤖 cs.LG

Self-Speculative Masked Diffusions

Dit paper introduceert zelf-speculatieve gemaskerde diffusiemodellen die door het gebruik van causale attentie en geïntegreerde speculatieve bemonstering de benodigde forward-passes voor het genereren van discrete data met ongeveer de helft reduceren ten opzichte van standaardmethoden.

Andrew Campbell, Valentin De Bortoli, Jiaxin Shi, Arnaud Doucet2026-03-09🤖 cs.LG

TCR-EML: Explainable Model Layers for TCR-pMHC Prediction

Dit paper introduceert TCR-EML, een nieuw model dat prototype-lagen integreert in taalmodellen voor eiwitten om TCR-pMHC-binding niet alleen nauwkeurig te voorspellen, maar ook direct interpreteerbare inzichten te bieden in de onderliggende biochemische mechanismen.

Jiarui Li, Zixiang Yin, Zhengming Ding, Samuel J. Landry, Ramgopal R. Mettu2026-03-09🤖 cs.LG

Decoding Partial Differential Equations: Cross-Modal Adaptation of Decoder-only Models to PDEs

Deze studie toont aan dat decoder-only modellen, ondanks hun succes in taal, slechter presteren dan encoder-only modellen bij het oplossen van partiële differentiaalvergelijkingen, maar dat deze kloof kan worden gedicht door twee nieuwe methoden, Parallel Flipping en Sequence Doubling, die bidirectionaliteit nabootsen.

Paloma García-de-Herreros, Philipp Slusallek, Dietrich Klakow, Vagrant Gautam2026-03-09🤖 cs.LG

How Reliable is Language Model Micro-Benchmarking?

Dit onderzoek concludeert dat micro-benchmarks voor taalmodellen vaak onbetrouwbaar zijn bij het rangschikken van modellen met vergelijkbare prestaties, omdat zelfs methoden met 250 voorbeelden nauwelijks beter presteren dan willekeurige steekproeven en veel paarvergelijkingen niet behouden blijven.

Gregory Yauney, Shahzaib Saqib Warraich, Swabha Swayamdipta2026-03-09🤖 cs.LG

CanvasMAR: Improving Masked Autoregressive Video Prediction With Canvas

Het artikel introduceert CanvasMAR, een nieuw autoregressief videopredictiemodel dat gebruikmaakt van een 'canvas' als globale structuur en een bewegingsgevoelige trainingsmethode om met weinig steppes hoogwaardige en coherente video's te genereren die concurreren met geavanceerde diffusiemethoden.

Zian Li, Muhan Zhang2026-03-09🤖 cs.AI

Escaping Model Collapse via Synthetic Data Verification: Near-term Improvements and Long-term Convergence

Dit artikel toont aan dat het injecteren van informatie via een externe synthetische data-verificator modelinval kan voorkomen en zelfs omkeren, waarbij de theorie voorspelt dat dit op de korte termijn verbeteringen oplevert maar op de lange termijn de parameters naar het 'kenniscentrum' van de verificateur convergeert.

Bingji Yi, Qiyuan Liu, Yuwei Cheng, Haifeng Xu2026-03-09🤖 cs.LG

Mixed Monotonicity Reachability Analysis of Neural ODE: A Trade-Off Between Tightness and Efficiency

Dit paper introduceert een nieuwe intervalgebaseerde bereikbaarheidsmethode voor neurale differentiaalvergelijkingen die, door gebruik te maken van gemengde monotonie, een efficiënte en betrouwbare over-benadering biedt die ideaal is voor hoogdimensionale en veiligheidskritische toepassingen, ten koste van enige nauwkeurigheid.

Abdelrahman Sayed Sayed, Pierre-Jean Meyer, Mohamed Ghazel2026-03-09🤖 cs.LG

Real-Time Learning of Predictive Dynamic Obstacle Models for Robotic Motion Planning

Dit artikel presenteert een online raamwerk dat gebruikmaakt van een gewijzigde Hankel-DMD met sliding-window en Cadzow-projectie om in real-time ruwe, gedeeltelijke waarnemingen van dynamische obstakels te ontdoen van ruis en te voorspellen voor robuuste robotbewegingsplanning.

Stella Kombo, Masih Haseli, Skylar X. Wei, Joel W. Burdick2026-03-09🤖 cs.LG

KLASS: KL-Guided Fast Inference in Masked Diffusion Models

Dit paper introduceert KLASS, een trainingsvrije, snelle steekproefmethode voor gemaskerde diffusiemodellen die gebruikmaakt van token-niveau KL-divergentie om meerdere tokens tegelijk te onmaskeren, waardoor de inferentie snelheid aanzienlijk wordt verhoogd zonder in te leveren op de kwaliteit.

Seo Hyun Kim, Sunwoo Hong, Hojung Jung, Youngrok Park, Se-Young Yun2026-03-09🤖 cs.LG

CADM: Cluster-customized Adaptive Distance Metric for Categorical Data Clustering

Dit paper introduceert CADM, een cluster-gedifferentieerde adaptieve afstandsmetriek voor categorische en gemengde data die rekening houdt met cluster-specifieke verdelingen om de prestaties van clustering te verbeteren.

Taixi Chen, Yiu-ming Cheung, Yiqun Zhang2026-03-09🤖 cs.LG

FireScope: Wildfire Risk Prediction with a Chain-of-Thought Oracle

Dit paper introduceert FireScope, een VLM-gebaseerd raamwerk dat chain-of-thought redenering combineert met visuele supervisie om op Sentinel-2-beelden en klimaatdata gebaseerde, interpreteerbare en cross-continentaal generaliserende wildvuurrisicokaarten te genereren.

Mario Markov (INSAIT, Sofia University "St. Kliment Ohridski"), Stefan Maria Ailuro (INSAIT, Sofia University "St. Kliment Ohridski"), Luc Van Gool (INSAIT, Sofia University "St. Kliment Ohridski"), Konrad Schindler (ETH Zurich), Danda Pani Paudel (INSAIT, Sofia University "St. Kliment Ohridski")2026-03-09🤖 cs.LG

EgoCogNav: Cognition-aware Human Egocentric Navigation

Deze paper introduceert EgoCogNav, een multimodaal raamwerk voor egocentrische navigatie dat cognitieve factoren zoals waargenomen onzekerheid integreert om menselijk gedrag beter te voorspellen, vergezeld van een nieuw dataset genaamd CEN.

Zhiwen Qiu, Ziang Liu, Wenqian Niu, Tapomayukh Bhattacharjee, Saleh Kalantari2026-03-09🤖 cs.LG

SPINE: Token-Selective Test-Time Reinforcement Learning with Entropy-Band Regularization

Het artikel introduceert SPINE, een token-selectief test-tijd versterkingsleerframework dat alleen kritieke besluitvormingspunten in redeneringsketens aanpast met entropie-band regularisatie om instabiliteit en lengte-inzakking te voorkomen, waardoor de prestaties van grote taalmodellen zonder labels worden verbeterd.

Jianghao Wu, Yasmeen George, Jin Ye, Yicheng Wu, Daniel F. Schmidt, Jianfei Cai2026-03-09🤖 cs.LG

DAISI: Data Assimilation with Inverse Sampling using Stochastic Interpolants

In dit artikel wordt DAISI voorgesteld, een schaalbaar filteralgoritme dat stochastische interpolanten en stromingsgebaseerde generatieve modellen gebruikt om data-assimilatie in complexe, niet-lineaire systemen met spaarzame en ruwe waarnemingen effectiever te maken dan traditionele methoden.

Martin Andrae, Erik Larsson, So Takao, Tomas Landelius, Fredrik Lindsten2026-03-09🤖 cs.LG

Diffusion Fine-Tuning via Reparameterized Policy Gradient of the Soft Q-Function

Het artikel introduceert SQDF, een nieuwe methode voor het fine-tunen van diffusiemodellen die via een herparameteriseerde policy gradient van een zachte Q-functie reward-overoptimalisatie voorkomt en zo zowel hoge doelbeloningen als de diversiteit en natuurlijkheid van gegenereerde beelden behoudt.

Hyeongyu Kang, Jaewoo Lee, Woocheol Shin, Kiyoung Om, Jinkyoo Park2026-03-09🤖 cs.AI

Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity

Dit paper introduceert een methode die het α-divergentie-familie gebruikt om de precisie-diversiteitsafweging bij het trainen van taalmodellen voor redenering te beheersen, waardoor een superieure dekking wordt bereikt zonder de nauwkeurigheid te verliezen.

Germán Kruszewski, Pierre Erbacher, Jos Rozen, Marc Dymetman2026-03-09🤖 cs.AI

A-3PO: Accelerating Asynchronous LLM Training with Staleness-aware Proximal Policy Approximation

Dit paper introduceert A-3PO, een methode die de rekentijd voor asynchrone LLM-training met 1,8 keer versnelt door de extra forward pass voor het proximal beleid in Decoupled PPO te vervangen door een efficiënte interpolatie, zonder de prestaties te verlagen.

Xiaocan Li, Shiliang Wu, Zheng Shen2026-03-09🤖 cs.AI

← Vorige Volgende →