Robust Post-Training for Generative Recommenders: Why Exponential Reward-Weighted SFT Outperforms RLHF

Deze paper introduceert en bewijst dat exponentiële reward-gewogen SFT een robuustere en schaalbaarder post-training methode is voor generatieve aanbevelingssystemen dan RLHF, omdat deze direct op waargenomen beloningen werkt zonder reward-modellen of propensity scores, terwijl de temperatuurparameter de afweging tussen robuustheid en verbetering theoretisch en empirisch regelt.

Keertana Chidambaram, Sanath Kumar Krishnamurthy, Qiuling Xu, Ko-Jen Hsiao, Moumita Bhattacharya2026-03-12🤖 cs.LG

Data-Driven Integration Kernels for Interpretable Nonlocal Operator Learning

Dit paper introduceert data-gedreven integratiekernels als een interpreteerbaar raamwerk dat niet-lokale operatorlearning voor klimaatprocessen structureert door niet-lineaire interacties te beperken tot geïntegreerde kenmerken, wat leidt tot modellen met minder parameters en betere interpretatie zonder in te leveren op voorspellingskwaliteit.

Savannah L. Ferretti, Jerry Lin, Sara Shamekh, Jane W. Baldwin, Michael S. Pritchard, Tom Beucler2026-03-12🤖 cs.LG

HEAL: Hindsight Entropy-Assisted Learning for Reasoning Distillation

Dit paper introduceert HEAL, een RL-vrij raamwerk dat het 'lerend vermogen' van kleinere modellen verbetert door middel van een curriculum dat gebaseerd is op de Zone van de Naaste Ontwikkeling en gebruikmaakt van entropy-gestuurde herstelmechanismen om de beperkingen van traditionele distillatie te overwinnen.

Wenjing Zhang, Jiangze Yan, Jieyun Huang, Yi Shen, Shuming Shi, Ping Chen, Ning Wang, Zhaoxiang Liu, Kai Wang, Shiguo Lian2026-03-12🤖 cs.AI

Causal Concept Graphs in LLM Latent Space for Stepwise Reasoning

Dit artikel introduceert Causal Concept Graphs, een methode die sparse autoencoders en differentieerbare structuurlerning combineert om causale relaties tussen concepten in de latent ruimte van taalmodellen te visualiseren en te manipuleren voor verbeterde stapsgewijze redenering, wat resulteert in een significant hogere Causal Fidelity Score dan bestaande technieken.

Md Muntaqim Meherab, Noor Islam S. Mohammad, Faiza Feroz2026-03-12🤖 cs.LG