CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR

Het CLIPO-papier introduceert een contrastief leermethode binnen beleidsoptimalisatie die het RLVR-framework generaliseert door de consistentie van tussenstappen te waarborgen, waardoor hallucinaties worden onderdrukt en de robuustheid en generalisatie van redenerende grote taalmodellen aanzienlijk worden verbeterd.

Sijia Cui, Pengyu Cheng, Jiajun Song, Yongbo Gai, Guojun Zhang, Zhechao Yu, Jianhe Lin, Xiaoxi Jiang, Guanjun Jiang2026-03-12🤖 cs.LG

ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning

Dit paper introduceert ReMix, een nieuwe routeringsmethode voor Mixture-of-LoRAs die het probleem van onbalans in leerbare routingsgewichten oplost door niet-leerbare gewichten te combineren met een onbevooroordeelde gradiëntschatter op basis van reinforcement learning, wat leidt tot een aanzienlijk betere prestatie dan bestaande parameter-efficiënte finetuning-methoden.

Ruizhong Qiu, Hanqing Zeng, Yinglong Xia, Yiwen Meng, Ren Chen, Jiarui Feng, Dongqi Fu, Qifan Wang, Jiayi Liu, Jun Xiao, Xiangjun Fan, Benyu Zhang, Hong Li, Zhining Liu, Hyunsik Yoo, Zhichen Zeng, Tianxin Wei, Hanghang Tong2026-03-12🤖 cs.LG

Adaptive Activation Cancellation for Hallucination Mitigation in Large Language Models

Dit paper introduceert Adaptive Activation Cancellation (AAC), een real-time inferentieframework dat hallucinaties in grote taalmodellen effectief onderdrukt door deze te behandelen als gestructureerde interferentie, waardoor de feitelijke nauwkeurigheid op alle geteste schalen verbetert zonder enige afname in de algemene prestaties of vloeiendheid.

Eric Yocam, Varghese Vaidyan, Gurcan Comert, Paris Kalathas, Yong Wang, Judith L. Mwakalonge2026-03-12💬 cs.CL

Sabiá-4 Technical Report

Dit technische rapport introduceert Sabi'a-4 en Sabiazinho-4, een nieuwe generatie taalmodellen die specifiek zijn getraind op Braziliaans-Portugese juridische data en lange context, en die uitstekende prestaties leveren op het gebied van juridisch schrijven, dialoogkwaliteit en agentische taken tegen een gunstige prijs-kwaliteitverhouding.

Thiago Laitz, Thales Sales Almeida, Hugo Abonizio, Roseval Malaquias Junior, Giovana Kerche Bonás, Marcos Piau, Celio Larcher, Ramon Pires, Rodrigo Nogueira2026-03-12💬 cs.CL