ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning
Dit paper introduceert ReMix, een nieuwe routeringsmethode voor Mixture-of-LoRAs die het probleem van onbalans in leerbare routingsgewichten oplost door niet-leerbare gewichten te combineren met een onbevooroordeelde gradiëntschatter op basis van reinforcement learning, wat leidt tot een aanzienlijk betere prestatie dan bestaande parameter-efficiënte finetuning-methoden.
Ruizhong Qiu, Hanqing Zeng, Yinglong Xia, Yiwen Meng, Ren Chen, Jiarui Feng, Dongqi Fu, Qifan Wang, Jiayi Liu, Jun Xiao, Xiangjun Fan, Benyu Zhang, Hong Li, Zhining Liu, Hyunsik Yoo, Zhichen Zeng, Tianxin Wei, Hanghang Tong2026-03-12🤖 cs.LG