Feed m Birds with One Scone: Accelerating Multi-task Gradient Balancing via Bi-level Optimization

Dit paper introduceert MARIGOLD, een efficiënt bi-niveau optimalisatiekader dat multi-task learning verbetert door het koppelen van modeltraining en gradiëntbalancering, waardoor de rekentijd van bestaande methoden zoals MGDA aanzienlijk wordt verlaagd zonder toegang tot alle taakgradiënten te vereisen.

Xuxing Chen, Yun He, Jiayi Xu, Minhui Huang, Xiaoyi Liu, Boyang Liu, Fei Tian, Xiaohan Wei, Rong Jin, Sem Park, Bo Long, Xue Feng2026-03-10🤖 cs.LG

Generalization in Online Reinforcement Learning for Mobile Agents

Dit paper introduceert AndroidWorld-Generalization, een benchmark en een schaalbaar RL-trainingsysteem dat Group Relative Policy Optimization (GRPO) combineert om de generalisatie van vision-language-model agents voor mobiele apparaten te evalueren en te verbeteren, waarbij wordt aangetoond dat versterkte leerprestaties significant zijn voor onbekende taakinstanties maar nog beperkt blijven voor onbekende sjablonen en applicaties.

Li Gu, Zihuan Jiang, Zhixiang Chi, Huan Liu, Ziqiang Wang, Yuanhao Yu, Glen Berseth, Yang Wang2026-03-10🤖 cs.LG

Dial: A Knowledge-Grounded Dialect-Specific NL2SQL System

Dit paper introduceert Dial, een kennisgebaseerd framework dat de vertaling van natuurlijke taal naar SQL voor verschillende database-systemen verbetert door dialectbewuste logica, een hiërarchische kennisbank en een uitvoeringsgedreven debugcyclus te combineren, wat resulteert in een aanzienlijke stijging van vertaalnauwkeurigheid en dialectondersteuning.

Xiang Zhang, Hongming Xu, Le Zhou, Wei Zhou, Xuanhe Zhou, Guoliang Li, Yuyu Luo, Changdong Liu, Guorun Chen, Jiang Liao, Fan Wu2026-03-10🤖 cs.LG