Generalization in Online Reinforcement Learning for Mobile Agents

本文针对移动智能体在线强化学习中的泛化难题,提出了包含三种挑战模式的基准测试"AndroidWorld-Generalization"及一套集成 GRPO 算法的开源训练系统,实验表明该方法虽能显著提升模型在未见任务实例上的零样本泛化能力,但在未见模板和应用上的泛化效果仍有限,并初步验证了测试时少样本适应的潜力。

Li Gu, Zihuan Jiang, Zhixiang Chi, Huan Liu, Ziqiang Wang, Yuanhao Yu, Glen Berseth, Yang Wang2026-03-10🤖 cs.LG

Dial: A Knowledge-Grounded Dialect-Specific NL2SQL System

本文提出了 Dial,一种基于知识的地域特定 NL2SQL 系统,通过引入方言感知逻辑查询规划、分层意图知识基以及执行驱动的调试验证循环,有效解决了现有方法在处理异构数据库方言时语义正确性与可执行性不足的问题,并在新构建的 DS-NL2SQL 基准测试中显著提升了翻译准确率与方言特性覆盖率。

Xiang Zhang, Hongming Xu, Le Zhou, Wei Zhou, Xuanhe Zhou, Guoliang Li, Yuyu Luo, Changdong Liu, Guorun Chen, Jiang Liao, Fan Wu2026-03-10🤖 cs.LG

Skip to the Good Part: Representation Structure & Inference-Time Layer Skipping in Diffusion vs. Autoregressive LLMs

该论文首次对比分析了扩散语言模型与自回归模型在表征结构上的差异,发现扩散目标导致更深层的层次化抽象和早期层冗余,并据此提出了一种无需架构修改的推理时层跳过方法,使扩散模型在保持高性能的同时显著降低了计算成本。

Raghavv Goel, Risheek Garrepalli, Sudhanshu Agrawal, Chris Lott, Mingu Lee, Fatih Porikli2026-03-10💬 cs.CL

Bolbosh: Script-Aware Flow Matching for Kashmiri Text-to-Speech

本文提出了首个专为克什米尔语设计的开源神经文本转语音系统"Bolbosh",通过引入基于最优传输条件流匹配的跨语言监督适配策略及三阶段声学增强流程,有效解决了多语言基线模型在处理该语言特有的波斯 - 阿拉伯语变音符号和音系特征时的不足,显著提升了合成语音的可懂度与质量。

Tajamul Ashraf, Burhaan Rasheed Zargar, Saeed Abdul Muizz, Ifrah Mushtaq, Nazima Mehdi, Iqra Altaf Gillani, Aadil Amin Kak, Janibul Bashir2026-03-10💬 cs.CL