AgrI Challenge: A Data-Centric AI Competition for Cross-Team Validation in Agricultural Vision

该论文提出了 AgrI 挑战赛,通过引入多团队独立采集数据的跨团队验证(CTV)评估范式,揭示了单一数据源训练在农业视觉任务中的泛化缺陷,并证明了多源协作训练能显著缩小跨域泛化差距,同时发布了一个包含 5 万余张图像的大规模公开数据集以推动数据为中心的农业视觉研究。

Mohammed Brahimi, Karim Laabassi, Mohamed Seghir Hadj Ameur, Aicha Boutorh, Badia Siab-Farsi, Amin Khouani, Omar Farouk Zouak, Seif Eddine Bouziane, Kheira Lakhdari, Abdelkader Nabil Benghanem2026-03-10🤖 cs.LG

Scaling Laws in the Tiny Regime: How Small Models Change Their Mistakes

该论文填补了亚 2000 万参数“小模型”领域的研究空白,揭示了在 TinyML 规模下模型误差率虽遵循幂律但指数更陡、饱和更早,且误差分布、类别难度偏好及校准度均随规模发生显著质变,从而证明直接套用大模型规律会误导边缘 AI 部署,必须在目标模型规模下进行验证。

Mohammed Alnemari, Rizwan Qureshi, Nader Begrazadah2026-03-10🤖 cs.LG

Learning to Reflect: Hierarchical Multi-Agent Reinforcement Learning for CSI-Free mmWave Beam-Focusing

本文提出了一种基于分层多智能体强化学习的无信道状态信息(CSI)毫米波波束聚焦框架,利用用户定位数据替代传统信道估计,通过集中训练分散执行的多智能体近端策略优化算法有效解决大规模组合动作空间问题,并在复杂场景下实现了显著的性能提升与良好的可扩展性。

Hieu Le, Oguz Bedir, Mostafa Ibrahim, Jian Tao, Sabit Ekin2026-03-10🤖 cs.LG

Deterministic Fuzzy Triage for Legal Compliance Classification and Evidence Retrieval

该论文提出了一种基于确定性双编码器与透明模糊分区的可复现法律合规分类及证据检索系统,通过结合 RoBERTa 模型在 ACORD 和 CUAD 数据集上的表现,将合规评分映射为自动决策与人工审查的明确区间,从而在满足严格错误率约束的同时,为法律团队提供了介于手工规则与黑盒大模型之间的可解释、可审计的实用解决方案。

Rian Atri2026-03-10🤖 cs.LG

Generalization in Online Reinforcement Learning for Mobile Agents

本文针对移动智能体在线强化学习中的泛化难题,提出了包含三种挑战模式的基准测试"AndroidWorld-Generalization"及一套集成 GRPO 算法的开源训练系统,实验表明该方法虽能显著提升模型在未见任务实例上的零样本泛化能力,但在未见模板和应用上的泛化效果仍有限,并初步验证了测试时少样本适应的潜力。

Li Gu, Zihuan Jiang, Zhixiang Chi, Huan Liu, Ziqiang Wang, Yuanhao Yu, Glen Berseth, Yang Wang2026-03-10🤖 cs.LG

Dial: A Knowledge-Grounded Dialect-Specific NL2SQL System

本文提出了 Dial,一种基于知识的地域特定 NL2SQL 系统,通过引入方言感知逻辑查询规划、分层意图知识基以及执行驱动的调试验证循环,有效解决了现有方法在处理异构数据库方言时语义正确性与可执行性不足的问题,并在新构建的 DS-NL2SQL 基准测试中显著提升了翻译准确率与方言特性覆盖率。

Xiang Zhang, Hongming Xu, Le Zhou, Wei Zhou, Xuanhe Zhou, Guoliang Li, Yuyu Luo, Changdong Liu, Guorun Chen, Jiang Liao, Fan Wu2026-03-10🤖 cs.LG