AgrI Challenge: A Data-Centric AI Competition for Cross-Team Validation in Agricultural Vision
该论文提出了 AgrI 挑战赛,通过引入多团队独立采集数据的跨团队验证(CTV)评估范式,揭示了单一数据源训练在农业视觉任务中的泛化缺陷,并证明了多源协作训练能显著缩小跨域泛化差距,同时发布了一个包含 5 万余张图像的大规模公开数据集以推动数据为中心的农业视觉研究。
9976 篇论文
该论文提出了 AgrI 挑战赛,通过引入多团队独立采集数据的跨团队验证(CTV)评估范式,揭示了单一数据源训练在农业视觉任务中的泛化缺陷,并证明了多源协作训练能显著缩小跨域泛化差距,同时发布了一个包含 5 万余张图像的大规模公开数据集以推动数据为中心的农业视觉研究。
该论文提出了一种利用嵌套 Dropout 为扩散模型、归一化流和变分自编码器引入可调复杂度先验的方法,通过在压缩感知等逆问题中动态平衡表示误差与过拟合风险,显著降低了重建误差并提供了相应的理论分析。
本文提出了一种名为 N-Tree Diffusion 的层次化扩散模型,通过共享早期去噪阶段并在后期分支以生成连续的火险图,在降低计算成本的同时实现了长时序野火风险的概率预测。
该论文填补了亚 2000 万参数“小模型”领域的研究空白,揭示了在 TinyML 规模下模型误差率虽遵循幂律但指数更陡、饱和更早,且误差分布、类别难度偏好及校准度均随规模发生显著质变,从而证明直接套用大模型规律会误导边缘 AI 部署,必须在目标模型规模下进行验证。
本文提出了一种基于分层多智能体强化学习的无信道状态信息(CSI)毫米波波束聚焦框架,利用用户定位数据替代传统信道估计,通过集中训练分散执行的多智能体近端策略优化算法有效解决大规模组合动作空间问题,并在复杂场景下实现了显著的性能提升与良好的可扩展性。
ConfHit 是一种无需实验验证器(Oracle)的分布无关框架,它利用加权交换性和多重样本密度比加权共形 p 值,为药物发现中的生成式设计提供统计保证,既能认证生成批次中是否包含有效候选分子,又能将其精炼为紧凑集合。
本文针对低资源场景下的英译印地语机器翻译,通过对比提示策略并引入结合低秩适应与回归头的中间层微调框架(ALOPE 及其扩展 LoRMA),显著提升了医疗、法律等高风险领域句子级质量估计的鲁棒性,并公开了相关代码与数据集。
该论文提出了一种基于特征区分性、稀疏性(奥卡姆剃刀)及分布重叠性的原则性框架,通过形式化定理证明了稀疏假设在训练与测试分布仅部分重叠时仍能实现泛化,并将该理论推广至子空间联合分类器。
本文提出了名为 MARIGOLD 的统一算法框架,通过将多任务梯度平衡问题建模为利用零阶方法高效求解的双层优化问题,解决了现有 MGDA 类方法计算效率低下的局限性。
该论文提出了一种基于确定性双编码器与透明模糊分区的可复现法律合规分类及证据检索系统,通过结合 RoBERTa 模型在 ACORD 和 CUAD 数据集上的表现,将合规评分映射为自动决策与人工审查的明确区间,从而在满足严格错误率约束的同时,为法律团队提供了介于手工规则与黑盒大模型之间的可解释、可审计的实用解决方案。
本文提出了一种广义的解耦期望二次损失(DEQL)框架,不仅简化了线性自编码器推荐模型(EDLAE)的求解过程,还通过高效算法揭示了超参数 时更优的闭式解,从而在基准数据集上超越了原有的 基线模型。
该论文提出了“上下文信道容量”这一信息论框架,证明了零遗忘要求上下文信号与生成参数间存在足够的互信息,揭示了传统状态型持续学习方法的“不可能三角”局限,并指出通过架构设计(如超网络)重构参数为函数值而非状态是实现零遗忘的关键。
该论文针对大语言模型深度研究代理推理延迟高的问题,提出了一种基于搜索与访问动作异质性特征的“双过程”推测框架 DualSpec,通过引入轻量级语义验证器实现了高达 3.28 倍的端到端加速,同时保持了与完全推理代理相当的准确率。
本文提出了名为 OrthoFormer 的因果驱动架构,通过将工具变量估计嵌入 Transformer 隐藏状态并利用神经控制函数,有效解决了传统模型因混淆静态背景与动态因果流而导致的分布外泛化失败问题,实现了从相关性学习到因果推断的范式转变。
本文针对移动智能体在线强化学习中的泛化难题,提出了包含三种挑战模式的基准测试"AndroidWorld-Generalization"及一套集成 GRPO 算法的开源训练系统,实验表明该方法虽能显著提升模型在未见任务实例上的零样本泛化能力,但在未见模板和应用上的泛化效果仍有限,并初步验证了测试时少样本适应的潜力。
本文提出了 Data Agent,一种将数据选择建模为训练感知序贯决策问题的端到端动态优化框架,它通过自适应平衡损失难度与置信度不确定性的复合奖励机制,在无需人工设计指标的情况下实现了跨任务、跨架构的训练加速与性能保持。
本文针对部分可观测的高维线性二次高斯控制问题,提出了一种通过预测累积代价来学习潜在状态表示的成本驱动方法,并建立了在无限时域下获得近优表示函数与控制器的有限样本保证,其核心贡献在于证明了由二次回归分析产生的新随机过程的持续激励性。
该论文提出了名为 PACT 的微调框架,通过在微调过程中仅约束与安全相关 token 的置信度以匹配参考模型,从而在避免全局限制导致效用下降的同时,有效防止大语言模型在仅使用良性数据微调时出现的安全对齐漂移。
该论文提出了一种利用离散化词汇和自适应高斯平滑的 Tokenizer 方法,成功使 Transformer 在表格数据预测任务中不仅超越了调优后的 XGBoost,还实现了概率分布的校准。
本文提出了 Dial,一种基于知识的地域特定 NL2SQL 系统,通过引入方言感知逻辑查询规划、分层意图知识基以及执行驱动的调试验证循环,有效解决了现有方法在处理异构数据库方言时语义正确性与可执行性不足的问题,并在新构建的 DS-NL2SQL 基准测试中显著提升了翻译准确率与方言特性覆盖率。