Quality over Quantity: Demonstration Curation via Influence Functions for Data-Centric Robot Learning
该论文提出了名为“质量优于数量”(QoQ)的系统化方法,通过利用影响函数量化训练样本对验证演示的损失降低贡献,并结合最大影响选取与轨迹聚合策略,自动筛选高质量演示数据,从而在模拟和真实环境中显著提升机器人策略性能。
4885 篇论文
该论文提出了名为“质量优于数量”(QoQ)的系统化方法,通过利用影响函数量化训练样本对验证演示的损失降低贡献,并结合最大影响选取与轨迹聚合策略,自动筛选高质量演示数据,从而在模拟和真实环境中显著提升机器人策略性能。
本文提出了一种融合改进维纳过程退化模型与两阶段自适应主动学习采样策略的在线可靠性预测框架,有效解决了卫星电子系统因数据稀缺、工况多变及个体差异导致的预测难题,显著提升了预测精度并降低了数据需求。
该论文提出了一种名为 DynaME 的新型混合框架,通过将概念漂移重新定义为“周期性重现”和“新兴”两类,并分别采用动态历史模式专家委员会与高不确定性下的通用专家策略,有效解决了在线时间序列预测中模型难以同时适应这两种漂移的问题。
该论文提出了一种基于强化学习的自适应 LLM 解码方法,通过训练轻量级适配器在序列级和 token 级动态选择采样策略,从而在固定计算预算下显著提升了数学和编程任务的准确率。
该论文通过康特 - 阿什比好调节器定理,验证了因果不变超图基底中的持久观察者具备内部模型,进而推导出自然梯度下降作为唯一学习规则,并建立了沃尔夫拉姆超图物理与万丘林神经宇宙学之间的联系,同时指出了其关于收敛参数预测的模型依赖性。
该论文提出了一种名为“排他性自注意力”(XSA)的简单改进机制,通过限制注意力仅关注与自身向量正交的信息来排除位置自信息,从而在语言建模任务中实现了随模型规模和序列长度增加而显著提升的性能。
本文提出了一种基于近端策略优化(PPO)的混合优化框架,通过结合可重构智能表面(RIS)与语义通信,并联合优化卸载比例、语义符号数量及 RIS 相位偏移,显著降低了动态车联网环境下的端到端时延。
该研究通过融合基于微调 Qwen3 模型生成的中英文新闻情感数据与传统宏观指标,证实了在铝价高波动时期,情感增强的 LSTM 模型能显著提升预测精度与交易策略的经济效用(夏普比率从 0.23 提升至 1.04),并揭示了不同新闻来源、主题及事件类型对铝价预测的差异化影响。
本文提出了一种统一的潜在空间框架,通过构建涵盖表征形式与结构先验的分类体系、明确五大核心内部机制并制定闭环评估方案,系统性地总结了潜在世界模型在自动驾驶中的进展,并指明了实现决策就绪、可验证且资源高效自动驾驶的未来研究方向。
该论文揭示了在状态相关动作有效性环境中,未掩码策略梯度算法会因参数共享导致未访问状态下的有效动作被系统性抑制,并通过理论证明与实验验证了动作掩码机制在解决该问题及消除熵正则化权衡方面的优势。
本文提出了一种针对含硅石墨负极电动汽车电池的数据驱动方法,通过数据协调框架和统计/深度学习模型,实现了在考虑计算效率与不确定性的前提下对电压滞后因子的概率预测,从而提升了复杂工况下电池荷电状态(SoC)估计的准确性与泛化能力。
该论文揭示了强化学习从可验证奖励(RLVR)中优化准确率与校准度存在根本性的梯度冲突,并提出了名为 DCPO 的框架,通过解耦推理与校准目标,在保持 GRPO 同等准确率的同时显著缓解了模型过度自信问题并实现了最佳校准性能。
该论文提出了一种基于概率必要性与充分性(PNS)的正则化方法,通过双范围反事实生成器消除类增量学习中的任务内和任务间虚假特征相关性,从而有效缓解特征冲突并防止灾难性遗忘。
RubiCap 提出了一种基于 LLM 生成评分标准(Rubric)的强化学习框架,通过结构化、多维度的细粒度奖励信号解决开放域密集图像描述中缺乏确定性验证的难题,在提升生成多样性与泛化能力的同时,以更小参数量实现了超越现有监督蒸馏、传统 RL 方法及大模型标注的性能。
该论文提出了一种利用大语言模型生成的功能不完备但结构正确的 RTL 代码来构建合成数据集的新框架,有效突破了电路网表示学习中真实标注数据稀缺的瓶颈,并证明了由此训练的模型在子电路边界识别和组件分类等任务上能媲美甚至超越基于高质量数据的现有方法。
本文提出了一种名为 GIAT 的新型框架,通过将地质先验知识(利用类别序列相关性滤波器生成关系矩阵)融入 Transformer 的注意力机制,显著提升了测井岩性识别的准确性、可靠性及可解释性。
本文提出了一种新的分布式专家问题协议,通过优化通信量实现了比先前工作更优的遗憾界。
本文提出了一种基于伊托型随机交通流模型的可微分生成框架,通过将物理约束从确定性偏微分方程扩展为分布形式,利用包含平流闭合模块的评分网络结合去噪得分匹配与福克 - 普朗克残差损失,实现了能够输出概率分布、置信区间及拥堵风险度量的物理信息交通状态估计。
本文提出了 Latent-DARM 框架,通过在潜在空间连接离散扩散模型(作为规划器)与自回归模型(作为执行器),有效克服了单一模型在推理规划或文本流畅性上的局限,在显著提升数学、科学及常识推理基准准确率的同时,大幅降低了 token 消耗。
本文通过尝试复现未公开代码的 BSRNN 音乐分离模型,揭示了研究可复现性面临的巨大成本,并在此基础上提出了性能更优的改进模型,同时公开了代码与预训练模型以推动该领域的透明与可持续发展。