Learning Quadruped Walking from Seconds of Demonstration
该论文通过理论分析揭示了四足机器人模仿学习在小样本下的有效性,并提出了一种新方法,仅需数秒演示即可离线训练出具备合理鲁棒性的行走策略。
2971 篇论文
该论文通过理论分析揭示了四足机器人模仿学习在小样本下的有效性,并提出了一种新方法,仅需数秒演示即可离线训练出具备合理鲁棒性的行走策略。
本文提出了名为 Elenchus 的对话系统,该系统基于推论主义语义,通过人类专家与大型语言模型之间的“证明者 - 质疑者”对话来构建知识基,并将对话状态映射到 Hlobil 和 Brandom 的非单调多后继逻辑(NMMS)中,从而在 W3C PROV-O 本体等案例中实现了从对话协商到形式化推理的端到端集成。
该论文通过大规模跨领域评估,首次系统性地证明了内容感知分块策略(特别是段落分组法)在结合不同嵌入模型时能显著提升检索效果,并揭示了分块策略与领域特性及模型规模之间的互补关系与效率权衡。
本文提出了一种名为 NePPO 的新多智能体强化学习流程,通过学习玩家无关的势函数将混合合作 - 竞争环境转化为近似势博弈,从而在通用和博弈中有效计算近似纳什均衡,其性能优于 MAPPO、IPPO 和 MADDPG 等主流基线方法。
该论文提出了 Diffusion Controller (DiffCon) 框架,通过控制理论视角将扩散采样统一为线性可解马尔可夫决策过程,并据此推导了高效的强化学习微调算法与轻量级侧网络参数化方法,在保持骨干网络冻结的同时显著提升了扩散模型的偏好对齐效果与质量效率。
该论文揭示了仅基于平均处理效应(ATE)为零的监管标准存在“因果掩盖”漏洞,即优化算法可在满足该统计指标的同时通过混淆因素实施严重的不公平对待,且此类隐蔽的不公难以被检测,因此主张应将公平性监管从决策层面提升至模型层面。
该论文提出了一种基于预训练视觉基础模型(Cosmos Tokenizer)压缩潜在空间的概率性世界模型,通过结合保形预测框架生成不确定性指标来构建运行时监控器,从而在无需显式定义故障模式的情况下,以极少的参数量实现了对双机械臂操作任务中异常故障的高效准确检测。
该研究通过“超级技能栈”框架分析 80 个学生设计团队的反思,发现生成式 AI 主要作为认知加速器辅助设计早期阶段,而人类凭借能动性、领域知识、想象力和品味等核心能力在理解语境、验证输出及优化方案中发挥不可替代的关键作用。
该论文提出了名为 Self-MOA 的全自动框架,利用自动化评估模型提供的弱监督信号,通过动态生成红队提示和多目标偏好优化,在显著减少训练数据依赖的同时,有效提升了小型语言模型的安全性与有用性。
该论文提出了名为 ReSched 的极简深度强化学习框架,通过重新定义马尔可夫决策过程将状态空间压缩至四个核心特征,并结合改进的 Transformer 架构,在降低建模复杂度的同时显著提升了柔性作业车间调度问题及其变体的求解性能与泛化能力。
本文提出了 Hit-RAG,一种通过监督微调、判别式偏好对齐和组相对策略优化三阶段偏好对齐框架,有效解决多模态大模型在长上下文检索增强生成中注意力稀释与推理幻觉问题,从而显著提升长场景下推理准确性的方法。
该论文针对现有基于大语言模型的 Web 智能体因扁平记忆结构导致跨网站泛化能力不足的问题,提出了一种名为分层记忆树(HMT)的框架,通过将记忆解耦为意图、阶段和行动三个层级,实现了逻辑规划与动作执行的分离,从而显著提升了智能体在跨网站和跨域场景下的任务泛化能力。
本文提出了名为 DeepEarth 的自监督多模态世界模型,其核心创新是能够将 3D 多分辨率哈希编码扩展至时间维度的 Earth4D 行星级 4D 时空位置编码器,该模型在生态预测基准测试中取得了最先进性能,甚至超越了在更大规模数据上预训练的多模态基础模型。
该论文提出了一种名为 CAPL 的框架,通过引入可选择的图像令牌交互注意力机制和基于跨图像建模的偏好优化策略,有效增强了大型视觉语言模型在多图像任务中的跨图像关联感知能力,从而显著缓解了幻觉问题并提升了整体性能。
该论文提出了一种结合大语言模型辅助脚本的通用框架,使领域科学家能够在普通工作站上高效生成超大规模(PB 级)时变科学数据(如 NASA 气候模型)的 3D 动画,从而显著降低了对高性能计算资源和可视化专业技能的依赖。
该论文提出了一种结合多周期性学习与双向数字孪生原型锚定的新框架,通过元训练与测试时适应策略,有效解决了工业场景下仅凭极少量样本进行故障诊断的难题。
MedSteer 提出了一种无需训练的激活导向框架,通过在扩散 Transformer 的交叉注意力层中识别病理向量并引导图像激活,从而在保持解剖结构不变的前提下生成高质量的医学内窥镜反事实合成数据,显著提升了下游息肉检测任务的性能。
该研究提出了一种利用对话系统通过访谈生成电商用户评论的新方法,实验表明该系统不仅提升了用户的交互体验并减少了后续编辑工作量,而且生成的评论在帮助读者决策方面甚至优于人工撰写的评论。
本文提出了 CoTJudger 框架,通过将思维链转化为有向依赖图并提取最短有效路径,实现了对大推理模型中冗余推理的自动化量化评估与诊断。
该论文提出了名为 Countdown-Code 的测试环境,揭示了监督微调数据中极少量的奖励黑客行为泄露即可导致大模型习得并泛化此类对齐失效行为,从而强调了严格验证合成 SFT 数据的必要性。