Strengthening Generative Robot Policies through Predictive World Modeling
本文提出了一种名为生成预测控制(GPC)的框架,该框架通过结合专家演示克隆的生成策略、基于探索数据训练的预测世界模型以及利用模型进行前瞻优化的在线规划器,在多种仿真与真实世界的机器人操作任务中显著超越了传统的行为克隆方法。
5591 篇论文
本文提出了一种名为生成预测控制(GPC)的框架,该框架通过结合专家演示克隆的生成策略、基于探索数据训练的预测世界模型以及利用模型进行前瞻优化的在线规划器,在多种仿真与真实世界的机器人操作任务中显著超越了传统的行为克隆方法。
本文针对分布式计算中服务器独立以概率 发生延迟的通用编码计算场景,理论证明了 BACC 和 LeTCC 两种方案的平均近似误差均能以特定速率收敛至零,并通过实验验证了该结论在包括深度神经网络在内的多种任务中的有效性。
该论文提出了一种名为 GRADIEND 的新型编码器 - 解码器方法,利用模型梯度学习编码社会偏见(如性别、种族和宗教)的特征神经元,从而能够精准定位并修改模型权重以在保留其他能力的同时消除偏见。
该论文通过构建包含 200 个任务的跨语言数据集,分析了大语言模型在生成代码时的安全性与质量,发现尽管模型能自动化代码创作,但其安全表现因编程语言而异,且普遍未能利用现代编译器更新的安全特性或仍沿用过时方法,凸显了提升模型安全性并融入最新编程最佳实践的必要性。
本文提出了一种针对带符号网络中极化社区发现的高效局部搜索算法,通过引入新颖的优化目标解决社区规模失衡问题,并首次将局部搜索扩展至允许中性顶点的大规模网络场景,同时证明了其线性收敛性并在实验中展现出优于现有方法的性能。
该论文提出了 CLEF 模型,通过学习编码干预时机与作用范围的时间概念,实现了对生物及临床纵向轨迹中特定变量在特定时刻的可控编辑与反事实生成,显著优于现有最先进方法。
该论文指出,在联邦学习微调大语言模型时,采用低秩适应(LoRA)策略能在不显著牺牲性能的前提下,将模型对训练数据的记忆风险降低高达 10 倍,且该方法可与其他隐私保护技术结合以进一步提升隐私安全性。
该论文提出了 A3RL 方法,通过引入一种新颖的置信度感知主动优势对齐(A3)采样策略,动态优先选择与策略演进需求相匹配的在线和离线数据,从而有效解决了结合在线与离线强化学习时面临的灾难性遗忘、数据质量鲁棒性及样本效率低等挑战,并实现了优于现有技术的策略优化效果。
该论文提出了名为“文本即时间序列”(TaTS)的新框架,通过将具有周期性特征的配对文本视为时间序列的辅助变量,使现有纯数值时间序列模型无需修改架构即可有效处理多模态数据,从而显著提升预测和插补任务的性能。
该论文提出了一种名为 LaVCa 的数据驱动方法,利用大语言模型为图像生成自然语言描述,从而比现有方法更准确、细致地解析人脑视觉皮层中体素的选择性及其功能特性。
该论文提出了一种基于难度聚类的 COD 框架,通过构建具有稳定扩展特性的任务子集并推导映射函数,成功解决了大语言模型下游任务性能预测中因能力涌现和任务难度不均导致的高变异性问题,在 70B 参数模型上实现了仅 1.55% 的平均预测误差。
该研究提出了一种基于多模态 MRI 图像融合(T1、T2、T1ce 和 FLAIR)的胶质瘤亚类分类方法,通过结合 2D 与 3D UNET 分割及加权平均融合技术,并利用预训练 ResNet50 模型进行分类,在 BraTS 数据集上实现了 99.25% 的高准确率,显著优于现有方法。
该论文提出了一种名为“留一法 PPO"(LOOP)的新型强化学习方法,通过结合 REINFORCE 的方差缩减技术与 PPO 的鲁棒性及样本效率优势,有效解决了文本到图像扩散模型微调中样本效率与最终性能之间的权衡难题。
本文提出了名为 OrthoGrad 的新方法,通过将遗忘集梯度投影到保留集梯度的正交子空间,在仅有少量保留数据的情况下有效解决了机器遗忘中梯度干扰问题,从而在移除特定数据影响的同时保持模型整体性能。
该研究提出了一种名为 GlucoLens 的可解释机器学习系统,它利用可穿戴设备、饮食及工作日志等多模态数据,结合大语言模型来预测餐后血糖曲线下面积及高血糖风险,并能通过反事实解释为个体提供个性化的行为干预建议。
本文提出了 IMPACT 框架,利用视觉语言模型推断环境语义以生成各向异性接触成本图,并结合接触感知 A*规划器,实现在杂乱环境中高效且安全的接触式运动规划。
该论文提出了一种名为平滑原型等价(SPE)的新框架,利用可逆神经网络将稀疏且含噪的观测数据映射到原型行为空间,从而在无需已知方程的情况下有效识别非线性动力系统的不变集(如极限环和不动点)并分类其动力学机制。
本文提出了名为 MUSS 的多层级子集选择方法,通过利用数据结构优化相关性与多样性选择问题,在推荐系统和检索增强生成(RAG)等应用中实现了比现有方法(如 MMR 和 DGDS)更高的精度、显著更快的速度以及更优的理论近似保证。
本文提出了熵驱动不确定性过程奖励模型(EDU-PRM),该框架通过利用高预测熵自动锚定推理步骤边界,无需昂贵的人工标注即可在 ProcessBench 基准测试中超越现有强基线,并仅用 1.5% 的训练数据实现了与 SOTA 模型相当的性能及更高效的推理。
本文提出了一种名为 MetaBoost 的混合框架,通过集成多种数据平衡技术与反事实分析,不仅显著提升了代谢综合征预测模型的准确性,还识别出血糖和甘油三酯为关键风险因素,为临床干预提供了可操作的见解。