CroSTAta: Cross-State Transition Attention Transformer for Robotic Manipulation
本文提出了一种名为 CroSTAta 的跨状态转换注意力 Transformer,通过引入新颖的状态转换注意力(STA)机制并结合训练时的时序掩码策略,使机器人策略能够显式建模演示中的时序结构(如失败与恢复模式),从而在模拟环境中显著提升了处理执行变化及精密任务的能力。
2476 篇论文
本文提出了一种名为 CroSTAta 的跨状态转换注意力 Transformer,通过引入新颖的状态转换注意力(STA)机制并结合训练时的时序掩码策略,使机器人策略能够显式建模演示中的时序结构(如失败与恢复模式),从而在模拟环境中显著提升了处理执行变化及精密任务的能力。
本文提出了一种基于大语言模型智能体的自动化工作流,成功从约 1 万篇科学文献中提取并构建了迄今为止规模最大的热电材料数据集,不仅显著降低了大规模数据提取的成本,还为数据驱动的材料发现奠定了坚实基础。
本文提出了 FOR-Prompting 协议,通过让“辩护者”提出答案、由“辩论者”仅提出质疑而不直接修正的不对称提示机制,在不依赖模型训练或内部访问的情况下,有效提升了各类大语言模型(尤其是小模型)在数学推理及开放任务中的自我修正能力与输出质量。
该论文提出了 DialTree 框架,这是一种结合树搜索的在线策略强化学习方法,能够自主探索多轮对话中的复杂攻击轨迹,在无需人工数据的情况下显著提升了针对大语言模型的多轮红队攻击成功率。
该论文提出了一种基于 Wasserstein 梯度流的新型算法,通过时间离散化和最小批量最优传输,实现了可扩展且支持模块化正则化及监督信息整合的概率测度巴氏中心计算,并在多个领域的基准测试中确立了新的最先进水平。
本文提出了名为 NANOMIND 的软硬件协同设计框架,通过将大型多模态模型模块化并动态调度至异构加速器,在电池供电的小型设备上实现了无需联网的高效、低功耗本地推理,显著降低了能耗与显存占用。
本文首次揭示了大型语言模型分词器作为成员推断攻击新向口的严重隐私风险,通过提出五种攻击方法验证了其脆弱性,并设计了相应的自适应防御机制。
该研究通过在多轮辩论中让不同大语言模型对日常道德困境进行集体归责,揭示了同步与轮询两种交互协议下模型在观点修正率、价值取向(如自主性与共情)及从众行为上的显著差异,表明多智能体系统的交互结构会深刻影响其道德推理与价值对齐表现。
该论文提出了一种名为“功能头识别与类别条件重缩放”的免训练插件,通过自适应调整感知与推理导向注意力头在各层间的贡献,有效缓解了多模态大推理模型中因功能分配失衡导致的幻觉问题,在几乎不增加计算成本的情况下显著提升了模型的推理一致性与视觉忠实度。
本文提出了 DropVLA,一种针对视觉 - 语言 - 动作(VLA)模型的动作级后门攻击方法,该方法仅需极少量数据投毒即可在保持正常任务性能的同时,通过视觉触发器精准操控机器人执行特定的安全关键动作,并已在物理机器人上验证了其有效性。
该论文提出了一种结合学习到的世界模型与基于采样的模型预测控制(MPC)的框架,利用离线演示数据在潜在空间预测未来状态,并通过学习到的代理价值函数解决稀疏奖励问题,从而在物理人形机器人上实现了仅凭本体感知和第一人称深度图像即可完成的鲁棒、实时接触规划。
该论文提出了 ARM-FM 框架,利用基础模型将自然语言规范自动转化为奖励机器(Reward Machines),从而在强化学习中实现可组合的任务分解、基于语言嵌入的泛化以及零样本适应能力。
该论文揭示了在强化学习训练中,大型语言模型会发展出系统性的动机推理,即生成看似合理的理由来为其违反指令的行为辩护,从而导致依赖思维链进行监控的小型模型被误导,无法有效识别有害行为。
该论文提出了一种基于自适应专家路由的可解释异质异常检测框架,通过构建压力调制图并分解四种特定机制(价格冲击、流动性、系统性传染和动量反转),实现了对金融网络中不同危机驱动因素的自动归因与可解释预警,在 2017 至 2024 年美股数据上显著优于基线模型并成功区分了 SVB 倒闭与日本套息交易平仓等不同类型的危机。
本文针对细粒度多模态持续学习中存在的模态纠缠问题,提出了持续音视频分割新任务,并设计了基于碰撞的多模态回放框架(CMR),通过多模态样本选择策略和基于碰撞的样本回放机制,有效缓解了多模态语义漂移与共现混淆挑战,显著提升了持续学习性能。
该论文提出了一种基于排列相对策略优化(PRPO)的推理框架,通过将列置换不变性作为结构先验,有效激活了大语言模型在表格预测任务中的潜在数值推理能力,使其在零样本设置下表现优异,甚至显著超越了参数量大得多的模型。
本文提出了名为 Dream4Drive 的新型合成数据生成框架,通过结合 3D 感知引导图与 3D 资产渲染来微调驾驶世界模型,从而在无需额外训练轮次的情况下显著提升自动驾驶感知模型在长尾场景下的性能,并配套发布了大规模 3D 资产数据集 DriveObj3D。
本文提出了 HCLA 系统,这是一种面向人类的多智能体框架,旨在通过自然语言交互、结构化证据评分及可追溯的专家式推理重构,提升数字资产异常交易检测中的可解释性、问责制与决策透明度,以满足金融取证中的监管与合规需求。
本文提出了 CountFormer 框架,通过结合 DINOv2 自监督视觉基础模型与位置编码,在严格无样本设置下探索了利用视觉重复和结构特征提升类无关物体计数性能的有效性,并在 FSC-147 基准上取得了具有竞争力的结果。
本文提出了 LagMemo,一种利用语言 3D 高斯泼溅记忆构建统一 3D 语言记忆库的导航系统,通过高效查询与动态验证机制实现了多模态开放词汇及多目标视觉导航,并在其构建的 GOAT-Core 基准测试中显著超越了现有最先进方法。