An Embodied Companion for Visual Storytelling
本文介绍了名为"Companion"的艺术装置,它通过结合绘图机器人与大语言模型,利用上下文学习和实时工具调用实现人机语音与绘画的双向互动,将机器人从被动执行者转变为能推动共同视觉叙事的创造性伙伴,并经专家评估证实了其作品具备独特的审美价值与专业展览潜力。
864 篇论文
本文介绍了名为"Companion"的艺术装置,它通过结合绘图机器人与大语言模型,利用上下文学习和实时工具调用实现人机语音与绘画的双向互动,将机器人从被动执行者转变为能推动共同视觉叙事的创造性伙伴,并经专家评估证实了其作品具备独特的审美价值与专业展览潜力。
RoboLayout 通过引入可微分的可达性约束和局部细化优化机制,扩展了 LayoutVLM 框架,使其能够生成既符合语义逻辑又适应不同具身智能体物理交互能力的 3D 室内场景布局。
ProFocus 是一种无需训练的渐进式框架,通过大语言模型与视觉语言模型的协作,利用主动感知生成针对性视觉查询并结合分支多样化蒙特卡洛树搜索实现聚焦推理,从而在无需微调的情况下显著提升了视觉语言导航任务的性能。
本文提出了一种基于数字孪生的 V2X 轨迹预测框架,通过结合 Bi-LSTM 生成器与包含标准均方误差及新型“孪生损失”的联合训练目标,在确保预测精度的同时有效降低了交通违规和碰撞风险,从而提升了城市复杂路口多智能体交互场景下的安全性与合规性。
本文提出了 TEGA 系统,这是一种通过融合肌电信号意图识别与视觉触觉感知、并利用可穿戴振动背心提供实时闭环力反馈的辅助遥操作框架,旨在帮助上肢残疾用户更直观、稳定地调节抓取力度,从而显著提升任务成功率。
PRISM 提出了一种结合模仿学习与强化学习的指令驱动方法,通过大语言模型生成奖励函数并结合人类反馈对策略进行迭代优化,从而在无需大量新数据的情况下高效提升机器人操作策略的泛化能力与鲁棒性。
该论文提出了一种基于任务逆学习的新颖联合学习方法,通过构建正向与逆向任务的通用表征并利用辅助正向演示,实现了机器人技能策略在未见条件下的准确且高效的外推,在复杂操作任务中表现优于扩散模型。
该论文提出了首个针对基于热力图的关键点检测器的耦合鲁棒性验证框架,通过混合整数线性规划将验证问题转化为联合偏差约束下的反例搜索,从而克服了传统解耦方法在连续坐标输出和高维输入下的局限性,实现了对关键点间依赖关系及下游任务需求的更紧确且有效的鲁棒性证明。
该论文提出了 RACAS 系统,这是一种通过自然语言交互的协作智能体架构,仅需机器人描述、动作定义和任务指令即可在不修改代码或模型权重的情况下,实现对轮式地面机器人、多关节机械臂及水下车辆等多样化平台的统一闭环控制。
本文提出了一种针对欠驱动软体机器人的通用控制框架,通过在满足动力学约束和致动器限幅的前提下将快速指数稳定控制李雅普诺夫函数作为凸不等式约束,实现了在输入受限条件下具有稳定性保证的任务空间调节与跟踪,并在多种平台上验证了其优于现有基准方法的性能。
本文介绍了 RFM-HRI 多模态数据集,该数据集通过在医院和实验室环境中对 41 名参与者进行Wizard-of-Oz 研究,系统记录了医疗机器人在物品检索任务中发生四类交互失败时用户的言语与非言语反应及恢复偏好,揭示了失败对情感效价和感知控制的负面影响,并为安全关键场景下的故障检测与恢复策略提供了基础。
本文提出了名为 SCOUT 的新方法,通过从大语言模型蒸馏结构化关系知识并直接在 3D 场景图上基于关系启发式规则进行效用评分,实现了在开放世界家居环境中高效、实时且具备泛化能力的交互式物体搜索。
本文提出了一种名为 TransMASK 的自监督方法,通过联合训练策略与可学习掩码,将观测状态转化为偏向任务相关要素的潜在表示,从而无需额外标签即可提升机器人在新环境中的泛化能力和鲁棒性。
该论文提出了一种接触接地策略(CGP),通过预测机器人状态与触觉反馈并利用学习到的接触一致性映射,将多触点预测转化为合规控制器可执行的指令,从而实现了基于视觉触觉的精细灵巧操作。
本文介绍了 NC-tALC 数据集,该数据集包含 152 次高分辨率受控实验,旨在填补过渡期自动驾驶车辆(tAVs)在强制变道场景下与人类驾驶车辆及自适应巡航控制车辆交互行为数据的空白,为评估其决策与动态特性提供实证基础。
该论文提出了一种环境感知的路径生成框架,通过结合四种路径规划算法在线生成适应动态障碍环境的机器人增材制造工具路径,并评估了不同规划器在复杂场景下的可行性及关键结构性能指标。
该论文提出了一种基于本地部署开源大语言模型的隐私保护视觉语言框架,用于医疗翻译机器人,通过新构建的临床对话手势数据集实现了对同意和指令等言语行为的高精度识别,并生成了比基线更具拟人化且恰当的机器人手势。
本文提出了 Safe-Night VLA 框架,通过融合长波红外热感知与语言模型实现语义推理,并结合控制障碍函数安全过滤器,使机器人在非结构化环境中能够“看见”不可见目标并安全执行热感知操作。
EmboAlign 提出了一种无需数据的框架,通过利用视觉语言模型提取的组合作为约束条件,在推理阶段对视频生成模型的输出进行筛选和轨迹优化,从而显著提升了零样本机器人操作的成功率。
该论文提出了一种结合约束贝叶斯优化树搜索与 STL 增强冲突基搜索的两阶段框架,通过局部代价地图学习和形式化 STL 推理,在满足运动学动力学约束及信号时序逻辑规范的前提下,实现了多机器人轨迹规划的高效性、安全性与可扩展性。