Unified Multi-Modal Interactive & Reactive 3D Motion Generation via Rectified Flow
本文提出了首个统一且高效的多模态双人运动生成框架 DualFlow,该框架利用整流流(Rectified Flow)技术实现确定性采样以加速推理,并结合检索增强生成(RAG)模块与对比学习目标,在文本、音乐及先验动作等多种条件下生成高质量、语义对齐且节奏同步的交互式与反应式双人运动。
3833 篇论文
本文提出了首个统一且高效的多模态双人运动生成框架 DualFlow,该框架利用整流流(Rectified Flow)技术实现确定性采样以加速推理,并结合检索增强生成(RAG)模块与对比学习目标,在文本、音乐及先验动作等多种条件下生成高质量、语义对齐且节奏同步的交互式与反应式双人运动。
本文提出了 ELHPlan 框架,通过引入“意图绑定动作链”作为规划原语,在长视野多智能体协作任务中有效平衡了适应性与计算效率,在保持任务成功率的同时将 Token 消耗降低了 60-70%。
本文提出了一种基于纳维 - 斯托克斯方程物理原理的轻量级 rPPG 测量模型 PHASE-Net,通过零计算成本的轴向交换模块、自适应空间滤波器及门控因果卷积网络,在无需增加计算量的前提下显著提升了运动与光照变化下的脉搏信号测量精度与鲁棒性。
本文提出了 LMOD+,这是一个包含 32,633 个实例的大规模多模态眼科基准数据集,通过扩展数据规模、丰富任务类型(涵盖疾病筛查、分级及人口学预测)并系统评估 24 种先进多模态大语言模型,旨在推动眼科人工智能的发展并缓解全球视力威胁疾病的负担。
本文提出了一种基于对偶性的统一范畴论方法,不仅极大地简化了逻辑、语义及概率计算中多种重要单子(如超滤子、Vietoris 和 Giry 单子)的余密度表示证明,还推导出了包括滤子单子及期望单子在内的多个新颖余密度表示。
本文提出了一种基于超宽带(UWB)和雷达技术的多机器人(UGV-UAV)相对定位系统,该系统融合惯性测量单元与轮式编码器数据,通过非线性优化与姿态图优化框架实现了比现有闭式方法更鲁棒的定位性能,并已在 ROS 2 环境中通过仿真与真实数据集验证,且代码与数据已开源。
本文提出了一种名为 XPPG-PCA 的新型无监督、无参考自动语音严重程度评估方法,该方法利用 x 向量和主成分分析,在无需转录或健康样本参考的情况下,展现出比现有方法更稳健且可泛化的临床评估潜力。
本文提出了一种动态抛物线控制屏障函数(DPCBF),通过根据障碍物距离和相对速度动态调整安全边界,有效解决了非holonomic机器人在高密度动态环境中因传统碰撞锥方法过于保守而导致的控制二次规划不可行问题,显著提升了导航成功率。
本文提出了名为 REVEL 的流式拖拽导向交互式视频操纵新任务,并设计了无需训练的 DragStream 方法,通过自适应分布自校正和空频选择性优化机制,解决了自回归视频扩散模型中拖拽操作导致的潜在空间漂移及上下文干扰问题,实现了在任意时刻对任意对象的精细拖拽编辑。
本文利用 w2v-BERT 2.0 预训练模型结合 MFA 结构、Layer Adapter 及 LoRA 微调技术,在说话人验证任务中取得了 0.12% 的极低等错误率,并通过知识蒸馏引导的结构剪枝将模型体积压缩 80% 的同时仅造成 0.04% 的性能损失。
本文提出了一种名为 PAD-TRO 的新型基于模型的扩散轨迹优化方法,通过直接在反向扩散过程中引入无梯度投影机制来生成状态序列,从而有效解决了非线性动态约束难题,并在四旋翼避障导航任务中实现了零动态可行性误差和约 4 倍于现有最先进基线的成功率。
本文首次揭示了大型语言模型分词器作为成员推断攻击新向口的严重隐私风险,通过提出五种攻击方法验证了其脆弱性,并设计了相应的自适应防御机制。
本文提出并验证了一种面向受控环境的机器人授粉框架,该框架通过融合 3D 植物重建、基于物理模型的振动参数优化以及视觉引导的软体机械手抓取技术,实现了高效且无损的精准授粉。
该论文提出了“可微变体字体”框架,通过将变体字体规范转化为紧凑的数学公式,实现了从字体参数到矢量图形及栅格图像的可微映射,从而利用梯度优化技术自动解决字形编辑、重叠处理、物理动画及字体设计优化等任务,显著降低了专业排版设计的门槛。
本文提出了一种名为 EB-MBD 的新方法,通过引入受内点法启发的渐进式障碍函数来约束基于模型的扩散算法,从而在避免昂贵投影操作的同时,有效解决了高约束环境下因采样效率低导致的性能崩溃问题,显著提升了轨迹优化的质量与效率。
本文提出了 AR-Drag,这是首个结合强化学习与轨迹奖励机制的自回归视频扩散模型,能够在仅 13 亿参数的情况下实现低延迟、高保真且运动控制精准的实时图像到视频生成。
本文提出了概念驱动探索(CDE)方法,利用预训练视觉语言模型生成文本任务描述对应的对象级视觉概念,并通过辅助重建目标将其转化为内在奖励,从而在视觉强化学习中实现高效且抗噪的针对性探索,并在真实世界机械臂操作中取得了 80% 的成功率。
该研究通过在多轮辩论中让不同大语言模型对日常道德困境进行集体归责,揭示了同步与轮询两种交互协议下模型在观点修正率、价值取向(如自主性与共情)及从众行为上的显著差异,表明多智能体系统的交互结构会深刻影响其道德推理与价值对齐表现。
该论文提出了一种名为“功能头识别与类别条件重缩放”的免训练插件,通过自适应调整感知与推理导向注意力头在各层间的贡献,有效缓解了多模态大推理模型中因功能分配失衡导致的幻觉问题,在几乎不增加计算成本的情况下显著提升了模型的推理一致性与视觉忠实度。
本文提出了一种偏好条件多目标强化学习框架,通过平衡指令跟踪与外力顺应性,使单一人形机器人策略能够根据用户指定的偏好在导航精度与交互柔顺性之间灵活切换,并在仿真与真实硬件实验中验证了其稳定性与部署可行性。