Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation
本文提出了名为 FINS 的轻量级框架,通过结合多分辨率哈希网格编码器与预训练基础模型,实现了仅需单张 RGB 图像即可在数秒内高效重建高保真隐式表面及 SDF 场,并在收敛速度、重建精度及机器人表面跟随任务中优于现有最先进方法。
6330 篇论文
本文提出了名为 FINS 的轻量级框架,通过结合多分辨率哈希网格编码器与预训练基础模型,实现了仅需单张 RGB 图像即可在数秒内高效重建高保真隐式表面及 SDF 场,并在收敛速度、重建精度及机器人表面跟随任务中优于现有最先进方法。
本文提出了 RetoVLA 架构,通过复用原本用于缓解注意力伪影的注册令牌(Register Tokens)来增强轻量级视觉 - 语言 - 动作模型的空间推理能力,在零增加参数量的前提下显著提升了机器人任务的成功率。
本文提出了首个针对视觉几何基础 Transformer(VGGT)的量化框架 QuantVGGT,通过引入双平滑细粒度量化与噪声过滤多样化采样技术,有效解决了特殊令牌导致的重尾分布及多视图数据校准不稳定问题,在实现显著内存缩减与加速的同时保持了极高的重建精度。
本文提出了一种面向复杂地形的自主无人机 - 四足机器人对接框架,通过四足侧的强化学习主动姿态稳定与无人机侧的约束感知控制策略,成功实现了在 GPS 拒止环境下对高差台阶及陡坡等崎岖地形的稳定对接。
该论文提出了运动感知 Transformer(MATR),通过显式预测跨帧物体运动来提前更新跟踪查询,有效解决了现有端到端 MOT 框架中检测与跟踪查询的冲突问题,并在 DanceTrack、SportsMOT 和 BDD100k 等多个基准测试中取得了最先进的性能。
本文提出了名为 GS-2M 的框架,通过联合优化渲染质量相关的属性并引入基于多视图光度变化的粗糙度监督策略,在无需复杂神经组件的情况下,实现了从多视图图像到包含高反射表面细节的高保真网格重建。
本文基于贝叶斯说服理论构建了一个可扩展的评估与训练框架,利用强化学习使大语言模型(包括小模型)能够掌握复杂的战略说服策略并显著提升说服效果。
本文提出了一种名为 SAC-Loco 的安全感知柔顺运动框架,该框架通过结合可调节柔顺的强化学习策略、安全导向的恢复策略以及实时安全监督机制,使四足机器人能够在无需显式力传感器的情况下,在外部力干扰下同时实现平滑的柔顺响应与鲁棒的安全保障。
本文提出了 FAMDA 框架,通过利用视觉基础模型作为教师网络,在自训练范式下生成高质量伪标签,从而在合成到真实及昼夜适应等场景中实现了高效且性能领先的无监督多任务域自适应密集预测。
本文提出了 QuantSparse 框架,通过多尺度显著注意力蒸馏和基于二阶残差重参数化的稀疏注意力机制,有效解决了视频扩散 Transformer 在联合应用模型量化与注意力稀疏化时的性能退化问题,在显著降低存储与推理成本的同时大幅提升了生成质量。
本文提出了首个统一且高效的多模态双人运动生成框架 DualFlow,该框架利用整流流(Rectified Flow)技术实现确定性采样以加速推理,并结合检索增强生成(RAG)模块与对比学习目标,在文本、音乐及先验动作等多种条件下生成高质量、语义对齐且节奏同步的交互式与反应式双人运动。
本文提出了 ELHPlan 框架,通过引入“意图绑定动作链”作为规划原语,在长视野多智能体协作任务中有效平衡了适应性与计算效率,在保持任务成功率的同时将 Token 消耗降低了 60-70%。
本文提出了一种基于纳维 - 斯托克斯方程物理原理的轻量级 rPPG 测量模型 PHASE-Net,通过零计算成本的轴向交换模块、自适应空间滤波器及门控因果卷积网络,在无需增加计算量的前提下显著提升了运动与光照变化下的脉搏信号测量精度与鲁棒性。
本文提出了 LMOD+,这是一个包含 32,633 个实例的大规模多模态眼科基准数据集,通过扩展数据规模、丰富任务类型(涵盖疾病筛查、分级及人口学预测)并系统评估 24 种先进多模态大语言模型,旨在推动眼科人工智能的发展并缓解全球视力威胁疾病的负担。
本文提出了一种基于对偶性的统一范畴论方法,不仅极大地简化了逻辑、语义及概率计算中多种重要单子(如超滤子、Vietoris 和 Giry 单子)的余密度表示证明,还推导出了包括滤子单子及期望单子在内的多个新颖余密度表示。
本文提出了一种基于超宽带(UWB)和雷达技术的多机器人(UGV-UAV)相对定位系统,该系统融合惯性测量单元与轮式编码器数据,通过非线性优化与姿态图优化框架实现了比现有闭式方法更鲁棒的定位性能,并已在 ROS 2 环境中通过仿真与真实数据集验证,且代码与数据已开源。
本文提出了一种名为 XPPG-PCA 的新型无监督、无参考自动语音严重程度评估方法,该方法利用 x 向量和主成分分析,在无需转录或健康样本参考的情况下,展现出比现有方法更稳健且可泛化的临床评估潜力。
本文提出了一种动态抛物线控制屏障函数(DPCBF),通过根据障碍物距离和相对速度动态调整安全边界,有效解决了非holonomic机器人在高密度动态环境中因传统碰撞锥方法过于保守而导致的控制二次规划不可行问题,显著提升了导航成功率。
本文提出了名为 REVEL 的流式拖拽导向交互式视频操纵新任务,并设计了无需训练的 DragStream 方法,通过自适应分布自校正和空频选择性优化机制,解决了自回归视频扩散模型中拖拽操作导致的潜在空间漂移及上下文干扰问题,实现了在任意时刻对任意对象的精细拖拽编辑。
本文利用 w2v-BERT 2.0 预训练模型结合 MFA 结构、Layer Adapter 及 LoRA 微调技术,在说话人验证任务中取得了 0.12% 的极低等错误率,并通过知识蒸馏引导的结构剪枝将模型体积压缩 80% 的同时仅造成 0.04% 的性能损失。