Autonomous UAV-Quadruped Docking in Complex Terrains via Active Posture Alignment and Constraint-Aware Control
本文提出了一种面向复杂地形的自主无人机 - 四足机器人对接框架,通过四足侧的强化学习主动姿态稳定与无人机侧的约束感知控制策略,成功实现了在 GPS 拒止环境下对高差台阶及陡坡等崎岖地形的稳定对接。
8464 篇论文
本文提出了一种面向复杂地形的自主无人机 - 四足机器人对接框架,通过四足侧的强化学习主动姿态稳定与无人机侧的约束感知控制策略,成功实现了在 GPS 拒止环境下对高差台阶及陡坡等崎岖地形的稳定对接。
该论文提出了运动感知 Transformer(MATR),通过显式预测跨帧物体运动来提前更新跟踪查询,有效解决了现有端到端 MOT 框架中检测与跟踪查询的冲突问题,并在 DanceTrack、SportsMOT 和 BDD100k 等多个基准测试中取得了最先进的性能。
本文提出了名为 GS-2M 的框架,通过联合优化渲染质量相关的属性并引入基于多视图光度变化的粗糙度监督策略,在无需复杂神经组件的情况下,实现了从多视图图像到包含高反射表面细节的高保真网格重建。
本文基于贝叶斯说服理论构建了一个可扩展的评估与训练框架,利用强化学习使大语言模型(包括小模型)能够掌握复杂的战略说服策略并显著提升说服效果。
本文提出了一种名为 SAC-Loco 的安全感知柔顺运动框架,该框架通过结合可调节柔顺的强化学习策略、安全导向的恢复策略以及实时安全监督机制,使四足机器人能够在无需显式力传感器的情况下,在外部力干扰下同时实现平滑的柔顺响应与鲁棒的安全保障。
本文提出了 FAMDA 框架,通过利用视觉基础模型作为教师网络,在自训练范式下生成高质量伪标签,从而在合成到真实及昼夜适应等场景中实现了高效且性能领先的无监督多任务域自适应密集预测。
本文提出了 QuantSparse 框架,通过多尺度显著注意力蒸馏和基于二阶残差重参数化的稀疏注意力机制,有效解决了视频扩散 Transformer 在联合应用模型量化与注意力稀疏化时的性能退化问题,在显著降低存储与推理成本的同时大幅提升了生成质量。
本文提出了首个统一且高效的多模态双人运动生成框架 DualFlow,该框架利用整流流(Rectified Flow)技术实现确定性采样以加速推理,并结合检索增强生成(RAG)模块与对比学习目标,在文本、音乐及先验动作等多种条件下生成高质量、语义对齐且节奏同步的交互式与反应式双人运动。
本文提出了 ELHPlan 框架,通过引入“意图绑定动作链”作为规划原语,在长视野多智能体协作任务中有效平衡了适应性与计算效率,在保持任务成功率的同时将 Token 消耗降低了 60-70%。
本文提出了一种基于纳维 - 斯托克斯方程物理原理的轻量级 rPPG 测量模型 PHASE-Net,通过零计算成本的轴向交换模块、自适应空间滤波器及门控因果卷积网络,在无需增加计算量的前提下显著提升了运动与光照变化下的脉搏信号测量精度与鲁棒性。
本文提出了 LMOD+,这是一个包含 32,633 个实例的大规模多模态眼科基准数据集,通过扩展数据规模、丰富任务类型(涵盖疾病筛查、分级及人口学预测)并系统评估 24 种先进多模态大语言模型,旨在推动眼科人工智能的发展并缓解全球视力威胁疾病的负担。
本文提出了一种基于对偶性的统一范畴论方法,不仅极大地简化了逻辑、语义及概率计算中多种重要单子(如超滤子、Vietoris 和 Giry 单子)的余密度表示证明,还推导出了包括滤子单子及期望单子在内的多个新颖余密度表示。
本文提出了一种基于超宽带(UWB)和雷达技术的多机器人(UGV-UAV)相对定位系统,该系统融合惯性测量单元与轮式编码器数据,通过非线性优化与姿态图优化框架实现了比现有闭式方法更鲁棒的定位性能,并已在 ROS 2 环境中通过仿真与真实数据集验证,且代码与数据已开源。
本文提出了一种名为 XPPG-PCA 的新型无监督、无参考自动语音严重程度评估方法,该方法利用 x 向量和主成分分析,在无需转录或健康样本参考的情况下,展现出比现有方法更稳健且可泛化的临床评估潜力。
本文提出了一种动态抛物线控制屏障函数(DPCBF),通过根据障碍物距离和相对速度动态调整安全边界,有效解决了非holonomic机器人在高密度动态环境中因传统碰撞锥方法过于保守而导致的控制二次规划不可行问题,显著提升了导航成功率。
本文提出了名为 REVEL 的流式拖拽导向交互式视频操纵新任务,并设计了无需训练的 DragStream 方法,通过自适应分布自校正和空频选择性优化机制,解决了自回归视频扩散模型中拖拽操作导致的潜在空间漂移及上下文干扰问题,实现了在任意时刻对任意对象的精细拖拽编辑。
本文利用 w2v-BERT 2.0 预训练模型结合 MFA 结构、Layer Adapter 及 LoRA 微调技术,在说话人验证任务中取得了 0.12% 的极低等错误率,并通过知识蒸馏引导的结构剪枝将模型体积压缩 80% 的同时仅造成 0.04% 的性能损失。
本文提出了一种名为 PAD-TRO 的新型基于模型的扩散轨迹优化方法,通过直接在反向扩散过程中引入无梯度投影机制来生成状态序列,从而有效解决了非线性动态约束难题,并在四旋翼避障导航任务中实现了零动态可行性误差和约 4 倍于现有最先进基线的成功率。
本文首次揭示了大型语言模型分词器作为成员推断攻击新向口的严重隐私风险,通过提出五种攻击方法验证了其脆弱性,并设计了相应的自适应防御机制。
本文提出并验证了一种面向受控环境的机器人授粉框架,该框架通过融合 3D 植物重建、基于物理模型的振动参数优化以及视觉引导的软体机械手抓取技术,实现了高效且无损的精准授粉。