PhysGM: Large Physical Gaussian Model for Feed-Forward 4D Synthesis
本文提出了 PhysGM 框架,通过结合预训练的物理感知重建模型与直接偏好优化(DPO),并辅以新构建的 PhysAssets 数据集,实现了仅需单张图像即可在一分钟内完成高保真 4D 物理模拟与渲染的端到端前馈生成。
6329 篇论文
本文提出了 PhysGM 框架,通过结合预训练的物理感知重建模型与直接偏好优化(DPO),并辅以新构建的 PhysAssets 数据集,实现了仅需单张图像即可在一分钟内完成高保真 4D 物理模拟与渲染的端到端前馈生成。
本文提出了一种结合分层时序剪枝策略的高效扩散模型框架,通过时序相关性增强、稀疏注意力机制及语义剪枝技术,在显著降低计算成本并大幅提升推理速度的同时,实现了 3D 人体姿态估计的顶尖性能。
PointSlice 提出了一种将点云切片为 2D 数据并结合切片交互网络(SIN)的新型表示方法,在 Waymo、nuScenes 和 Argoverse 2 等数据集上实现了检测精度与推理效率的卓越平衡。
本文提出了名为 AmphiKey 的双模式后量子/传统混合认证密钥封装协议,旨在通过结合 ML-KEM-768、X25519 及抗侧信道 Raccoon 签名等机制,为智能电网提供兼具“或”机密性与强认证或可否认隐私的灵活安全通信方案,并在异构设备上验证了其高效性能。
本文针对非中心化混合模态 MRI 图像分割中存在的客户端模态与数据异构性挑战,提出了一种名为 MDM-MixMFL 的新型联邦学习框架,通过模态解耦策略和模态记忆机制,有效实现了多模态信息的自适应聚合与缺失模态补偿。
本文提出了一种名为 UltraUPConvNet 的计算高效通用框架,该框架基于 UPerNet 和 ConvNeXt 架构,利用包含 9700 多个标注的大规模数据集,实现了在降低计算开销的同时,对超声图像进行组织分割与疾病预测的多任务联合处理。
本文提出了 Traffic-MLLM,一种无需显式检索的神经案例建模框架,通过融合多源交通数据并引入基于随机网络蒸馏的好奇心正则化机制,有效提升了多模态大语言模型在复杂交通场景下的长尾推理能力与跨域泛化性能。
本文提出了一种名为 ActivePose 的主动 6D 物体位姿估计与跟踪框架,通过结合视觉语言模型与“机器人想象”机制动态识别并解决位姿歧义,并利用扩散策略生成主动相机轨迹以维持目标可见性,从而显著提升了机器人操作中的位姿估计精度与鲁棒性。
受弹涂鱼启发的研究通过实验证明,主动摆动尾巴能流体化颗粒介质从而显著降低阻力,使机器人在沙泥等可变形地形上的爬行速度提升 67%,并据此提出了基于底质强度与尾巴形态的摆动策略设计原则。
本文提出了 SAGA 方法,通过引入输入自适应的可学习门控机制和高效的哈达玛积分解,在保留线性注意力全局感受野的同时缓解低秩特征限制,从而在显著降低计算复杂度和显存占用的基础上,大幅提升了视觉 Transformer 模型的推理效率与 ImageNet 分类精度。
本文提出了一种名为累积共识分数(CCS)的标签无关且模型无关的评估指标,通过利用测试时数据增强来衡量预测边界框的空间一致性,从而在无真实标注的情况下实现对部署中目标检测模型的持续可靠性监控。
本文提出了 WHU-STree,这是一个跨越两个城市、包含 21,007 个标注实例的多模态街景树木数据集,旨在通过融合点云与高分辨率图像数据,解决现有数据集规模小、标注少及模态单一的问题,并支持包括树种分类和单木分割在内的十余种街景树木清查任务。
本文提出了一种异步强化学习框架,通过解耦感知与控制并引入显式处理感知延迟的时序编码模块,成功解决了复杂环境中无人机高频敏捷控制与低频感知流之间的冲突,实现了在零样本仿真到现实迁移下 100 赫兹控制率的鲁棒自主导航。
本文提出了 GeoAware-VLA,一种通过集成预训练几何视觉模型的特征来增强视点不变性的视觉 - 语言 - 动作模型,该方法在无需重新训练视觉编码器或依赖显式 3D 数据的情况下,显著提升了机器人在未见视角下的零样本泛化能力,并在仿真与真实物理环境中均取得了优异表现。
本文针对四足机器人接取多样化飞行物体的挑战,构建了包含 8000 条轨迹的真实世界数据集,并提出了能够适应不同物体气动特性的 OIPP 预测器,通过实验验证了其在仿真与真机环境中对早期落点预测及接取成功率的有效性。
该论文提出了首个基于 LibriTTS-R 的公开语音印象(VI)语料库 LibriTTS-VI,并设计了通过双 utterance 解耦训练及无参考音频控制的新方法,有效解决了语音印象控制中缺乏公开数据和印象泄露的问题,显著提升了数值化语音印象控制的精度。
本文提出了一种基于场景图的原子技能学习框架,通过聚焦任务相关对象与关系来缓解分布偏移,并结合扩散模型与视觉语言规划器,显著提升了通用机器人在长程复杂任务中的执行鲁棒性与组合泛化能力。
本文提出了名为 DroFiT 的轻量级单麦克风语音增强网络,通过融合频域 Transformer、全/子带混合编解码器及 TCN 后端,在显著降低计算与内存开销的同时,实现了无人机强自噪环境下的高效实时语音增强。
本文提出了一种基于事件相机的视觉示教与复现(VT&R)导航系统,通过频域互相关算法将处理延迟降至 2.88 毫秒(比传统相机方案快 3.5 倍),并在昼夜室内外复杂环境下实现了跨 3000 米、横向误差小于 15 厘米的高精度自主导航。
该论文通过审计现有视频基准发现其严重缺乏对音频能力的评估,进而提出一种可扩展的语音编码器集成方案,证明在引入音频信息后,模型在涉及语音理解和跨模态对齐的任务上取得了显著提升,而纯视觉任务则未受影响。