Spatial4D-Bench: A Versatile 4D Spatial Intelligence Benchmark
本文提出了名为 Spatial4D-Bench 的大规模、多样化 4D 空间智能基准,旨在通过涵盖 18 种任务和 6 个认知类别的约 4 万组问答对,全面评估多模态大语言模型在 4D 空间推理方面的能力并揭示其当前局限性。
2177 篇论文
本文提出了名为 Spatial4D-Bench 的大规模、多样化 4D 空间智能基准,旨在通过涵盖 18 种任务和 6 个认知类别的约 4 万组问答对,全面评估多模态大语言模型在 4D 空间推理方面的能力并揭示其当前局限性。
本文提出了名为 MDENeRF 的迭代框架,通过贝叶斯融合将单目深度估计的全局结构与基于神经辐射场(NeRF)的体渲染不确定性所提取的高频几何细节相结合,从而有效提升了室内场景的深度图精细度。
本文提出了名为 FlyPose 的轻量级自上而下人体姿态估计框架,通过多数据集训练显著提升了无人机航拍视角下的人员检测与姿态估计精度,并在 Jetson Orin 平台上实现了约 20 毫秒的低延迟实时推理,同时发布了包含困难视角标注的 FlyPose-104 数据集。
该论文提出了一种无需预先知道信号稀疏度的分级快速硬阈值追踪算法(GFHTP),通过量化截断步长优化 损失,实现了在存在离群点且无稀疏先验条件下稀疏信号的精确恢复,并证明了其理论收敛性及在鲁棒性和计算效率上优于现有方法。
SpatialMem 提出了一种以记忆为核心的系统,利用度量 3D 空间作为可解释的索引支架,从单目 RGB 视频构建分层记忆以支持长程、语言引导的室内场景检索、问答及离线导航任务。
本文提出了 OnlineSI 框架,通过维护固定大小的空间记忆并融合 3D 点云与语义信息,使多模态大语言模型能够在视频流中持续进行在线 3D 理解与定位,从而为真实世界的具身系统部署奠定基础。
本文提出了 SRA 2,一种利用预训练 VAE 特征通过轻量级投影层对齐扩散 Transformer 中间潜在特征的内在指导框架,旨在无需外部编码器或双模型设置的情况下,显著加速扩散模型的训练收敛并提升生成质量。
本文提出了 FARTrack,一种通过任务特定自蒸馏和帧间自回归稀疏化技术,在保持高跟踪性能(如在 GOT-10k 上达到 70.6% 的 AO)的同时实现实时高速推理(GPU 上达 343 FPS)的自回归视觉跟踪框架。
本文提出了 SpatialReward,一种通过显式空间推理和像素级证据锚定来解决在线强化学习中“注意力坍塌”感知差距的奖励模型,该模型在多个基准测试中达到最先进水平,并显著提升了图像编辑模型 OmniGen2 的性能。
该论文提出了(MGS)-Net 框架,通过引入利用深度先验的微几何尺度适应模块和基于膨胀几何梯度的宏几何结构过滤模块,有效解决了跨视角地理定位中因视角差异导致的几何失配问题,从而在多个基准数据集上实现了最先进的性能。
本文介绍了 MiDAS,这是一个开源且与平台无关的多模态数据采集系统,它能够在无需专有机器人接口的情况下,通过非侵入式方式实现手术机器人(如 Raven-II 和 da Vinci Xi)的时间同步多模态数据采集,并发布了包含疝修补缝合任务的首个多模态数据集。
本文提出了 DAV-GSWT 框架,通过结合扩散模型先验与主动视角采样技术,实现了仅需少量输入观测即可生成高质量高斯泼溅瓦片,从而显著降低了大规模虚拟环境构建的数据需求。
该论文提出了 RobSelf 模型,通过在线联合优化感知错位特征的翻译器与内容感知的参考滤波器,在无需真实配对数据的情况下实现了针对真实世界错位观测的鲁棒跨模态超分辨率,并在性能与效率上均优于现有方法。
UrbanAlign 提出了一种无需修改模型权重的后处理语义校准框架,通过自动挖掘可解释维度、构建“观察者 - 辩论者 - 裁判”链提取概念分数,并利用局部加权岭回归将冻结视觉语言模型的概念提取能力校准为人类偏好,从而在 Place Pulse 2.0 数据集的城市感知任务中显著超越了现有基线。
该论文通过系统探测视觉基础模型,发现 DINO 编码的几何结构与 Flux 生成的交互先验是构成 affordance(功能 affordance)理解的互补要素,并证明通过零样本融合这两者即可实现媲美弱监督方法的 affordance 估计。
StoryTailor 是一个在单张 RTX 4090 上运行的零样本流水线,通过高斯中心注意力、动作增强奇异值重加权及选择性遗忘缓存三大协同模块,实现了无需微调即可生成动作忠实、主体一致且背景连贯的多帧视觉叙事。
本文提出了专为评估视频基础模型而设计的 UniVBench 基准,通过引入包含 200 个高质量多镜头视频及 UniV-Eval 统一智能评估系统,首次实现了对视频理解、生成、编辑及新提出的重建任务这四大核心能力的综合、公平且可扩展的评估。
本文提出了一种结合几何先验的图神经网络自编码器方法,通过引入可微分的冷冻电镜前向模型和几何正则化,实现了在未知取向下对蛋白质构象异质性的高精度三维重建。
该论文提出了名为 DPCache 的免训练加速框架,通过将扩散模型采样加速建模为全局路径规划问题,利用动态规划从校准集中构建路径感知成本张量以自动选择最优关键时间步序列,从而在显著减少计算开销的同时有效避免误差累积并提升生成质量。
本文提出了大规模合成视频场景图数据集 SVG2 及其配套的生成模型 TRaSER,通过全自动流水线构建包含数百万对象与关系的时空图数据,并利用轨迹对齐机制显著提升了视频场景图生成及视频问答任务的性能。