UniTS: Unified Spatio-Temporal Generative Model for Remote Sensing
本文提出了名为 UniTS 的统一时空生成模型,该模型基于流匹配范式,通过自适应条件注入器和时空感知调制器,将遥感领域的时间序列重建、去云、语义变化检测及预测等多个核心任务整合到一个通用框架中,并在各种复杂条件下显著超越了现有的专用模型。
2768 篇论文
本文提出了名为 UniTS 的统一时空生成模型,该模型基于流匹配范式,通过自适应条件注入器和时空感知调制器,将遥感领域的时间序列重建、去云、语义变化检测及预测等多个核心任务整合到一个通用框架中,并在各种复杂条件下显著超越了现有的专用模型。
该论文提出了一种基于点云框架的事件驱动人体姿态估计方法,通过设计事件时间切片卷积与序列模块以及边缘增强表示,有效利用事件流的时空特性,在保持计算效率的同时显著提升了在稀疏事件条件下的姿态估计精度。
本文提出了 DFIR-DETR,一种通过动态内容特征聚合(DCFA)、动态特征金字塔网络(DFPN)和频域迭代细化模块(FIRC3)来分别解决注意力分配不均、上采样细节丢失及高频边缘平滑问题的 Transformer 检测器,在 NEU-DET 和 VisDrone 数据集上以轻量级架构实现了显著的小目标检测性能提升。
本文提出了 Fast-BEV++ 框架,通过采用面向硬件的索引 - 收集 - 重塑流水线架构及可学习深度模块,在消除自定义算子依赖的同时实现了 3 倍以上的推理加速,从而在 nuScenes 基准测试中达到 0.488 NDS 的 SOTA 精度并支持超过 134 FPS 的实时部署。
该论文针对现有基于子集选择的视觉解释方法在分布外(OOD)场景下可靠性下降的问题,提出了一种结合子模优化与不确定性估计的无训练框架,通过自适应权重扰动引导子集选择,显著提升了模型在分布偏移下的鲁棒性与解释忠实度。
Photo3D 提出了一种利用 GPT-4o 生成图像并经由结构对齐多视图合成与细节增强方案构建高质量数据集的框架,旨在解决真实世界 3D 资产稀缺难题,从而显著提升各类原生 3D 生成模型的几何结构与纹理细节的逼真度。
该论文提出了一种高度模块化的神经图像信号处理(ISP)框架,通过完全基于学习的方法实现了对渲染过程中间阶段的灵活控制,从而在提升渲染精度、可扩展性及风格适配能力的同时,支持了可无限次重渲染的交互式照片编辑工具。
本文提出了一种针对 CT 影像的新型基于补丁的拓扑数据分析(TDA)方法,通过构建持久同调特征,在分类性能(如准确率、AUC 等指标平均提升 2.7% 至 8.0%)和计算效率上均显著优于传统的 3D 立方复形算法及放射组学特征,并发布了配套的 Python 工具包 Patch-TDA。
该论文提出了 VTP 统一预训练框架,通过联合优化图像 - 文本对比、自监督和重建损失,解决了视觉 Tokenizer 预训练中的扩展性难题,证明了高语义理解能力是提升生成质量的关键,并实现了生成性能随计算资源有效扩展的突破。
该论文通过深入分析并改进交叉注意力机制,证明了其在视觉语言模型中不仅能实现与直接插入图像令牌相当的性能,还能显著降低长序列多图像对话及实时视频处理中的显存与计算开销。
该论文提出了一种轻量级视频历史编码器,通过预训练帧查询目标实现长视频历史的高效压缩,并在微调阶段适配自回归生成任务,从而在有限计算资源下实现了与重型模型相当的内容一致性表现。
本文提出了名为 Spatial4D-Bench 的大规模、多样化 4D 空间智能基准,旨在通过涵盖 18 种任务和 6 个认知类别的约 4 万组问答对,全面评估多模态大语言模型在 4D 空间推理方面的能力并揭示其当前局限性。
本文提出了名为 MDENeRF 的迭代框架,通过贝叶斯融合将单目深度估计的全局结构与基于神经辐射场(NeRF)的体渲染不确定性所提取的高频几何细节相结合,从而有效提升了室内场景的深度图精细度。
本文提出了名为 FlyPose 的轻量级自上而下人体姿态估计框架,通过多数据集训练显著提升了无人机航拍视角下的人员检测与姿态估计精度,并在 Jetson Orin 平台上实现了约 20 毫秒的低延迟实时推理,同时发布了包含困难视角标注的 FlyPose-104 数据集。
该论文提出了一种无需预先知道信号稀疏度的分级快速硬阈值追踪算法(GFHTP),通过量化截断步长优化 损失,实现了在存在离群点且无稀疏先验条件下稀疏信号的精确恢复,并证明了其理论收敛性及在鲁棒性和计算效率上优于现有方法。
SpatialMem 提出了一种以记忆为核心的系统,利用度量 3D 空间作为可解释的索引支架,从单目 RGB 视频构建分层记忆以支持长程、语言引导的室内场景检索、问答及离线导航任务。
本文提出了 OnlineSI 框架,通过维护固定大小的空间记忆并融合 3D 点云与语义信息,使多模态大语言模型能够在视频流中持续进行在线 3D 理解与定位,从而为真实世界的具身系统部署奠定基础。
本文提出了 SRA 2,一种利用预训练 VAE 特征通过轻量级投影层对齐扩散 Transformer 中间潜在特征的内在指导框架,旨在无需外部编码器或双模型设置的情况下,显著加速扩散模型的训练收敛并提升生成质量。
本文提出了 FARTrack,一种通过任务特定自蒸馏和帧间自回归稀疏化技术,在保持高跟踪性能(如在 GOT-10k 上达到 70.6% 的 AO)的同时实现实时高速推理(GPU 上达 343 FPS)的自回归视觉跟踪框架。
本文提出了 SpatialReward,一种通过显式空间推理和像素级证据锚定来解决在线强化学习中“注意力坍塌”感知差距的奖励模型,该模型在多个基准测试中达到最先进水平,并显著提升了图像编辑模型 OmniGen2 的性能。