PROFusion: Robust and Accurate Dense Reconstruction via Camera Pose Regression and Optimization
PROFusion 提出了一种结合基于学习的相机位姿回归初始化与基于优化的深度图细化方法,成功解决了现有 RGB-D SLAM 系统在相机剧烈运动或不稳定状态下难以实现实时、鲁棒且高精度稠密重建的难题。
6946 篇论文
PROFusion 提出了一种结合基于学习的相机位姿回归初始化与基于优化的深度图细化方法,成功解决了现有 RGB-D SLAM 系统在相机剧烈运动或不稳定状态下难以实现实时、鲁棒且高精度稠密重建的难题。
本文提出了 Proxy-GS,一种利用快速代理系统生成精确遮挡深度图的新颖流程,旨在通过增强高斯原点的遮挡感知能力,在训练阶段引导致密化并优化遮挡区域,在推理阶段实现锚点剔除,从而在显著提升渲染质量的同时大幅降低计算开销。
EchoGen 是首个基于视觉自回归(VAR)模型的前馈式主体驱动生成框架,它通过独特的双路径注入策略解耦主体语义与细节,在保持与扩散模型相当生成质量的同时,显著降低了推理延迟并实现了零样本高效生成。
本文提出了名为 TTT3R 的免训练测试时训练方法,通过利用记忆状态与观测数据间的对齐置信度推导闭式学习率来优化 3D 重建基础模型的记忆更新,从而在保持高效推理的同时显著提升了模型在长序列场景下的长度泛化能力。
BindWeave 提出了一种基于 MLLM-DiT 的统一框架,通过多模态大语言模型进行深度跨模态推理以精准解析复杂提示词中的实体关系,从而实现了从单主体到多主体场景的高保真且主体一致的视频生成。
本文提出了 ArbInterp 框架,通过引入时间感知旋转位置编码(TaRoPE)和外观 - 运动解耦的条件策略,实现了能够灵活生成任意时间点及任意长度中间帧的高效视频插值方法,显著提升了多尺度插值任务中的保真度与时空连贯性。
该论文提出了 D2E 框架,通过利用大规模桌面游戏数据(包括人类演示和伪标签数据)预训练通用视觉 - 动作模型,成功实现了向真实世界具身 AI 任务(如机械臂操作和导航)的高效迁移,其 10 亿参数模型在性能上媲美甚至超越了参数量大 7 倍的现有模型。
本文提出了 Human3R,一种基于 CUT3R 架构的轻量级统一前馈框架,仅需单张 GPU 在 BEDLAM 合成数据上训练一天,即可从单目视频中实时(15 FPS)一次性重建全局多人体 SMPL-X 模型、稠密 3D 场景及相机轨迹,无需依赖多阶段流水线或外部预处理模块。
本文提出了 MIRAGE 框架,通过引入多层次细粒度对齐范式、利用跨层级相似性一致性消除冗余计算,并实现参数自动配置,从而在显著提升多向量图像检索精度的同时,将计算开销降低了高达 3.5 倍。
本文揭示了基于强化学习的视觉推理模型通过将冗余视觉表征转化为紧凑的跨域文本表征来实现泛化,并据此提出了 RALI 算法,利用对比学习直接对齐图像与这些文本表征,从而在无需加载大语言模型或执行推理过程的情况下,以极低的参数量和推理时间实现了与推理模型相当的泛化性能。
该研究利用机制可解释性技术揭示了视频大语言模型(VideoLLMs)内部信息流动的隐藏模式,阐明了其从跨帧交互到视频 - 语言融合再到答案生成的时序推理机制,并发现模型通过抑制大量注意力边来保留关键信息路径以维持性能。
本文提出了一种名为 Self-Aug 的无需训练的解码策略,通过利用模型内在知识实现查询自适应的语义对齐增强,并结合基于熵的自适应阈值算法动态调整候选词规模,从而显著提升了大型视觉 - 语言模型生成的事实一致性。
本文提出了一种基于无条件扩散模型的火星地形重建方法,通过非均匀重缩放策略处理 NASA HiRISE 数据,在填补卫星高度图缺失值方面显著优于传统插值算法,有效提升了虚拟现实中火星环境模拟的几何一致性与感知相似度。
本文提出了一种名为 CASR-Net 的深度学习网络,通过结合多通道预处理、基于 Self-ONN 解码器的 UNet 分割架构以及轮廓细化模块,显著提升了 X 射线冠状动脉造影图像中狭窄血管的分割精度与连续性,为冠心病的早期诊断提供了有力的自动化工具。
本文提出了 Kinematify 框架,该框架能够仅凭任意 RGB 图像或文本描述,通过结合蒙特卡洛树搜索与几何驱动优化,自动合成具有物理一致性和功能有效性的高自由度可动物体模型,从而克服了现有方法对运动序列或人工数据集的依赖。
本文提出了名为 DetGain 的在线数据筛选方法,通过估算图像对数据集平均精度(AP)的边际贡献来动态选择训练样本,从而在多种目标检测架构上实现了精度提升、低质数据鲁棒性增强以及与知识蒸馏技术的兼容。
本文提出了 PrismAudio 框架,通过引入分解式思维链(CoT)与多维奖励机制解决视频生成音频中的目标纠缠问题,并借助 Fast-GRPO 优化训练效率及 AudioCanvas 基准测试,实现了在语义一致性、时空同步性、美学质量和空间准确性四个维度上的最先进性能。
本文提出了基于马尔可夫尺度预测的 Markov-VAR 模型,通过将视觉自回归生成重构为非全上下文马尔可夫过程并利用滑动窗口压缩历史信息,在显著降低计算开销和显存占用的同时,实现了比现有 VAR 模型更优的生成性能。
本文提出了名为 ALARM 的框架,该框架通过集成不确定性量化、推理链、自我反思及多模型集成等质量保障技术,利用多模态大语言模型在复杂环境中实现了具备高可靠性的视觉异常检测。
该论文提出了一种名为 SSMP 的新方法,通过自-paced 掩码预测和渐进式自纠正机制,利用双向上下文建模克服了现有“先选后排”范式的误差传播问题,在电影预告片自动生成任务中取得了最先进的效果。