cs.CV 篇论文 | Gist.Science

PROFusion: Robust and Accurate Dense Reconstruction via Camera Pose Regression and Optimization

PROFusion 提出了一种结合基于学习的相机位姿回归初始化与基于优化的深度图细化方法，成功解决了现有 RGB-D SLAM 系统在相机剧烈运动或不稳定状态下难以实现实时、鲁棒且高精度稠密重建的难题。

Siyan Dong, Zijun Wang, Lulu Cai + 2 more2026-03-04💻 cs

Proxy-GS: Unified Occlusion Priors for Training and Inference in Structured 3D Gaussian Splatting

本文提出了 Proxy-GS，一种利用快速代理系统生成精确遮挡深度图的新颖流程，旨在通过增强高斯原点的遮挡感知能力，在训练阶段引导致密化并优化遮挡区域，在推理阶段实现锚点剔除，从而在显著提升渲染质量的同时大幅降低计算开销。

Yuanyuan Gao, Yuning Gong, Yifei Liu + 6 more2026-03-04💻 cs

EchoGen: Generating Visual Echoes in Any Scene via Feed-Forward Subject-Driven Auto-Regressive Model

EchoGen 是首个基于视觉自回归（VAR）模型的前馈式主体驱动生成框架，它通过独特的双路径注入策略解耦主体语义与细节，在保持与扩散模型相当生成质量的同时，显著降低了推理延迟并实现了零样本高效生成。

Ruixiao Dong, Zhendong Wang, Keli Liu + 5 more2026-03-04💻 cs

TTT3R: 3D Reconstruction as Test-Time Training

本文提出了名为 TTT3R 的免训练测试时训练方法，通过利用记忆状态与观测数据间的对齐置信度推导闭式学习率来优化 3D 重建基础模型的记忆更新，从而在保持高效推理的同时显著提升了模型在长序列场景下的长度泛化能力。

Xingyu Chen, Yue Chen, Yuliang Xiu + 2 more2026-03-04💻 cs

BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration

BindWeave 提出了一种基于 MLLM-DiT 的统一框架，通过多模态大语言模型进行深度跨模态推理以精准解析复杂提示词中的实体关系，从而实现了从单主体到多主体场景的高保真且主体一致的视频生成。

Zhaoyang Li, Dongjun Qian, Kai Su + 6 more2026-03-04💻 cs

Arbitrary Generative Video Interpolation

本文提出了 ArbInterp 框架，通过引入时间感知旋转位置编码（TaRoPE）和外观 - 运动解耦的条件策略，实现了能够灵活生成任意时间点及任意长度中间帧的高效视频插值方法，显著提升了多尺度插值任务中的保真度与时空连贯性。

Guozhen Zhang, Haiguang Wang, Chunyu Wang + 3 more2026-03-04💻 cs

D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI

该论文提出了 D2E 框架，通过利用大规模桌面游戏数据（包括人类演示和伪标签数据）预训练通用视觉 - 动作模型，成功实现了向真实世界具身 AI 任务（如机械臂操作和导航）的高效迁移，其 10 亿参数模型在性能上媲美甚至超越了参数量大 7 倍的现有模型。

Suhwan Choi, Jaeyoon Jung, Haebin Seong + 7 more2026-03-04🤖 cs.AI

Human3R: Everyone Everywhere All at Once

本文提出了 Human3R，一种基于 CUT3R 架构的轻量级统一前馈框架，仅需单张 GPU 在 BEDLAM 合成数据上训练一天，即可从单目视频中实时（15 FPS）一次性重建全局多人体 SMPL-X 模型、稠密 3D 场景及相机轨迹，无需依赖多阶段流水线或外部预处理模块。

Yue Chen, Xingyu Chen, Yuxuan Xue + 3 more2026-03-04💻 cs

MIRAGE: Runtime Scheduling for Multi-Vector Image Retrieval with Hierarchical Decomposition

本文提出了 MIRAGE 框架，通过引入多层次细粒度对齐范式、利用跨层级相似性一致性消除冗余计算，并实现参数自动配置，从而在显著提升多向量图像检索精度的同时，将计算开销降低了高达 3.5 倍。

Maoliang Li, Ke Li, Yaoyang Liu + 5 more2026-03-04💻 cs

Reasoning as Representation: Rethinking Visual Reinforcement Learning in Image Quality Assessment

本文揭示了基于强化学习的视觉推理模型通过将冗余视觉表征转化为紧凑的跨域文本表征来实现泛化，并据此提出了 RALI 算法，利用对比学习直接对齐图像与这些文本表征，从而在无需加载大语言模型或执行推理过程的情况下，以极低的参数量和推理时间实现了与推理模型相当的泛化性能。

Shijie Zhao, Xuanyu Zhang, Weiqi Li + 4 more2026-03-04💻 cs

Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs

该研究利用机制可解释性技术揭示了视频大语言模型（VideoLLMs）内部信息流动的隐藏模式，阐明了其从跨帧交互到视频 - 语言融合再到答案生成的时序推理机制，并发现模型通过抑制大量注意力边来保留关键信息路径以维持性能。

Minji Kim, Taekyung Kim, Bohyung Han2026-03-04💻 cs

Self-Aug: Query and Entropy Adaptive Decoding for Large Vision-Language Models

本文提出了一种名为 Self-Aug 的无需训练的解码策略，通过利用模型内在知识实现查询自适应的语义对齐增强，并结合基于熵的自适应阈值算法动态调整候选词规模，从而显著提升了大型视觉 - 语言模型生成的事实一致性。

Eun Woo Im, Muhammad Kashif Ali, Vivek Gupta2026-03-04🤖 cs.AI

Inpainting the Red Planet: Diffusion Models for the Reconstruction of Martian Environments in Virtual Reality

本文提出了一种基于无条件扩散模型的火星地形重建方法，通过非均匀重缩放策略处理 NASA HiRISE 数据，在填补卫星高度图缺失值方面显著优于传统插值算法，有效提升了虚拟现实中火星环境模拟的几何一致性与感知相似度。

Giuseppe Lorenzo Catalano, Agata Marta Soccini2026-03-04🤖 cs.AI

CASR-Net: An Image Processing-focused Deep Learning-based Coronary Artery Segmentation and Refinement Network for X-ray Coronary Angiogram

本文提出了一种名为 CASR-Net 的深度学习网络，通过结合多通道预处理、基于 Self-ONN 解码器的 UNet 分割架构以及轮廓细化模块，显著提升了 X 射线冠状动脉造影图像中狭窄血管的分割精度与连续性，为冠心病的早期诊断提供了有力的自动化工具。

Alvee Hassan, Rusab Sarmun, Muhammad E. H. Chowdhury + 4 more2026-03-04🤖 cs.AI

cs.CV