cs.CV 篇论文 | Gist.Science

HeroGS: Hierarchical Guidance for Robust 3D Gaussian Splatting under Sparse Views

HeroGS 提出了一种统一的层级引导框架，通过在图像、特征和参数三个层面分别实施伪密集监督、特征自适应致密化与剪枝以及协同剪枝几何一致性策略，有效解决了稀疏视角下 3D 高斯泼溅重建中分布不规则、背景模糊及高频细节失真等问题，实现了高保真的三维重建。

Jiashu Li, Xumeng Han, Zhaoyang Wei + 5 more2026-03-04💻 cs

Continuous Exposure-Time Modeling for Realistic Atmospheric Turbulence Synthesis

本文提出了一种基于连续曝光时间的新型调制传递函数（ET-MTF）模型，构建了包含 5000 余段视频的大规模合成湍流数据集 ET-Turb，显著提升了大气湍流图像复原的真实感与模型泛化能力。

Junwei Zeng, Dong Liang, Sheng-Jun Huang + 2 more2026-03-04💻 cs

UETrack: A Unified and Efficient Framework for Single Object Tracking

UETrack 提出了一种统一且高效的单目标跟踪框架，通过引入基于 Token 池化的混合专家机制和目标感知自适应蒸馏策略，有效解决了多模态场景下的跟踪难题，并在多种硬件平台上实现了速度与精度的卓越平衡。

Ben Kang, Jie Zhao, Xin Chen + 5 more2026-03-04💻 cs

FACE: A Face-based Autoregressive Representation for High-Fidelity and Efficient Mesh Generation

本文提出了 FACE，一种基于面级（face-level）自回归表示的新框架，通过将每个三角形面视为单一令牌，在显著降低序列长度和计算成本的同时，实现了高保真且高效的 3D 网格生成与重建。

Hanxiao Wang, Yuan-Chen Guo, Ying-Tian Liu + 6 more2026-03-04💻 cs

InterCoG: Towards Spatially Precise Image Editing with Interleaved Chain-of-Grounding Reasoning

本文提出了 InterCoG 框架，通过引入包含空间关系推理的文本与视觉定位交替的链式推理机制，并辅以专用训练模块及 GroundEdit-45K 数据集，显著提升了复杂多实体场景下图像编辑的空间精确度。

Yecong Wan, Fan Li, Chunwei Wang + 3 more2026-03-04💻 cs

What Helps---and What Hurts: Bidirectional Explanations for Vision Transformers

该论文提出了一种名为 BiCAM 的双向类激活映射方法，通过同时保留支持性和抑制性归因信号，显著提升了 Vision Transformers 的可解释性、定位精度及对抗样本检测能力。

Qin Su, Tie Luo2026-03-04🤖 cs.AI

PromptStereo: Zero-Shot Stereo Matching via Structure and Motion Prompts

本文提出了一种名为 PromptStereo 的零样本立体匹配方法，通过设计基于单目深度基础模型解码器的提示循环单元（PRU），将单目结构提示与立体运动提示融入迭代细化过程，在保留单目先验的同时引入绝对立体尺度信息，从而实现了跨数据集的卓越零样本泛化性能。

Xianqi Wang, Hao Yang, Hangtian Wang + 4 more2026-03-04💻 cs

Nano-EmoX: Unifying Multimodal Emotional Intelligence from Perception to Empathy

本文提出了受认知启发的三层情感层次结构，并据此构建了轻量级多任务情感语言模型 Nano-EmoX 及其“从感知到共情”的渐进式训练框架，首次实现了在 22 亿参数规模下统一涵盖感知、理解与交互三个层级共六项核心情感任务，在多个基准测试中取得了卓越的性能与泛化能力。

Jiahao Huang, Fengyan Lin, Xuechao Yang + 4 more2026-03-04🤖 cs.AI

SimRecon: SimReady Compositional Scene Reconstruction from Real Videos

本文提出了 SimRecon 框架，通过引入主动视点优化和场景图合成器两个关键模块，构建了一个从感知、生成到仿真的流水线，从而实现了从真实视频中高保真且物理合理的组合式场景重建。

Chong Xia, Kai Zhu, Zizhuo Wang + 3 more2026-03-04💻 cs

OnlineX: Unified Online 3D Reconstruction and Understanding with Active-to-Stable State Evolution

本文提出了 OnlineX 框架，通过引入解耦的“从活跃到稳定”状态演化范式，解决了在线 3D 重建中的累积漂移问题，实现了仅利用流式图像即可实时、高保真地同步重建 3D 视觉外观与语言场。

Chong Xia, Fangfu Liu, Yule Wang + 2 more2026-03-04💻 cs

HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images

本文提出了 HiFi-Inpaint 框架，通过引入共享增强注意力机制和细节感知损失函数，并构建 HP-Image-40K 数据集，解决了现有方法在生成高保真、细节保留的人体 - 产品图像时面临的数据匮乏、细节丢失及监督粗糙等挑战，实现了业界领先的性能。

Yichen Liu, Donghao Zhou, Jie Wang + 9 more2026-03-04💻 cs

Forecasting as Rendering: A 2D Gaussian Splatting Framework for Time Series Forecasting

本文提出了名为 TimeGS 的新型时间序列预测框架，该框架通过将预测任务重构为基于 2D 高斯泼溅的生成渲染过程，利用多基高斯核生成与多周期连续光栅化模块解决传统方法在时序连续性建模及非平稳模式自适应方面的局限，从而在多个基准数据集上实现了最先进的性能。

Yixin Wang, Yifan Hu, Peiyuan Liu + 3 more2026-03-04🤖 cs.AI

CamDirector: Towards Long-Term Coherent Video Trajectory Editing

本文提出了 CamDirector 框架，通过混合形变方案聚合全局信息并利用历史引导的自回归扩散模型，有效解决了现有视频轨迹编辑方法在相机控制精度和长程一致性方面的不足，同时发布了 iPhone-PTZ 基准数据集并实现了少参数下的最先进性能。

Zhihao Shi, Kejia Yin, Weilin Wan + 5 more2026-03-04💻 cs

Social-JEPA: Emergent Geometric Isomorphism

该论文提出了一种名为 Social-JEPA 的框架，通过让独立智能体从不同视角学习世界模型，发现其潜在空间会自发形成近似线性等距的几何同构，从而实现了无需参数共享或额外微调的跨视角知识迁移与高效互操作。

Haoran Zhang, Youjin Wang, Yi Duan + 6 more2026-03-04🤖 cs.AI

From Visual to Multimodal: Systematic Ablation of Encoders and Fusion Strategies in Animal Identification

该研究构建了一个包含 190 万张图像的大规模数据集，通过系统消融实验确定了 SigLIP2-Giant 和 E5-Small-v2 作为最佳骨干网络，并提出利用合成文本描述增强视觉特征的门控融合多模态框架，使动物识别的 Top-1 准确率较单模态基线提升了 11%。

Vasiliy Kudryavtsev, Kirill Borodin, German Berezin + 3 more2026-03-04💻 cs

Beyond Prompt Degradation: Prototype-guided Dual-pool Prompting for Incremental Object Detection

该论文提出了一种名为 PDP 的提示解耦框架，通过设计包含共享池与私有池的双池提示解耦范式以缓解提示耦合，并引入原型伪标签生成模块以抑制提示漂移，从而在无需回放的情况下显著提升了增量目标检测的性能。

Yaoteng Zhang, Zhou Qing, Junyu Gao + 1 more2026-03-04🤖 cs.AI

AutoFFS: Adversarial Deformations for Facial Feminization Surgery Planning

本文提出了 AutoFFS 框架，利用针对预训练性别分类器的对抗性自由形态变形技术，自动生成具有目标性别特征的颅骨形态，从而为面部女性化手术提供量化且可重复的术前规划指导。

Paul Friedrich, Florentin Bieder, Florian M. Thieringer + 1 more2026-03-04⚡ eess

Loss Design and Architecture Selection for Long-Tailed Multi-Label Chest X-Ray Classification

本文针对长尾分布的多标签胸部 X 光分类挑战，在 CXR-LT 2026 基准上系统评估了损失函数、骨干架构及后训练策略，发现 LDAM-DRW 损失与 ConvNeXt-Large 架构结合能显著提升稀有类别识别性能，最终在 68 支参赛队伍中排名第 5。

Nikhileswara Rao Sulake2026-03-04⚡ eess

HAMMER: Harnessing MLLM via Cross-Modal Integration for Intention-Driven 3D Affordance Grounding

本文提出了 HAMMER 框架，通过利用多模态大语言模型（MLLM）将图像中的交互意图聚合为接触感知嵌入，并结合分层跨模态融合与多粒度几何提升模块，实现了无需显式属性描述或现成 2D 分割器的意图驱动 3D affordance 定位。

Lei Yao, Yong Chen, Yuejiao Su + 3 more2026-03-04💻 cs

Preconditioned Score and Flow Matching

该论文揭示了流匹配与基于分数的扩散模型中中间分布协方差矩阵的病态条件会导致优化偏向高方差方向并陷入次优停滞，进而提出了一种可逆的预条件映射方法，通过改善分布几何结构来消除优化停滞，从而在多个数据集上训练出更优的生成模型。

Shadab Ahamed, Eshed Gal, Simon Ghyselincks + 3 more2026-03-04🤖 cs.AI