cs.CV 篇论文 | Gist.Science

Phys4D: Fine-Grained Physics-Consistent 4D Modeling from Video Diffusion

本文提出了 Phys4D，一种通过三阶段训练范式（包括大规模伪监督预训练、基于仿真的监督微调及强化学习）将视频扩散模型转化为物理一致 4D 世界表示的方法，显著提升了生成内容在细粒度时空动态与物理合理性方面的表现。

Haoran Lu, Shang Wu, Jianshu Zhang + 9 more2026-03-05🤖 cs.AI

Geographically-Weighted Weakly Supervised Bayesian High-Resolution Transformer for 200m Resolution Pan-Arctic Sea Ice Concentration Mapping and Uncertainty Estimation using Sentinel-1, RCM, and AMSR2 Data

本研究提出了一种地理加权弱监督贝叶斯高分辨率 Transformer 模型，通过融合 Sentinel-1、RCM 和 AMSR2 多源数据，实现了 200 米分辨率的泛北极海冰密集度制图及其不确定性量化，有效克服了特征细微、标签不精确及数据异质性挑战。

Mabel Heffring, Lincoln Linlin Xu2026-03-05🤖 cs.LG

PhyPrompt: RL-based Prompt Refinement for Physically Plausible Text-to-Video Generation

本文提出了 PhyPrompt，一种基于强化学习的两阶段提示词优化框架，通过物理思维链微调与动态奖励课程策略，在仅使用 7B 参数模型的情况下显著提升了文本生成视频的物理合理性，同时兼顾语义忠实度并超越了更大规模的通用模型。

Shang Wu, Chenwei Xu, Zhuofan Xia + 6 more2026-03-05🤖 cs.AI

PinCLIP: Large-scale Foundational Multimodal Representation at Pinterest

本文介绍了 Pinterest 为解决多模态推荐与检索挑战而提出的 PinCLIP 模型，该模型通过创新的混合视觉 Transformer 架构及邻居对齐目标，在离线评估中显著超越现有基线，并在在线测试中有效提升了用户参与度及新内容的冷启动分发效果。

Josh Beal, Eric Kim, Jinfeng Rao + 3 more2026-03-05💻 cs

Modeling Cross-vision Synergy for Unified Large Vision Model

本文提出了名为 PolyV 的统一大视觉模型，通过稀疏混合专家架构与协同感知训练范式，实现了跨模态（图像、视频、3D）的深层协同推理，并在多项基准测试中显著超越了现有模型。

Shengqiong Wu, Lanhu Wu, Mingyang Bao + 5 more2026-03-05💻 cs

Confidence-aware Monocular Depth Estimation for Minimally Invasive Surgery

本文提出了一种面向微创手术的置信度感知单目深度估计框架，通过利用集成立体匹配模型生成校准置信度目标、设计置信度感知损失函数以及引入推理阶段置信度预测头，有效解决了内窥镜图像噪声干扰问题，显著提升了深度估计精度并实现了预测可靠性的量化评估。

Muhammad Asad, Emanuele Colleoni, Pritesh Mehta + 7 more2026-03-05💻 cs

From Local Matches to Global Masks: Novel Instance Detection in Open-World Scenes

本文提出了 L2G-Det 框架，通过利用模板与查询图像间的密集局部匹配生成候选点，并以此引导增强版 Segment Anything Model（SAM）进行实例特定提示，从而在无需显式物体提议的情况下，实现了对开放世界场景中遮挡和杂乱背景下新颖物体实例的鲁棒检测与分割。

Qifan Zhang, Sai Haneesh Allu, Jikai Wang + 2 more2026-03-05💻 cs

Spectrum Shortage for Radio Sensing? Leveraging Ambient 5G Signals for Human Activity Detection

本文提出了一种名为“环境无线电感知”（ARS）的新型集成感知与通信方案，通过利用现有的 5G 等环境通信信号进行被动式感知，结合自混频射频硬件架构与跨模态学习框架，在无需占用额外频谱资源的前提下实现了高精度的人体活动检测与骨架估计。

Kunzhe Song, Maxime Zingraff, Huacheng Zeng2026-03-05💻 cs

An Effective Data Augmentation Method by Asking Questions about Scene Text Images

本文提出了一种受视觉问答启发的数据增强框架，通过为场景文本图像生成基于字符属性的自然语言问答任务，引导 OCR 模型进行细粒度推理，从而在 WordArt 和 Esposalles 数据集上显著降低了字符错误率和词错误率。

Xu Yao, Lei Kang2026-03-05💻 cs

Hazard-Aware Traffic Scene Graph Generation

该论文提出了一种名为“交通场景图生成”的新任务及框架，通过融合交通事故数据与深度线索来增强视觉特征，旨在生成能够直观标注关键危害严重程度、作用机制及相对位置的交通场景图，从而提升自动驾驶在复杂场景下的以自我为中心的危害感知与推理能力。

Yaoqi Huang, Julie Stephany Berrio, Mao Shan + 1 more2026-03-05💻 cs

DM-CFO: A Diffusion Model for Compositional 3D Tooth Generation with Collision-Free Optimization

本文提出了一种名为 DM-CFO 的扩散模型方法，通过结合文本与图约束逐步恢复缺失牙齿布局，并利用基于 3D 高斯的碰撞正则化项优化几何参数，从而实现了高质量且无碰撞的复合式 3D 牙齿生成。

Yan Tian, Pengcheng Xue, Weiping Ding + 5 more2026-03-05💻 cs

Detection and Identification of Penguins Using Appearance and Motion Features

本文提出了一种结合外观与运动特征的企鹅检测与识别框架，通过改进 YOLO11 利用连续帧提升检测精度，并采用基于轨迹的对比学习方法优化个体识别，有效解决了企鹅在复杂环境下的同质化外观、频繁姿态变化及环境噪声干扰等挑战。

Kasumi Seko, Hiroki Kinoshita, Raj Rajeshwar Malinda + 1 more2026-03-05💻 cs

Tracking Feral Horses in Aerial Video Using Oriented Bounding Boxes

本文针对航拍视频中马群跟踪时轴对齐边界框性能不足及现有旋转边界框无法区分头尾导致跟踪中断的问题，提出了一种基于头部朝向估计与 IoU 多数投票的改进方法，显著提升了旋转边界框跟踪的鲁棒性。

Saeko Takizawa, Tamao Maeda, Shinya Yamamoto + 1 more2026-03-05💻 cs

Parallax to Align Them All: An OmniParallax Attention Mechanism for Distributed Multi-View Image Compression

本文提出了首个分布式多视图图像压缩框架 ParaHydra，通过引入通用的 OmniParallax 注意力机制（OPAM）和自适应多源信息融合模块（PMIFM），在无需编码器端交互信息的前提下，显著超越了现有联合压缩方法的性能并大幅降低了计算开销。

Haotian Zhang, Feiyue Long, Yixin Yu + 7 more2026-03-05💻 cs

LeafInst - Unified Instance Segmentation Network for Fine-Grained Forestry Leaf Phenotype Analysis: A New UAV based Benchmark

本文针对开放环境下杨树幼苗叶片细粒度表型分析的挑战，构建了首个无人机林业叶片实例分割基准数据集 Poplar-leaf，并提出了集成多尺度感知与不规则形状建模能力的 LeafInst 网络，在多项基准测试中显著优于现有主流模型。

Taige Luo, Junru Xie, Chenyang Fan + 5 more2026-03-05💻 cs

cs.CV