cs.CV 篇论文 | Gist.Science

CHMv2: Improvements in Global Canopy Height Mapping using DINOv3

该论文介绍了 CHMv2，这是一个利用基于 DINOv3 的深度估计模型和海量多样化训练数据生成的全球米级分辨率冠层高度图，其在准确性、高森林偏差校正及精细结构保留方面显著优于现有产品。

John Brandt, Seungeun Yi, Jamie Tolan, Xinyuan Li, Peter Potapov, Jessica Ertel, Justine Spore, Huy V. Vo, Michaël Ramamonjisoa, Patrick Labatut, Piotr Bojanowski, Camille Couprie2026-03-09💻 cs

Prompt Group-Aware Training for Robust Text-Guided Nuclei Segmentation

该论文提出了一种提示组感知训练框架，通过将语义相关的提示组织成组并引入质量引导的正则化与对数级一致性约束，在不改变模型架构的前提下显著提升了文本引导的细胞核分割在临床病理场景中的鲁棒性与泛化能力。

Yonghuang Wu, Zhenyang Liang, Wenwen Zeng, Xuan Xie, Jinhua Yu2026-03-09🤖 cs.AI

REACT++: Efficient Cross-Attention for Real-Time Scene Graph Generation

本文提出了 REACT++，一种基于高效特征提取和原型空间跨注意力机制的新型实时场景图生成模型，它在保持物体检测性能的同时，显著提升了推理速度与关系预测准确率，实现了性能与速度的最佳平衡。

Maëlic Neau, Zoe Falomir2026-03-09💻 cs

Solving Jigsaw Puzzles in the Wild: Human-Guided Reconstruction of Cultural Heritage Fragments

该论文提出了一种人机协作框架，通过结合自动松弛标记求解器与迭代锚定及连续交互优化等策略，有效解决了大规模、高模糊度及存在破损的文化遗产碎片（如 RePAIR 基准测试）的野外拼图重建难题，其性能显著优于全自动和纯人工方法。

Omidreza Safaei, Sinem Aslan, Sebastiano Vascon, Luca Palmieri, Marina Khoroshiltseva, Marcello Pelillo2026-03-09💻 cs

DiffInf: Influence-Guided Diffusion for Supervision Alignment in Facial Attribute Learning

该论文提出了 DiffInf 框架，通过结合自影响力评分与潜在扩散模型，对导致监督不一致的高影响力面部图像样本进行生成式修正，从而在不牺牲数据分布覆盖的前提下提升属性分类性能。

Basudha Pal, Rama Chellappa2026-03-09💻 cs

Locating and Editing Figure-Ground Organization in Vision Transformers

该研究通过合成形状冲突实验发现，BEiT 模型在早期和中间层对凸凹补全存在感知模糊，而图底组织偏好最终在深层由注意力头 L0H9 主导确立，且通过下调该头可逆转模型的凸性偏好。

Stefan Arnold, René Gröbner2026-03-09💻 cs

Physical Simulator In-the-Loop Video Generation

该论文提出了物理模拟器内循环视频生成（PSIVG）框架，通过将物理模拟器与视频扩散过程相结合，利用模拟的 4D 场景轨迹引导生成过程，并辅以测试时纹理一致性优化技术，从而在保持视觉质量的同时显著提升了生成视频对重力、惯性和碰撞等基本物理定律的遵循程度。

Lin Geng Foo, Mark He Huang, Alexandros Lattas, Stylianos Moschoglou, Thabo Beeler, Christian Theobalt2026-03-09🤖 cs.AI

Non-invasive Growth Monitoring of Small Freshwater Fish in Home Aquariums via Stereo Vision

该论文提出了一种结合 YOLOv11-Pose 姿态估计与折射感知立体视觉的非侵入式方法，通过校正水族箱中空气 - 玻璃 - 水界面的折射畸变并过滤低质量检测，实现了对小型淡水鱼体长的精准监测。

Clemens Seibold, Anna Hilsmann, Peter Eisert2026-03-09💻 cs

CLoPA: Continual Low Parameter Adaptation of Interactive Segmentation for Medical Image Annotation

本文提出了 CLoPA 策略，通过在标注缓存上对 nnInteractive 模型进行轻量级的持续参数微调，无需引入新参数或改变推理流程，即可在多种医学图像分割任务中快速将零-shot 模型的性能提升至专家水平。

Parhom Esmaeili, Chayanin Tangwiriyasakul, Eli Gibson, Sebastien Ourselin, M. Jorge Cardoso2026-03-09🤖 cs.AI

What if? Emulative Simulation with World Models for Situated Reasoning

该论文提出了首个面向无需主动探索的情境推理的大规模数据集"WanderDream"，通过构建包含 1.58 万段全景视频和 15.8 万组问答对的数据集，使智能体能够利用世界模型在有限观测下通过“心理模拟”想象未来轨迹，从而有效回答空间类“如果”问题并显著提升现实场景中的推理能力。

Ruiping Liu, Yufan Chen, Yuheng Zhang, Junwei Zheng, Kunyu Peng, Chengzhi Wu, Chenguang Huang, Di Wen, Jiaming Zhang, Kailun Yang, Rainer Stiefelhagen2026-03-09💻 cs

CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization

本文提出了 CaTok，这是一种结合 MeanFlow 解码器与 REPA-A 正则化的一维因果图像分词器，旨在解决现有视觉分词方法缺乏因果性的问题，从而在 ImageNet 重建任务中实现了优于现有技术的 FID、PSNR 和 SSIM 指标，并支持高效的自回归生成。

Yitong Chen, Zuxuan Wu, Xipeng Qiu, Yu-Gang Jiang2026-03-09💻 cs

Pinterest Canvas: Large-Scale Image Generation at Pinterest

本文介绍了 Pinterest 为应对严格产品需求而构建的大规模图像生成系统 Canvas，该系统通过“基础模型预训练结合任务特定微调”的架构，在背景增强、画幅扩展等多个实际场景中显著提升了用户参与度并优于第三方模型。

Yu Wang, Eric Tzeng, Raymond Shiau, Jie Yang, Dmitry Kislyuk, Charles Rosenberg2026-03-09💻 cs

Training Flow Matching: The Role of Weighting and Parameterization

该论文通过系统性数值研究，深入分析了去噪生成模型（特别是流匹配）中损失加权与输出参数化（如噪声、清晰图像及速度）的选择如何与数据流形内在维度、模型架构及数据集规模相互作用，旨在厘清关键训练因素并为设计决策提供实用见解。

Anne Gagneux, Ségolène Martin, Rémi Gribonval, Mathurin Massias2026-03-09💻 cs

Do Foundation Models Know Geometry? Probing Frozen Features for Continuous Physical Measurement

该论文通过探针实验证明，冻结的视觉 - 语言模型底层特征中蕴含的连续几何信息远超其文本输出能力，且这种“表示 - 表达”差距源于训练路径而非表征缺失，不同架构的编码器虽表征相似性低却实现了功能收敛，表明无需微调即可利用冻结骨干网络作为多任务几何传感器。

Yakov Pyotr Shkolnikov2026-03-09🤖 cs.AI

GreenRFM: Toward a resource-efficient radiology foundation model

本文提出了名为 GreenRFM 的资源高效放射学基础模型预训练框架，通过创新的“更多蒸馏、无处不在、语义强化及任务对齐（MUST）”监督设计，在显著降低计算资源需求（仅需单张消费级显卡）的同时实现了超越现有复杂模型的性能，并证明了其在不同模态和机构数据上的泛化能力。

Yingtai Li, Shuai Ming, Mingyue Zhao, Haoran Lai, Rongsheng Wang, Rui Zhou, Rundong Wang, Yujia Li, Wei Wei, Shaohua Kevin Zhou2026-03-09💻 cs

Match4Annotate: Propagating Sparse Video Annotations via Implicit Neural Feature Matching

Match4Annotate 提出了一种轻量级框架，通过测试时拟合基于 SIREN 的隐式神经表示来传播稀疏视频标注，有效解决了医学影像等特定领域中跨视频与视频内点及掩码标注的泛化与平滑难题，并在临床超声数据集上实现了最先进的性能。

Zhuorui Zhang, Roger Pallarès-López, Praneeth Namburi, Brian W. Anthony2026-03-09💻 cs

Self-Supervised Flow Matching for Scalable Multi-Modal Synthesis

该论文提出了名为 Self-Flow 的自监督流匹配范式，通过双时间步调度机制在生成框架内强制模型学习强语义表征，从而摆脱对外部模型的依赖，实现了跨模态的扩展性训练及更优的多模态生成效果。

Hila Chefer, Patrick Esser, Dominik Lorenz, Dustin Podell, Vikash Raja, Vinh Tong, Antonio Torralba, Robin Rombach2026-03-09✓ Author reviewed ⓘ💻 cs

SG-DOR: Learning Scene Graphs with Direction-Conditioned Occlusion Reasoning for Pepper Plants

本文提出了 SG-DOR 框架，通过构建包含方向条件遮挡推理的场景图，有效识别密集胡椒植株中遮挡目标果实的器官，从而为机器人采摘规划提供关键的结构化关系信号。

Rohit Menon, Niklas Mueller-Goldingen, Sicong Pan, Gokul Krishna Chenchani, Maren Bennewitz2026-03-09💻 cs

Artificial Intelligence for Detecting Fetal Orofacial Clefts and Advancing Medical Education

该研究提出了一种基于超过 4.5 万张超声图像训练的人工智能系统，其诊断胎儿口面裂的准确率媲美资深放射科医生，不仅能显著提升初级医生的诊断敏感性，还能加速罕见病临床专家的培养，为医疗资源匮乏地区提供了兼顾精准诊断与专业教育的可扩展解决方案。

Yuanji Zhang, Yuhao Huang, Haoran Dou, Xiliang Zhu, Chen Ling, Zhong Yang, Lianying Liang, Jiuping Li, Siying Liang, Rui Li, Yan Cao, Yuhan Zhang, Jiewei Lai, Yongsong Zhou, Hongyu Zheng, Xinru Gao, Cheng Yu, Liling Shi, Mengqin Yuan, Honglong Li, Xiaoqiong Huang, Chaoyu Chen, Jialin Zhang, Wenxiong Pan, Alejandro F. Frangi, Guangzhi He, Xin Yang, Yi Xiong, Linliang Yin, Xuedong Deng, Dong Ni2026-03-09🤖 cs.AI

SCAN: Visual Explanations with Self-Confidence and Analysis Networks

本文提出了一种名为 SCAN 的通用框架，该框架基于自编码器重构中间层特征并受信息瓶颈原理指导，能够生成高分辨率的高置信度热力图，从而在保持高保真度的同时解决现有视觉解释方法在架构通用性与解释清晰度之间的权衡难题。

Gwanghee Lee, Sungyoon Jeong, Kyoungson Jhang2026-03-09💻 cs