cs.CV 篇论文 | Gist.Science

P-SLCR: Unsupervised Point Cloud Semantic Segmentation via Prototypes Structure Learning and Consistent Reasoning

该论文提出了一种名为 P-SLCR 的无监督点云语义分割方法，通过一致性结构学习与语义关系一致性推理机制，在 S3DIS 等数据集上实现了超越经典全监督 PointNet 的最优性能。

Lixin Zhan, Jie Jiang, Tianjian Zhou, Yukun Du, Yan Zheng, Xuehu Duan2026-03-09💻 cs

The Art That Poses Back: Assessing AI Pastiches after Contemporary Artworks

该研究通过邀请多国艺术家评估 ChatGPT 生成的当代艺术作品仿作，发现 AI 在色彩纹理上虽能模仿，却在构图、概念及情感维度上存在显著缺失，因此主张采用多维度的“风格转移仪表盘”而非单一指标来评估此类仿作。

Anca Dinu, Andreiana Mihail, Andra-Maria Florescu, Claudiu Creanga2026-03-09💬 cs.CL

WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching

该论文提出了 WorldCache 框架，通过引入基于曲率的异构令牌预测和混沌优先自适应跳过机制，有效解决了扩散世界模型中因多模态耦合与非均匀时序动态导致的加速难题，在保持 98% rollout 质量的同时实现了高达 3.7 倍的端到端推理加速。

Weilun Feng, Guoxin Fan, Haotong Qin, Chuanguang Yang, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Dingrui Wang, Longlong Liao, Michele Magno, Yongjun Xu2026-03-09💻 cs

K-MaT: Knowledge-Anchored Manifold Transport for Cross-Modal Prompt Learning in Medical Imaging

本文提出了 K-MaT（知识锚定流形传输）框架，通过结合临床文本锚定提示并采用融合 Gromov-Wasserstein 最优传输技术对齐流形，实现了无需低质量模态训练数据即可将大型生物医学视觉 - 语言模型从高端成像（如 CT）有效迁移至低质量模态（如 X 光），从而在多个跨模态基准测试中取得了优于现有方法的性能并缓解了灾难性遗忘问题。

Jiajun Zeng, Shadi Albarqouni2026-03-09🤖 cs.AI

Dynamic Chunking Diffusion Transformer

本文提出了动态分块扩散 Transformer（DC-DiT），通过引入端到端学习的编码器 - 路由器 - 解码器架构，根据图像内容复杂度和扩散时间步自适应地压缩 Token 序列，从而在显著降低计算成本的同时提升了生成质量，并支持从预训练 DiT 模型的低成本迁移。

Akash Haridas, Utkarsh Saxena, Parsa Ashrafi Fashi, Mehdi Rezagholizadeh, Vikram Appia, Emad Barsoum2026-03-09🤖 cs.AI

LATO: 3D Mesh Flow Matching with Structured TOpology Preserving LAtents

本文提出了 LATO，一种基于流匹配的新型 3D 网格生成方法，它通过顶点位移场与稀疏体素变分自编码器的结合，在无需等值面提取或启发式网格化的情况下，实现了具有复杂几何结构和良好拓扑保持性的高效显式网格合成。

Tianhao Zhao, Youjia Zhang, Hang Long, Jinshen Zhang, Wenbing Li, Yang Yang, Gongbo Zhang, Jozef Hladký, Matthias Nießner, Wei Yang2026-03-09💻 cs

Computer vision-based estimation of invertebrate biomass

该论文提出了一种基于计算机视觉的方法，利用 BIODISCOVER 双相机系统自动获取无脊椎动物的面积和沉降速度等特征，通过线性模型或端到端深度神经网络，实现了无需人工称重即可对形态各异的个体进行干重估算（中位百分比误差为 10-20%），从而助力生物多样性监测的规模化扩展。

Mikko Impiö, Philipp M. Rehsen, Jarrett Blair, Cecilie Mielec, Arne J. Beermann, Florian Leese, Toke T. Høye, Jenni Raitoharju2026-03-09💻 cs

OralGPT-Plus: Learning to Use Visual Tools via Reinforcement Learning for Panoramic X-ray Analysis

本文提出了 OralGPT-Plus 模型，通过构建包含专家诊断轨迹的 DentalProbe 数据集、开发基于再检查机制的强化学习框架以及发布 MMOral-X 基准，实现了具备迭代推理与对称性感知能力的全景牙科 X 光片分析，显著提升了临床诊断的可靠性。

Yuxuan Fan, Jing Hao, Hong Chen, Jiahao Bao, Yihua Shao, Yuci Liang, Kuo Feng Hung, Hao Tang2026-03-09💻 cs

Rewis3d: Reconstruction Improves Weakly-Supervised Semantic Segmentation

本文提出了 Rewis3d 框架，通过利用前馈 3D 重建技术生成几何辅助监督信号，在无需额外标注和推理开销的情况下，显著提升了基于稀疏标注的弱监督语义分割性能。

Jonas Ernst, Wolfgang Boettcher, Lukas Hoyer, Jan Eric Lenssen, Bernt Schiele2026-03-09💻 cs

MoEMambaMIL: Structure-Aware Selective State Space Modeling for Whole-Slide Image Analysis

该论文提出了 MoEMambaMIL，一种结合区域嵌套选择性扫描与混合专家机制的结构感知状态空间模型，旨在通过多分辨率预处理和动态路由解决全切片图像分析中空间层级依赖建模的难题，并在 9 项下游任务中取得了最优性能。

Dongqing Xie, Yonghuang Wu2026-03-09💻 cs

CHMv2: Improvements in Global Canopy Height Mapping using DINOv3

该论文介绍了 CHMv2，这是一个利用基于 DINOv3 的深度估计模型和海量多样化训练数据生成的全球米级分辨率冠层高度图，其在准确性、高森林偏差校正及精细结构保留方面显著优于现有产品。

John Brandt, Seungeun Yi, Jamie Tolan, Xinyuan Li, Peter Potapov, Jessica Ertel, Justine Spore, Huy V. Vo, Michaël Ramamonjisoa, Patrick Labatut, Piotr Bojanowski, Camille Couprie2026-03-09💻 cs

Prompt Group-Aware Training for Robust Text-Guided Nuclei Segmentation

该论文提出了一种提示组感知训练框架，通过将语义相关的提示组织成组并引入质量引导的正则化与对数级一致性约束，在不改变模型架构的前提下显著提升了文本引导的细胞核分割在临床病理场景中的鲁棒性与泛化能力。

Yonghuang Wu, Zhenyang Liang, Wenwen Zeng, Xuan Xie, Jinhua Yu2026-03-09🤖 cs.AI

REACT++: Efficient Cross-Attention for Real-Time Scene Graph Generation

本文提出了 REACT++，一种基于高效特征提取和原型空间跨注意力机制的新型实时场景图生成模型，它在保持物体检测性能的同时，显著提升了推理速度与关系预测准确率，实现了性能与速度的最佳平衡。

Maëlic Neau, Zoe Falomir2026-03-09💻 cs

Solving Jigsaw Puzzles in the Wild: Human-Guided Reconstruction of Cultural Heritage Fragments

该论文提出了一种人机协作框架，通过结合自动松弛标记求解器与迭代锚定及连续交互优化等策略，有效解决了大规模、高模糊度及存在破损的文化遗产碎片（如 RePAIR 基准测试）的野外拼图重建难题，其性能显著优于全自动和纯人工方法。

Omidreza Safaei, Sinem Aslan, Sebastiano Vascon, Luca Palmieri, Marina Khoroshiltseva, Marcello Pelillo2026-03-09💻 cs

DiffInf: Influence-Guided Diffusion for Supervision Alignment in Facial Attribute Learning

该论文提出了 DiffInf 框架，通过结合自影响力评分与潜在扩散模型，对导致监督不一致的高影响力面部图像样本进行生成式修正，从而在不牺牲数据分布覆盖的前提下提升属性分类性能。

Basudha Pal, Rama Chellappa2026-03-09💻 cs

Locating and Editing Figure-Ground Organization in Vision Transformers

该研究通过合成形状冲突实验发现，BEiT 模型在早期和中间层对凸凹补全存在感知模糊，而图底组织偏好最终在深层由注意力头 L0H9 主导确立，且通过下调该头可逆转模型的凸性偏好。

Stefan Arnold, René Gröbner2026-03-09💻 cs

Physical Simulator In-the-Loop Video Generation

该论文提出了物理模拟器内循环视频生成（PSIVG）框架，通过将物理模拟器与视频扩散过程相结合，利用模拟的 4D 场景轨迹引导生成过程，并辅以测试时纹理一致性优化技术，从而在保持视觉质量的同时显著提升了生成视频对重力、惯性和碰撞等基本物理定律的遵循程度。

Lin Geng Foo, Mark He Huang, Alexandros Lattas, Stylianos Moschoglou, Thabo Beeler, Christian Theobalt2026-03-09🤖 cs.AI

Non-invasive Growth Monitoring of Small Freshwater Fish in Home Aquariums via Stereo Vision

该论文提出了一种结合 YOLOv11-Pose 姿态估计与折射感知立体视觉的非侵入式方法，通过校正水族箱中空气 - 玻璃 - 水界面的折射畸变并过滤低质量检测，实现了对小型淡水鱼体长的精准监测。

Clemens Seibold, Anna Hilsmann, Peter Eisert2026-03-09💻 cs

CLoPA: Continual Low Parameter Adaptation of Interactive Segmentation for Medical Image Annotation

本文提出了 CLoPA 策略，通过在标注缓存上对 nnInteractive 模型进行轻量级的持续参数微调，无需引入新参数或改变推理流程，即可在多种医学图像分割任务中快速将零-shot 模型的性能提升至专家水平。

Parhom Esmaeili, Chayanin Tangwiriyasakul, Eli Gibson, Sebastien Ourselin, M. Jorge Cardoso2026-03-09🤖 cs.AI

What if? Emulative Simulation with World Models for Situated Reasoning

该论文提出了首个面向无需主动探索的情境推理的大规模数据集"WanderDream"，通过构建包含 1.58 万段全景视频和 15.8 万组问答对的数据集，使智能体能够利用世界模型在有限观测下通过“心理模拟”想象未来轨迹，从而有效回答空间类“如果”问题并显著提升现实场景中的推理能力。

Ruiping Liu, Yufan Chen, Yuheng Zhang, Junwei Zheng, Kunyu Peng, Chengzhi Wu, Chenguang Huang, Di Wen, Jiaming Zhang, Kailun Yang, Rainer Stiefelhagen2026-03-09💻 cs