cs.CV 篇论文 | Gist.Science

Cross-Resolution Distribution Matching for Diffusion Distillation

该论文提出了一种名为 RMD 的跨分辨率分布匹配蒸馏框架，通过利用对数信噪比映射和预测噪声重注入机制，有效弥合了跨分辨率分布差异，从而在保持高视觉保真度的同时，显著加速了扩散模型的推理过程（如在 SDXL 和 Wan2.1-14B 上分别实现了高达 33.4 倍和 25.6 倍的加速）。

Feiyang Chen, Hongpeng Pan, Haonan Xu, Xinyu Duan, Yang Yang, Zhefeng Wang2026-03-09💻 cs

Place-it-R1: Unlocking Environment-aware Reasoning Potential of MLLM for Video Object Insertion

本文提出了 Place-it-R1 框架，通过利用多模态大语言模型的思维链推理能力来引导视频扩散模型，实现了能够感知环境、符合物理因果逻辑且支持用户灵活权衡“合理性”与“保真度”的视频物体插入。

Bohai Gu, Taiyi Wu, Dazhao Du, Jian Liu, Shuai Yang, Xiaotong Zhao, Alan Zhao, Song Guo2026-03-09🤖 cs.AI

Spatial Colour Mixing Illusions as a Perception Stress Test for Vision-Language Models

该论文提出“空间色彩混合”作为视觉语言模型的感知压力测试，揭示了现有模型在面对结构化色彩失真时存在严重且无法通过单纯扩展语言模型规模来缓解的感知缺陷，而人类在此类任务中表现显著更优，并证明受人类启发的预处理策略可有效提升模型鲁棒性。

Nicoleta-Nina Basoc, Adrian Cosma, Emilian Radoi2026-03-09💻 cs

Longitudinal NSCLC Treatment Progression via Multimodal Generative Models

该论文提出了一种名为虚拟治疗（VT）的多模态生成框架，通过结合 CT 影像、临床变量及辐射剂量增量来模拟非小细胞肺癌（NSCLC）在放疗期间的纵向演变，并验证了基于扩散模型的方案在生成解剖学上更合理且稳定的肿瘤演化轨迹方面优于 GAN 基线，从而为 NSCLC 的虚拟治疗监测和自适应放疗研究提供了有力工具。

Massimiliano Mantegna, Elena Mulero Ayllón, Alice Natalina Caragliano, Francesco Di Feola, Claudia Tacconi, Michele Fiore, Edy Ippolito, Carlo Greco, Sara Ramella, Philippe C. Cattin, Paolo Soda, Matteo Tortora, Valerio Guarrasi2026-03-09💻 cs

VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models

本文提出了 VLM-RobustBench 基准，通过涵盖 49 种增强类型和 133 种扰动设置，评估了主流视觉语言模型在多种图像失真下的鲁棒性，揭示了当前模型虽语义能力强但空间脆弱，且低严重度几何扰动（如玻璃模糊）往往比高严重度光度扰动造成更显著的性能下降。

Rohit Saxena, Alessandro Suglia, Pasquale Minervini2026-03-09🤖 cs.AI

Reflective Flow Sampling Enhancement

该论文提出了名为“反思流采样”（RF-Sampling）的训练无关推理增强框架，通过形式化推导证明其能隐式执行文本 - 图像对齐得分的梯度上升，从而有效解决了现有增强策略在 FLUX 等流匹配模型上表现不佳的问题，并显著提升了生成质量、提示词对齐度及测试时扩展能力。

Zikai Zhou, Muyao Wang, Shitong Shao, Lichen Bai, Haoyi Xiong, Bo Han, Zeke Xie2026-03-09🤖 cs.AI

FreeOcc: Training-free Panoptic Occupancy Prediction via Foundation Models

该论文提出了 FreeOcc，一种无需训练即可利用预训练基础模型从多视角图像中恢复语义与几何信息的管道，通过融合提示分割、3D 重建及确定性优化，在 Occ3D-nuScenes 数据集上实现了与弱监督方法相当的无监督全景占据预测性能，并显著提升了弱监督场景下的训练效果。

Andrew Caunes, Thierry Chateau, Vincent Fremont2026-03-09💻 cs

A Semi-Supervised Framework for Breast Ultrasound Segmentation with Training-Free Pseudo-Label Generation and Label Refinement

该论文提出了一种无需训练伪标签生成与标签精化的半监督框架，通过利用视觉语言模型基于外观描述跨域生成结构一致的伪标签，并结合不确定性加权融合与反向对比学习，在仅使用 2.5% 标注数据的情况下实现了与全监督模型相当的乳腺超声图像分割性能。

Ruili Li, Jiayi Ding, Ruiyu Li, Yilun Jin, Shiwen Ge, Yuwen Zeng, Xiaoyong Zhang, Eichi Takaya, Jan Vrba, Noriyasu Homma2026-03-09💻 cs

JOPP-3D: Joint Open Vocabulary Semantic Segmentation on Point Clouds and Panoramas

本文提出了 JOPP-3D 框架，通过联合利用全景图像与点云数据并转换对齐基础视觉 - 语言特征，实现了在数据稀缺场景下基于自然语言查询的 3D 点云与全景图像开放词汇语义分割，并在多个数据集上显著超越了现有最先进方法。

Sandeep Inuganti, Hideaki Kanayama, Kanta Shimizu, Mahdi Chamseddine, Soichiro Yokota, Didier Stricker, Jason Rambach2026-03-09💻 cs

Optimizing 3D Diffusion Models for Medical Imaging via Multi-Scale Reward Learning

该论文提出了一种结合多尺度奖励机制与强化学习（PPO）的优化方法，通过融合 2D 切片评估与 3D 体积分析来微调 3D 扩散模型，从而显著提升了医学图像生成的质量及其在下游肿瘤与疾病分类任务中的实用性。

Yueying Tian, Xudong Han, Meng Zhou, Rodrigo Aviles-Espinosa, Rupert Young, Philip Birch2026-03-09💻 cs

Making Training-Free Diffusion Segmentors Scale with the Generative Power

该论文针对现有免训练扩散分割器难以随生成模型能力提升而扩展的问题，通过提出自动聚合与逐像素重缩放技术，有效弥合了注意力图与全局表征及语义相关性之间的差距，从而显著提升了分割性能。

Benyuan Meng, Qianqian Xu, Zitai Wang, Xiaochun Cao, Longtao Huang, Qingming Huang2026-03-09💻 cs

Contrastive-to-Self-Supervised: A Two-Stage Framework for Script Similarity Learning

该论文提出了一种两阶段框架，通过先在标注的人造字母表上训练对比学习教师模型，再利用蒸馏技术引导学生在无监督条件下学习历史文字系统的变形不变嵌入，从而在无需确切演化关系真值的情况下实现脚本相似性学习与聚类。

Claire Roman, Philippe Meyer2026-03-09🤖 cs.AI

Towards Motion Turing Test: Evaluating Human-Likeness in Humanoid Robots

该论文提出了受图灵测试启发的“运动图灵测试”框架及包含 1000 个动作序列的 HHMotion 数据集，通过消除视觉外观干扰的纯运动学评估，揭示了当前人形机器人在动态动作中仍与人类存在显著差异，并证明了专用基线模型在预测运动拟人度方面优于多模态大语言模型。

Mingzhe Li, Mengyin Liu, Zekai Wu, Xincheng Lin, Junsheng Zhang, Ming Yan, Zengye Xie, Changwang Zhang, Chenglu Wen, Lan Xu, Siqi Shen, Cheng Wang2026-03-09💻 cs

CRIMSON: A Clinically-Grounded LLM-Based Metric for Generative Radiology Report Evaluation

本文提出了 CRIMSON，这是一种基于临床指南的大语言模型评估框架，通过引入患者背景信息、细粒度的错误分类及基于临床重要性的加权机制，在诊断正确性、上下文相关性和患者安全性方面实现了对胸部 X 光报告生成任务更精准且与放射科专家判断高度一致的评估。

Mohammed Baharoon, Thibault Heintz, Siavash Raissi, Mahmoud Alabbad, Mona Alhammad, Hassan AlOmaish, Sung Eun Kim, Oishi Banerjee, Pranav Rajpurkar2026-03-09🤖 cs.AI

SpaCRD: Multimodal Deep Fusion of Histology and Spatial Transcriptomics for Cancer Region Detection

本文提出了一种名为 SpaCRD 的迁移学习方法，通过构建类别正则化变分重建引导的双向交叉注意力融合网络，深度整合组织学图像与空间转录组数据，从而在跨样本、跨平台及跨批次场景下实现了比现有最先进方法更精准的癌症区域检测。

Shuailin Xue, Jun Wan, Lihua Zhang, Wenwen Min2026-03-09💻 cs

Adaptive Language-Aware Image Reflection Removal Network

本文提出了自适应语言感知网络（ALANet），通过集成过滤与优化策略来缓解不准确语言描述带来的负面影响，并引入 CRLAV 数据集验证了其在复杂反射去除任务中优于现有最先进方法的性能。

Siyan Fang, Yuntao Wang, Jinpu Zhang, Ziwen Li, Yuehuan Wang2026-03-09💻 cs

Point-Supervised Skeleton-Based Human Action Segmentation

该论文提出了一种基于点监督的骨架动作分割框架，通过利用预训练多模态模型提取特征并结合原型相似度等策略生成高质量伪标签，在仅需每段动作标注单帧的情况下实现了媲美甚至超越全监督方法的性能，显著降低了标注成本。

Hongsong Wang, Yiqin Shen, Pengbo Yan, Jie Gui2026-03-09💻 cs

VG3S: Visual Geometry Grounded Gaussian Splatting for Semantic Occupancy Prediction

本文提出了视觉几何接地高斯泼溅（VG3S）框架，通过引入冻结的视觉基础模型（VFM）中的强几何先验并设计分层几何特征适配器，显著提升了自动驾驶场景下 3D 语义占据预测的精度与泛化能力。

Xiaoyang Yan, Muleilan Pei, Shaojie Shen2026-03-09💻 cs

Cut to the Chase: Training-free Multimodal Summarization via Chain-of-Events

本文提出了一种名为 CoE 的训练-free 多模态摘要框架，通过层级事件图（HEG）引导的“事件链”进行结构化推理，有效解决了现有方法对特定领域监督的依赖、跨模态对齐弱以及时序建模扁平化等问题，并在多个数据集上显著超越了现有最先进基线。

Xiaoxing You, Qiang Huang, Lingyu Li, Xiaojun Chang, Jun Yu2026-03-09🤖 cs.AI

EntON: Eigenentropy-Optimized Neighborhood Densification in 3D Gaussian Splatting

本文提出了 EntON，一种基于特征熵优化的邻域致密化策略，通过交替利用视图空间梯度和局部结构有序性（特征熵）来指导高斯球分裂与剪枝，从而在 3D 高斯泼溅重建中显著提升了几何精度与渲染质量，同时减少了高斯球数量并缩短了训练时间。

Miriam Jäger, Boris Jutzi2026-03-09💻 cs