cs.CV 篇论文 | Gist.Science

Making Training-Free Diffusion Segmentors Scale with the Generative Power

该论文针对现有免训练扩散分割器难以随生成模型能力提升而扩展的问题，通过提出自动聚合与逐像素重缩放技术，有效弥合了注意力图与全局表征及语义相关性之间的差距，从而显著提升了分割性能。

Benyuan Meng, Qianqian Xu, Zitai Wang, Xiaochun Cao, Longtao Huang, Qingming Huang2026-03-09💻 cs

Contrastive-to-Self-Supervised: A Two-Stage Framework for Script Similarity Learning

该论文提出了一种两阶段框架，通过先在标注的人造字母表上训练对比学习教师模型，再利用蒸馏技术引导学生在无监督条件下学习历史文字系统的变形不变嵌入，从而在无需确切演化关系真值的情况下实现脚本相似性学习与聚类。

Claire Roman, Philippe Meyer2026-03-09🤖 cs.AI

Towards Motion Turing Test: Evaluating Human-Likeness in Humanoid Robots

该论文提出了受图灵测试启发的“运动图灵测试”框架及包含 1000 个动作序列的 HHMotion 数据集，通过消除视觉外观干扰的纯运动学评估，揭示了当前人形机器人在动态动作中仍与人类存在显著差异，并证明了专用基线模型在预测运动拟人度方面优于多模态大语言模型。

Mingzhe Li, Mengyin Liu, Zekai Wu, Xincheng Lin, Junsheng Zhang, Ming Yan, Zengye Xie, Changwang Zhang, Chenglu Wen, Lan Xu, Siqi Shen, Cheng Wang2026-03-09💻 cs

CRIMSON: A Clinically-Grounded LLM-Based Metric for Generative Radiology Report Evaluation

本文提出了 CRIMSON，这是一种基于临床指南的大语言模型评估框架，通过引入患者背景信息、细粒度的错误分类及基于临床重要性的加权机制，在诊断正确性、上下文相关性和患者安全性方面实现了对胸部 X 光报告生成任务更精准且与放射科专家判断高度一致的评估。

Mohammed Baharoon, Thibault Heintz, Siavash Raissi, Mahmoud Alabbad, Mona Alhammad, Hassan AlOmaish, Sung Eun Kim, Oishi Banerjee, Pranav Rajpurkar2026-03-09🤖 cs.AI

SpaCRD: Multimodal Deep Fusion of Histology and Spatial Transcriptomics for Cancer Region Detection

本文提出了一种名为 SpaCRD 的迁移学习方法，通过构建类别正则化变分重建引导的双向交叉注意力融合网络，深度整合组织学图像与空间转录组数据，从而在跨样本、跨平台及跨批次场景下实现了比现有最先进方法更精准的癌症区域检测。

Shuailin Xue, Jun Wan, Lihua Zhang, Wenwen Min2026-03-09💻 cs

Adaptive Language-Aware Image Reflection Removal Network

本文提出了自适应语言感知网络（ALANet），通过集成过滤与优化策略来缓解不准确语言描述带来的负面影响，并引入 CRLAV 数据集验证了其在复杂反射去除任务中优于现有最先进方法的性能。

Siyan Fang, Yuntao Wang, Jinpu Zhang, Ziwen Li, Yuehuan Wang2026-03-09💻 cs

Point-Supervised Skeleton-Based Human Action Segmentation

该论文提出了一种基于点监督的骨架动作分割框架，通过利用预训练多模态模型提取特征并结合原型相似度等策略生成高质量伪标签，在仅需每段动作标注单帧的情况下实现了媲美甚至超越全监督方法的性能，显著降低了标注成本。

Hongsong Wang, Yiqin Shen, Pengbo Yan, Jie Gui2026-03-09💻 cs

VG3S: Visual Geometry Grounded Gaussian Splatting for Semantic Occupancy Prediction

本文提出了视觉几何接地高斯泼溅（VG3S）框架，通过引入冻结的视觉基础模型（VFM）中的强几何先验并设计分层几何特征适配器，显著提升了自动驾驶场景下 3D 语义占据预测的精度与泛化能力。

Xiaoyang Yan, Muleilan Pei, Shaojie Shen2026-03-09💻 cs

Cut to the Chase: Training-free Multimodal Summarization via Chain-of-Events

本文提出了一种名为 CoE 的训练-free 多模态摘要框架，通过层级事件图（HEG）引导的“事件链”进行结构化推理，有效解决了现有方法对特定领域监督的依赖、跨模态对齐弱以及时序建模扁平化等问题，并在多个数据集上显著超越了现有最先进基线。

Xiaoxing You, Qiang Huang, Lingyu Li, Xiaojun Chang, Jun Yu2026-03-09🤖 cs.AI

EntON: Eigenentropy-Optimized Neighborhood Densification in 3D Gaussian Splatting

本文提出了 EntON，一种基于特征熵优化的邻域致密化策略，通过交替利用视图空间梯度和局部结构有序性（特征熵）来指导高斯球分裂与剪枝，从而在 3D 高斯泼溅重建中显著提升了几何精度与渲染质量，同时减少了高斯球数量并缩短了训练时间。

Miriam Jäger, Boris Jutzi2026-03-09💻 cs

Word-Anchored Temporal Forgery Localization

该论文提出了一种名为 WAFL 的新范式，通过将时间伪造定位任务从传统的边界回归或连续帧检测转变为基于离散词单元的二分类问题，并引入特征重对齐模块与针对类别不平衡的不对称损失函数，在显著降低计算成本的同时实现了超越现有最先进方法的定位性能。

Tianyi Wang, Xi Shao, Harry Cheng, Yinglong Wang, Mohan Kankanhalli2026-03-09💻 cs

Low-latency Event-based Object Detection with Spatially-Sparse Linear Attention

本文提出了基于空间稀疏线性注意力（SSLA）的端到端异步模型 SSLA-Det，通过引入状态分解与散点计算聚合训练机制，在显著降低每事件计算量的同时实现了事件驱动目标检测的精度与效率突破。

Haiqing Hao, Zhipeng Sui, Rong Zou, Zijia Dai, Nikola Zubic, Davide Scaramuzza, Wenhui Wang2026-03-09💻 cs

TaPD: Temporal-adaptive Progressive Distillation for Observation-Adaptive Trajectory Forecasting in Autonomous Driving

本文提出了 TaPD 框架，通过结合基于渐进式知识蒸馏的观测自适应预测器与基于场景演化条件的时间回溯模块，有效解决了自动驾驶中因遮挡或感知受限导致的变长历史观测轨迹预测难题，并在不同观测长度下显著提升了预测性能。

Mingyu Fan, Yi Liu, Hao Zhou, Deheng Qian, Mohammad Haziq Khan, Matthias Raetsch2026-03-09🤖 cs.AI

DC-Merge: Improving Model Merging with Directional Consistency

本文提出了 DC-Merge 方法，通过平滑奇异值以平衡任务向量的能量分布，并将其投影至共享正交子空间以校正方向几何不一致性，从而在模型合并中有效保留多任务知识，在视觉及视觉语言基准测试中实现了全微调与 LoRA 设置下的最先进性能。

Han-Chen Zhang, Zi-Hao Zhou, Mao-Lin Luo, Shimin Di, Min-Ling Zhang, Tong Wei2026-03-09🤖 cs.LG

Hierarchical Collaborative Fusion for 3D Instance-aware Referring Expression Segmentation

本文提出了 HCF-RES 框架，通过利用 SAM 实例掩码引导的层次化视觉语义分解以及包含跨模态自适应加权的多级融合机制，解决了现有方法在 3D 通用指代分割任务中因缺乏丰富视觉语义而难以处理细粒度描述的问题，并在 ScanRefer 和 Multi3DRefer 数据集上取得了最先进性能。

Keshen Zhou, Runnan Chen, Mingming Gong, Tongliang Liu2026-03-09💻 cs

NOVA: Next-step Open-Vocabulary Autoregression for 3D Multi-Object Tracking in Autonomous Driving

本文提出了名为 NOVA 的新范式，利用大型语言模型的自回归能力将 3D 多目标跟踪重构为生成式时空语义序列预测任务，从而在无需闭集假设的情况下显著提升了对未知目标的泛化跟踪性能。

Kai Luo, Xu Wang, Rui Fan, Kailun Yang2026-03-09💻 cs

GazeMoE: Perception of Gaze Target with Mixture-of-Experts

该论文提出了 GazeMoE 框架，通过在大模型中引入混合专家（MoE）模块自适应地融合眼动、头部姿态及上下文等多模态线索，并结合类别平衡损失与数据增强策略，有效解决了机器人视线目标估计中的泛化与类别不平衡难题，在基准测试中取得了最先进性能。

Zhuangzhuang Dai, Zhongxi Lu, Vincent G. Zakka, Luis J. Manso, Jose M Alcaraz Calero, Chen Li2026-03-09🤖 cs.AI

ODD-SEC: Onboard Drone Detection with a Spinning Event Camera

本文提出了一种名为 ODD-SEC 的实时机载无人机检测系统，该系统利用旋转事件相机实现 360 度全景监测，并通过无需运动补偿的新型事件表示方法与轻量级神经网络，在移动载体上实现了高动态、抗干扰的精准检测与方位估计。

Kuan Dai, Hongxin Zhang, Sheng Zhong, Yi Zhou2026-03-09💻 cs

HiPP-Prune: Hierarchical Preference-Conditioned Structured Pruning for Vision-Language Models

本文提出了 HiPP-Prune 框架，通过引入基于视觉敏感性的分层偏好条件化结构化剪枝策略，利用多目标 GRPO 优化在压缩视觉语言模型时实现任务效用、幻觉鲁棒性与压缩率之间的可控权衡。

Lincen Bai, Hedi Tabia, Raul Santos-Rodriguez2026-03-09🤖 cs.AI

Spectral and Trajectory Regularization for Diffusion Transformer Super-Resolution

本文提出了 StrSR，一种通过引入非对称判别式蒸馏架构和频域分布匹配策略来解决扩散 Transformer 在真实图像超分辨率任务中轨迹失配及周期性伪影问题的一步对抗蒸馏框架，实现了最先进的性能。

Jingkai Wang, Yixin Tang, Jue Gong, Jiatong Li, Shu Li, Libo Liu, Jianliang Lan, Yutong Liu, Yulun Zhang2026-03-09💻 cs