cs.CV 篇论文 | Gist.Science

Soft Equivariance Regularization for Invariant Self-Supervised Learning

该论文提出了一种名为软等变性正则化（SER）的即插即用方法，通过在中间特征层而非最终嵌入层施加等变性约束，在保持自监督学习不变性优势的同时有效提升了模型对几何扰动的鲁棒性及下游任务性能。

Joohyung Lee, Changhun Kim, Hyunsu Kim, Kwanhyung Lee, Juho Lee2026-03-10🤖 cs.LG

HARP: HARmonizing in-vivo diffusion MRI using Phantom-only training

该论文提出了一种名为 HARP 的深度学习框架，通过仅在可移动的扩散体模上进行训练，成功消除了多站点体内扩散 MRI 数据间的扫描仪差异，从而无需依赖复杂且难以获取的多站点人体受试者队列即可实现数据标准化。

Hwihun Jeong, Qiang Liu, Kathryn E. Keenan, Elisabeth A. Wilde, Walter Schneider, Sudhir Pathak, Anthony Zuccolotto, Lauren J. O'Donnell, Lipeng Ning, Yogesh Rathi2026-03-10💻 cs

Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs

该论文提出利用眼动追踪数据作为监督信号，通过引入专用的注视令牌引导医学视觉语言模型按时间顺序模拟放射科医生的视觉搜索过程，从而显著提升了模型在医学影像推理任务中的性能与泛化能力。

Yiwei Li, Zihao Wu, Yanjun Lv, Hanqi Jiang, Weihang You, Zhengliang Liu, Dajiang Zhu, Xiang Li, Quanzheng Li, Tianming Liu, Lin Zhao2026-03-10💻 cs

Asymmetric Distillation and Information Retention in Capacity-Constrained Cross-Modal Transfer

该论文通过实证研究揭示，在将大规模 Vision Transformer 教师模型蒸馏至容量受限的 CNN 学生模型时，会引发严重的维度坍塌现象，导致有效维度大幅降低并削弱模型的噪声鲁棒性，且这种由非对称余弦蒸馏引起的几何局限性无法通过输入增强来修复。

Kabir Thayani2026-03-10💻 cs

Multi-label Instance-level Generalised Visual Grounding in Agriculture

该论文针对农业领域缺乏通用视觉定位基准的难题，提出了首个包含负样本的农业数据集 gRef-CW，并设计了融合多标签分层相关性评分与插值回归的 Weed-VG 框架，以解决作物与杂草实例定位及目标缺失场景下的定位挑战。

Mohammadreza Haghighat, Alzayat Saleh, Mostafa Rahimi Azghadi2026-03-10💻 cs

SIQA: Toward Reliable Scientific Image Quality Assessment

该论文提出了科学图像质量评估（SIQA）框架，通过构建包含知识（科学有效性与完整性）和感知（认知清晰度与学科规范性）的双维评估体系及 SIQA 挑战基准，揭示了现有多模态大模型在科学图像评分一致性上表现良好但科学理解能力不足的差距，从而强调了多维评估对于科学图像质量判断的必要性。

Wenzhe Li, Liang Chen, Junying Wang, Yijing Guo, Ye Shen, Farong Wen, Chunyi Li, Zicheng Zhang, Guangtao Zhai2026-03-10💻 cs

On the Generalization Capacities of MLLMs for Spatial Intelligence

该论文指出仅依赖 RGB 输入的 MLLM 因忽略相机参数而难以泛化，并提出通过注入相机内参、引入相机感知数据增强及蒸馏几何先验的“相机感知 MLLM"框架，显著提升了模型在跨相机场景下的空间推理泛化能力。

Gongjie Zhang, Wenhao Li, Quanhao Qian, Jiuniu Wang, Deli Zhao, Shijian Lu, Ran Xu2026-03-10🤖 cs.LG

Uncertainty-Aware Solar Flare Regression

该研究通过将共形预测框架应用于全日面太阳耀斑回归预测，对比了共形预测、分位数回归与共形化分位数回归三种方法，结果表明共形化分位数回归在覆盖率和区间长度方面表现最优，显著提升了空间天气预测的可靠性。

Jinsu Hong, Chetraj Pandey, Berkay Aydin2026-03-10🔭 astro-ph

UWPD: A General Paradigm for Invisible Watermark Detection Agnostic to Embedding Algorithms

该论文针对现有隐形水印检测依赖特定算法先验知识的局限，提出了无需解码信息的通用水印存在检测（UWPD）任务，并构建了 UniFreq-100K 数据集及提出利用自适应频谱感知与动态多频谱注意力机制的 FSNet 模型，实现了在未知嵌入算法下的优异零样本检测能力。

Xiang Ao, Yiling Du, Zidan Wang, Mengru Chen2026-03-10💻 cs

HERO: Hierarchical Embedding-Refinement for Open-Vocabulary Temporal Sentence Grounding in Videos

本文提出了开放词汇视频时序句子定位（OV-TSGV）任务及首个专用基准，并设计了名为 HERO 的统一框架，通过分层语言嵌入和并行跨模态细化机制，显著提升了模型在未见词汇和多样化表达下的泛化能力。

Tingting Han, Xinsong Tao, Yufei Yin, Min Tan, Sicheng Zhao, Zhou Yu2026-03-10💻 cs

Vessel-Aware Deep Learning for OCTA-Based Detection of AMD

该论文提出了一种血管感知深度学习框架，通过融合基于动脉、静脉和毛细血管生成的血管弯曲度与灌注缺失图，显著提升了光学相干断层扫描血管成像（OCTA）对年龄相关性黄斑变性（AMD）的检测性能与可解释性。

Margalit G. Mitzner, Moinak Bhattacharya, Zhilin Zou, Chao Chen, Prateek Prasanna2026-03-10💻 cs

Heterogeneous Decentralized Diffusion Models

该论文提出了一种高效且支持异构训练目标的去中心化扩散模型框架，通过结合异构训练范式、预训练检查点转换及 PixArt-alpha 架构，在显著降低计算与数据需求的同时，实现了比同质化基线更优的生成质量与多样性。

Zhiying Jiang, Raihan Seraj, Marcos Villagra, Bidhan Roy2026-03-10🤖 cs.LG

ButterflyViT: 354 $\times$ Expert Compression for Edge Vision Transformers

本文提出了 ButterflyViT，一种通过将专家视为共享量化基底的几何重定向并引入空间平滑正则化来解决线性内存扩展瓶颈的方法，从而在 CIFAR-100 等任务上实现了 64 专家配置下 354 倍的内存压缩且精度损失可忽略，使稀疏混合专家视觉 Transformer 能够部署于边缘设备。

Aryan Karmore2026-03-10💻 cs

XMACNet: An Explainable Lightweight Attention based CNN with Multi Modal Fusion for Chili Disease Classification

本文提出了一种名为 XMACNet 的可解释轻量级注意力 CNN 模型，通过融合可见光图像与植被指数并引入 StyleGAN 数据增强，在辣椒病害分类任务中实现了高精度、强可解释性及边缘部署能力。

Tapon Kumer Ray, Rajkumar Y, Shalini R, Srigayathri K, Jayashree S, Lokeswari P2026-03-10💻 cs

EarthBridge: A Solution for 4th Multi-modal Aerial View Image Challenge Translation Track

本文提出了名为 EarthBridge 的高保真跨模态图像翻译框架，通过结合非马尔可夫桥过程扩散模型与对比无配对学习方法，在第四届多模态航拍图像挑战赛翻译赛道中取得了第二名的优异成绩。

Zhenyuan Chen, Guanyuan Shen, Feng Zhang2026-03-10💻 cs

HiDE: Hierarchical Dictionary-Based Entropy Modeling for Learned Image Compression

本文提出了 HiDE 框架，通过构建分层外部先验字典进行级联检索，并结合上下文感知的参数估计网络，有效解决了现有方法中外部先验利用不充分的问题，显著提升了学习式图像压缩的编码效率。

Haoxuan Xiong, Yuanyuan Xu, Kun Zhu, Yiming Wang, Baoliu Ye2026-03-10💻 cs

A Hybrid Machine Learning Model for Cerebral Palsy Detection

该论文提出了一种结合 VGG19、Efficient-Net 和 ResNet50 提取特征并由 Bi-LSTM 进行分类的混合机器学习模型，用于基于新生儿脑部 MRI 图像早期检测脑瘫，其 98.83% 的准确率优于多个单独使用的预训练模型。

Karan Kumar Singh, Nikita Gajbhiye, Gouri Sankar Mishra2026-03-10💻 cs

Step-Level Visual Grounding Faithfulness Predicts Out-of-Distribution Generalization in Long-Horizon Vision-Language Models

该论文揭示了一种长程视觉语言模型的行为规律，即模型在推理过程中保持与视觉状态一致的时间锚定能力（通过步级接地率 SGR 衡量），是预测其分布外泛化性能的关键指标，且该能力独立于模型规模和最终答案准确率。

Md Ashikur Rahman, Md Arifur Rahman, Niamul Hassan Samin, Abdullah Ibne Hanif Arean, Juena Ahmed Noshin2026-03-10💻 cs

MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies

该论文提出了基于运动学空间旋量等价性定义的“运动比特”（MotionBit）概念，构建了名为 MoRiBo 的手动标注基准，并开发了一种无需学习的图分割方法，在移动刚体分割任务中显著优于现有方法，为具身推理与机器人操作提供了关键的物理交互理解基础。

Howard H. Qian, Kejia Ren, Yu Xiang, Vicente Ordonez, Kaiyu Hang2026-03-10💻 cs

Active View Selection with Perturbed Gaussian Ensemble for Tomographic Reconstruction

本文提出了一种名为“扰动高斯集合”的主动视图选择框架，通过结合不确定性建模与序贯决策，利用随机密度缩放构建高斯密度场集合并选取预测方差最大的视角，从而在稀疏视图 CT 重建中有效消除几何伪影并提升重建质量。

Yulun Wu, Ruyi Zha, Wei Cao, Yingying Li, Yuanhao Cai, Yaoyao Liu2026-03-10💻 cs

cs.CV