cs.CV 篇论文 | Gist.Science

TP-Spikformer: Token Pruned Spiking Transformer

本文提出了一种名为 TP-Spikformer 的免训练令牌剪枝方法，通过引入启发式时空信息保留准则和块级早期停止策略，在显著降低脉冲 Transformer 存储与计算开销的同时，在多种架构和任务中保持了具有竞争力的性能。

Wenjie Wei, Xiaolong Zhou, Malu Zhang + 8 more2026-03-03💻 cs

CaptionFool: Universal Image Captioning Model Attacks

该论文提出了名为 CaptionFool 的新型通用对抗攻击方法，仅需修改图像中极小部分（约 1.2%）的图块，即可以高达 94-96% 的成功率操控最先进的图像描述模型生成任意目标文本（包括冒犯性内容和规避审核的俚语），从而揭示了视觉语言模型面临的关键安全漏洞。

Swapnil Parekh2026-03-03🤖 cs.AI

RAFM: Retrieval-Augmented Flow Matching for Unpaired CBCT-to-CT Translation

本文提出了一种检索增强流匹配（RAFM）方法，通过利用冻结的 DINOv3 编码器和全局 CT 记忆库构建检索引导的伪配对，有效解决了小样本医疗数据下无配对 CBCT 到 CT 转换中流匹配训练不稳定的问题，并在 SynthRAD2023 数据集上取得了优于现有方法的性能。

Xianhao Zhou, Jianghao Wu, Lanfeng Zhong + 4 more2026-03-03💻 cs

Multiple Inputs and Mixwd data for Alzheimer's Disease Classification Based on 3D Vision Transformer

该研究提出了一种名为 MIMD-3DVT 的新型多输入混合数据 3D 视觉 Transformer 方法，通过整合连续切片、多区域 3D 成像以及人口统计学和认知评估等多源数据，在结合 ADNI、AIBL 和 OASIS 数据集的实验中实现了 97.14% 的准确率，有效克服了现有阿尔茨海默病 MRI 诊断方法在三维上下文信息丢失、关注区域单一及数据源局限等方面的不足。

Juan A. Castro-Silva, Maria N. Moreno Garcia, Diego H. Peluffo-Ordoñez2026-03-03💻 cs

Advancing Multimodal Judge Models through a Capability-Oriented Benchmark and MCTS-Driven Data Generation

本文提出了面向能力的十维度基准 M-JudgeBench 以诊断多模态大模型裁判系统的缺陷，并设计了基于 MCTS 的数据生成框架 Judge-MCTS 来训练出在现有基准及新基准上均表现更优的裁判模型 M-Judger。

Zeyu Chen, Huanjin Yao, Ziwang Zhao + 1 more2026-03-03🤖 cs.AI

Weakly Supervised Video Anomaly Detection with Anomaly-Connected Components and Intention Reasoning

本文提出了名为 LAS-VAD 的新框架，通过融合异常连通分量机制、意图感知策略以及异常属性信息，有效解决了弱监督视频异常检测中因缺乏帧级标注而导致的语义学习难题，并在 XD-Violence 和 UCF-Crime 数据集上取得了超越现有最先进方法的性能。

Yu Wang, Shengjie Zhao2026-03-03💻 cs

Geometry OR Tracker: Universal Geometric Operating Room Tracking

本文提出了 Geometry OR Tracker，这是一种通过多视角度量几何校正模块解决手术室相机标定不可靠问题，从而实现跨视图几何一致且抗遮挡的全局 3D 点跟踪的两阶段框架。

Yihua Shao, Kang Chen, Feng Xue + 6 more2026-03-03🤖 cs.AI

MIDAS: Multi-Image Dispersion and Semantic Reconstruction for Jailbreaking MLLMs

本文提出了名为 MIDAS 的多模态越狱框架，通过将有害语义分解并分散到多张图像中，利用跨图推理逐步重构恶意意图以规避安全机制，从而在多个闭源多模态大模型上实现了高达 81.46% 的平均攻击成功率。

Yilian Liu, Xiaojun Jia, Guoshun Nan + 6 more2026-03-03🤖 cs.AI

Decoupling Stability and Plasticity for Multi-Modal Test-Time Adaptation

该论文提出了一种名为 DASP 的解耦适应框架，通过识别模态间冗余差异并采用非对称的“稳定 - 可塑”组件更新策略，有效解决了多模态测试时适应中无偏模态的负迁移和有偏模态的灾难性遗忘问题。

Yongbo He, Zirun Guo, Tao Jin2026-03-03🤖 cs.AI

MicroVerse: A Preliminary Exploration Toward a Micro-World Simulation

本文提出了首个面向微观世界模拟的基准测试 MicroWorldBench 与高质量数据集 MicroSim-10K，并据此训练出专用视频生成模型 MicroVerse，有效解决了现有模型在微观尺度模拟中物理法则违背与专家准则对齐不足的问题，为生物医学研究与科学教育提供了新的可视化解决方案。

Rongsheng Wang, Minghao Wu, Hongru Zhou + 4 more2026-03-03🤖 cs.AI

LangGap: Diagnosing and Closing the Language Gap in Vision-Language-Action Models

本文提出了 LangGap 基准，通过语义扰动实验揭示了当前视觉 - 语言 - 动作（VLA）模型严重忽视语言指令的缺陷，并指出尽管数据增强能部分缓解该问题，但模型在应对多样化语言指令时仍存在根本性的理解能力不足。

Yuchen Hou, Lin Zhao2026-03-03💬 cs.CL

UNICBench: UNIfied Counting Benchmark for MLLM

本文提出了 UNICBench，这是一个涵盖图像、文本和音频三种模态的统一多模态计数基准与评估工具包，通过严格的标准化协议对 45 个先进多模态大模型进行了全面评估，揭示了当前模型在基础计数任务上表现良好但在复杂推理及长尾场景中存在显著差距。

Chenggang Rong, Tao Han, Zhiyuan Zhao + 5 more2026-03-03💻 cs

Data-Centric Benchmark for Label Noise Estimation and Ranking in Remote Sensing Image Segmentation

本文提出了一种面向遥感图像语义分割的数据中心基准，包含公开数据集及两种基于模型不确定性、预测一致性和表征分析的新型标签噪声估计与排序方法，旨在有效识别和量化标注噪声以提升模型性能。

Keiller Nogueira, Codrut-Andrei Diaconu, Dávid Kerekes + 9 more2026-03-03💻 cs

IdGlow: Dynamic Identity Modulation for Multi-Subject Generation

本文提出了 IdGlow，一种基于流匹配扩散模型的无掩码两阶段框架，通过任务自适应时间步调度、基于坏例的视觉语言模型提示合成以及细粒度组级直接偏好优化，有效解决了多主体生成中的稳定性 - 可塑性困境，在保持高保真身份特征的同时实现了自然和谐的场景融合与年龄变换。

Honghao Cai, Xiangyuan Wang, Yunhao Bai + 10 more2026-03-03🤖 cs.AI

Linking Modality Isolation in Heterogeneous Collaborative Perception

本文针对异构协同感知中因训练数据缺失共现样本而导致的模态隔离难题，提出了首个无需共现监督的高效对齐框架 CodeAlign，该方法通过跨模态特征 - 码本 - 特征（FCF）翻译机制实现模态对齐，在显著降低参数量与通信开销的同时，在 OPV2V 和 DAIR-V2X 数据集上取得了最先进的感知性能。

Changxing Liu, Zichen Chao, Siheng Chen2026-03-03💻 cs

Exploring Spatiotemporal Feature Propagation for Video-Level Compressive Spectral Reconstruction: Dataset, Model and Benchmark

本文针对现有光谱压缩成像方法在单帧重建不确定性及视频时序一致性方面的局限，构建了首个动态高光谱数据集 DynaSpec，提出了利用时空特征传播的 PG-SVRT 模型，并通过仿真与实物实验验证了其在重建质量、光谱保真度及时序一致性上的优越性能。

Lijing Cai, Zhan Shi, Chenglong Huang + 6 more2026-03-03💻 cs

cs.CV