cs.CV 篇论文 | Gist.Science

GazeXPErT: An Expert Eye-tracking Dataset for Interpretable and Explainable AI in Oncologic FDG-PET/CT Scans

本文介绍了 GazeXPErT 数据集，该数据集通过收集专家在 346 例 FDG-PET/CT 肿瘤扫描中的眼动追踪数据，旨在提升 AI 模型在肿瘤分割、定位及意图预测方面的可解释性与性能，从而推动其在肿瘤学临床诊断中的应用。

Joy T Wu, Daniel Beckmann, Sarah Miller + 15 more2026-03-03⚡ eess

A Boundary-Metric Evaluation Protocol for Whiteboard Stroke Segmentation Under Extreme Imbalance

该论文针对白board笔迹分割中极端的类别不平衡问题，提出了一套结合区域指标、边界感知指标及细粒度子集公平性分析的综合评估协议，揭示了重叠损失函数在提升整体与边界精度方面的优势，并阐明了传统二值化方法在平均性能与深度学习模型在极端情况下的鲁棒性之间的权衡。

Nicholas Korcynski2026-03-03🤖 cs.LG

ConFoThinking: Consolidated Focused Attention Driven Thinking for Visual Question Answering

本文提出了 ConFoThinking 框架，通过聚合分散的注意力信号至指定中间层并利用简洁语义线索提取关注区域，有效解决了多模态大模型在视觉问答中定位不准和语义噪声问题，显著提升了细粒度感知性能。

Zhaodong Wu, Haochen Xue, Qi Cao + 5 more2026-03-03💻 cs

Exploring the AI Obedience: Why is Generating a Pure Color Image Harder than CyberPunk?

本文针对生成式 AI 在简单确定性任务中表现出的“简单悖论”，提出了“服从性”概念及分级体系，并推出了首个专注于纯色生成的 VIOLIN 基准，旨在揭示模型在指令对齐上的根本局限并推动相关研究。

Hongyu Li, Kuan Liu, Yuan Chen + 6 more2026-03-03🤖 cs.AI

Image-Based Classification of Olive Species Specific to Turkiye with Deep Neural Networks

该研究利用立体相机采集图像，并通过迁移学习优化 MobileNetV2 和 EfficientNetB0 卷积神经网络模型，成功实现了对土耳其五种特有橄榄品种的高精度（94.5%）自动分类，为农产品质量管控提供了有效的深度学习解决方案。

Irfan Atabas, Hatice Karatas2026-03-03💻 cs

Summer-22B: A Systematic Approach to Dataset Engineering and Training at Scale for Video Foundation Model

本文详细记录了从零开始训练视频基础模型 Summer-22B 的全过程，重点分享了在构建约 5000 万片段数据集时面临的工程挑战、设计决策及关键经验教训，强调了数据工程的主导作用以及特定架构优化策略的有效性。

Simo Ryu, Chunghwan Han2026-03-03🤖 cs.LG

Efficient Long-Horizon GUI Agents via Training-Free KV Cache Compression

本文针对长程 GUI 代理中 KV 缓存内存与延迟瓶颈，提出了一种无需训练的 ST-Lite 框架，通过结合组件中心空间显著性与轨迹感知语义门控策略，在仅保留 10-20% 缓存预算的情况下实现了 2.45 倍的解码加速，同时保持了与全缓存基线相当甚至更优的性能。

Bowen Zhou, Zhou Xu, Wanli Li + 2 more2026-03-03🤖 cs.LG

Task-Driven Subspace Decomposition for Knowledge Sharing and Isolation in LoRA-based Continual Learning

该论文提出了一种名为 LoDA 的新方法，通过从投影能量视角对 LoRA 进行任务驱动的子空间分解，并采用梯度对齐优化与闭式重校准策略，有效平衡了持续学习中的知识共享与隔离，从而显著提升了模型性能。

Lingfeng He, De Cheng, Huaijie Wang + 3 more2026-03-03🤖 cs.LG

SKeDA: A Generative Watermarking Framework for Text-to-video Diffusion Models

本文提出了 SKeDA 框架，通过基于洗牌密钥的分布保持采样（SKe）和差分注意力（DA）机制，解决了现有方法在文本生成视频模型中因帧对齐依赖和时序畸变导致的鲁棒性不足问题，实现了高保真且强鲁棒性的生成式水印嵌入。

Yang Yang, Xinze Zou, Zehua Ma + 2 more2026-03-03🤖 cs.AI

A Case Study on Concept Induction for Neuron-Level Interpretability in CNN

本文通过将基于概念归纳的神经元可解释性框架应用于 SUN2012 数据集，验证了该方法在场景识别任务中的泛化能力及其对隐藏神经元语义标签分配的有效性。

Moumita Sen Sarma, Samatha Ereshi Akkamahadevi, Pascal Hitzler2026-03-03🤖 cs.AI

Stateful Token Reduction for Long-Video Hybrid VLMs

该论文针对混合架构长视频视觉语言模型，通过分析令牌重要性在层间的稀疏性与不稳定性，提出了一种结合语言感知评分机制与由低到高分阶段缩减策略的方法，在大幅加速推理的同时保持了高精度的性能。

Jindong Jiang, Amala Sanjay Deshmukh, Kateryna Chumachenko + 7 more2026-03-03🤖 cs.AI

AdURA-Net: Adaptive Uncertainty and Region-Aware Network

本文提出了 AdURA-Net，这是一种基于几何驱动的自适应不确定性感知框架，通过结合自适应空洞卷积、多尺度可变形对齐以及融合掩码二元交叉熵与狄利克雷证据学习的复合损失函数，旨在解决多标签胸部疾病分类中因放射学报告模糊性导致的不确定性问题，从而提升临床决策的可靠性。

Antik Aich Roy, Ujjwal Bhattacharya2026-03-03🤖 cs.AI

Optimisation of SOUP-GAN and CSR-GAN for High Resolution MR Images Reconstruction

本研究通过引入卷积层、LeakyReLU 激活函数、超参数优化及谱归一化等改进策略，对 SOUP-GAN 和 CSR-GAN 模型进行了优化，显著提升了高分辨率 MR 图像的重建质量，其中 CSR-GAN 在高频细节和去噪方面表现更佳，而 SOUP-GAN 则在图像结构保持和噪声抑制上更具优势，为疾病诊断提供了更优质的影像工具。

Muneeba Rashid, Hina Shakir, Humaira Mehwish + 2 more2026-03-03⚡ eess

Efficient Flow Matching for Sparse-View CT Reconstruction

该论文提出了一种基于流匹配的稀疏视图 CT 重建框架（FMCT）及其高效变体（EFMCT），通过利用确定性轨迹和复用速度场来减少神经网络函数调用次数，在显著降低计算成本的同时实现了与扩散模型相当的重建质量。

Jiayang Shi, Lincen Yang, Zhong Li + 3 more2026-03-03⚡ eess

TACIT Benchmark: A Programmatic Visual Reasoning Benchmark for Generative and Discriminative Models

本文介绍了 TACIT 基准，这是一个包含 10 个任务、覆盖 6 个推理领域的程序化视觉推理基准，通过生成式（确定性验证）和判别式（含结构化近邻干扰项的五选一）双轨评估机制，旨在克服现有基准依赖自然语言提示、推理模态狭窄及评分主观性等局限。

Daniel Nobrega Medeiros2026-03-03🤖 cs.AI

VisRef: Visual Refocusing while Thinking Improves Test-Time Scaling in Multi-Modal Large Reasoning Models

针对多模态大模型在推理过程中因过度依赖文本先验而忽视视觉信息的问题，本文提出了无需强化学习微调的 VisRef 框架，通过动态重注入语义相关且具代表性的视觉 Token 核心集，在固定计算预算下显著提升了视觉推理任务的性能。

Soumya Suvra Ghosal, Youngeun Kim, Zhuowei Li + 6 more2026-03-03🤖 cs.AI

Physical Evaluation of Naturalistic Adversarial Patches for Camera-Based Traffic-Sign Detection

该论文提出了一种基于定制数据集 CompGTSRB 训练 YOLOv5 模型并利用 GAN 生成自然主义对抗补丁的方法，通过 Quanser QCar 实车实验验证了这些补丁在不同距离、尺寸和位置下能有效降低交通标志检测器的 STOP 类别置信度，从而为评估物理世界对抗攻击及推动嵌入式感知防御研究提供了系统性的方法论。

Brianna D'Urso, Tahmid Hasan Sakib, Syed Rafay Hasan + 1 more2026-03-03🤖 cs.AI

Pretty Good Measurement for Radiomics: A Quantum-Inspired Multi-Class Classifier for Lung Cancer Subtyping and Prostate Cancer Risk Stratification

本文提出了一种基于“最优测量”（PGM）的量子启发式多类分类器，将其应用于非小细胞肺癌亚型分类和前列腺癌风险分层，结果表明该方法在保持竞争力的同时，在部分任务中优于传统基线模型。

Giuseppe Sergioli, Carlo Cuccu, Giovanni Pasini + 4 more2026-03-03⚛️ quant-ph

Scaling Quantum Machine Learning without Tricks: High-Resolution and Diverse Image Generation

本文提出了一种无需降维或分块等技巧的端到端量子生成对抗网络，通过引入归纳偏置和增强噪声输入技术，在 MNIST、Fashion-MNIST 及 SVHN 等数据集上成功实现了全分辨率、多样化的图像生成，并确立了新的性能标杆。

Jonas Jäger, Florian J. Kiwit, Carlos A. Riofrío2026-03-03⚛️ quant-ph

Adversarial Patch Generation for Visual-Infrared Dense Prediction Tasks via Joint Position-Color Optimization

本文针对视觉 - 红外密集预测任务中多模态对抗攻击面临的挑战，提出了一种无需内部模型信息的联合位置 - 颜色优化框架（AP-PCO），通过同步优化补丁位置与颜色并引入跨模态颜色适应策略，实现了在可见光与红外双模态下的高效隐蔽攻击。

He Li, Wenyue He, Weihang Kong + 1 more2026-03-03💻 cs