cs.CV 篇论文 | Gist.Science

Learning Under Extreme Data Scarcity: Subject-Level Evaluation of Lightweight CNNs for fMRI-Based Prodromal Parkinsons Detection

该研究通过对比不同数据划分策略发现，在基于 40 名受试者 fMRI 数据的帕金森病前驱期检测中，严格的受试者级划分能有效避免信息泄露，且在此极端数据稀缺场景下，轻量级模型 MobileNet 比深层架构表现出更可靠的泛化能力。

Naimur Rahman2026-03-03🤖 cs.LG

Certainty-Validity: A Diagnostic Framework for Discrete Commitment Systems

该论文针对离散承诺系统提出了一种“确定性 - 有效性”（CVS）诊断框架，通过区分高/低确定性与有效/无效预测，揭示了标准准确率指标无法识别的“自信错误”幻觉问题，并论证了模型在模糊数据上拒绝盲目承诺而非强行过拟合的机制才是推理系统的理想特征。

Datorien L. Anderson2026-03-03🤖 cs.LG

Automated Quality Check of Sensor Data Annotations

本文提出了一种用于自动检测铁路车辆多传感器数据标注中九种常见错误的开源工具，旨在通过显著减少人工工作量并实现高准确率（部分方法达 100% 精度）来保障自动驾驶训练数据的质量。

Niklas Freund, Zekiye Ilknur-Öz, Tobias Klockau + 3 more2026-03-03💻 cs

Multimodal Modular Chain of Thoughts in Energy Performance Certificate Assessment

本文提出了一种名为多模态模块化思维链（MMCoT）的框架，利用视觉语言模型将能源绩效证书（EPC）评估分解为中间推理阶段，并通过结构化提示在任务间显式传播推断属性，从而在数据稀缺场景下实现了比单纯指令提示更准确的低成本建筑能源性能预评估。

Zhen Peng, Peter J. Bentley2026-03-03🤖 cs.AI

VoxelDiffusionCut: Non-destructive Internal-part Extraction via Iterative Cutting and Structure Estimation

本文提出了一种名为 VoxelDiffusionCut 的方法，利用基于扩散模型的体素化迭代结构估计技术，在缺乏拆解信息的情况下，通过捕捉未观察区域的不确定性来规划切割路径，从而实现电池和电机等目标内部部件的非破坏性提取。

Takumi Hachimine, Yuhwan Kwon, Cheng-Yu Kuo + 2 more2026-03-03💻 cs

Efficient Image Super-Resolution with Multi-Scale Spatial Adaptive Attention Networks

本文提出了一种名为多尺度空间自适应注意力网络（MSAAN）的轻量级图像超分辨率方法，通过引入多尺度空间自适应注意力模块等创新组件，在显著降低模型复杂度的同时实现了优于现有方法的重建精度与纹理细节恢复效果。

Sushi Rao, Jingwei Li2026-03-03💻 cs

BiSe-Unet: A Lightweight Dual-path U-Net with Attention-refined Context for Real-time Medical Image Segmentation

本文提出了 BiSe-Unet，一种专为资源受限设备设计的轻量级双路径 U-Net 模型，它通过结合注意力机制优化的上下文路径与浅层空间路径，在 Kvasir-Seg 数据集上实现了兼顾高精度与实时性（树莓派 5 上超过 30 FPS）的结肠息肉分割。

M Iffat Hossain, Laura Brattain2026-03-03💻 cs

NovaLAD: A Fast, CPU-Optimized Document Extraction Pipeline for Generative AI and Data Intelligence

本文介绍了 NovaLAD，一种专为生成式 AI 和数据智能设计的快速 CPU 优化文档提取流水线，它通过并行运行双 YOLO 检测模型、智能图像过滤及可选的视觉语言增强，在不依赖 GPU 的情况下实现了优于商业和开源解析器的结构化数据提取性能。

Aman Ulla2026-03-03🤖 cs.AI

CT-Flow: Orchestrating CT Interpretation Workflow with Model Context Protocol Servers

本文提出了名为 CT-Flow 的代理框架，通过利用模型上下文协议（MCP）将静态推理转变为动态的工具感知工作流，并构建了首个 3D CT 工具使用基准 CT-FlowBench，从而在诊断准确性和自主工具调用成功率上实现了显著突破，为将自主智能集成到临床放射学实践中奠定了基础。

Yannian Gu, Xizhuo Zhang, Linjie Mu + 4 more2026-03-03🤖 cs.AI

QuickGrasp: Responsive Video-Language Querying Service via Accelerated Tokenization and Edge-Augmented Inference

本文提出了 QuickGrasp，一种基于本地优先架构与按需边缘增强机制的视频语言查询服务系统，通过加速视频分词、查询自适应边缘增强及延迟感知的视觉 Token 密度配置等关键技术，在保持与大模型相当准确率的同时，将响应延迟降低了高达 12.8 倍。

Miao Zhang, Ruixiao Zhang, Jianxin Shi + 3 more2026-03-03⚡ eess

Segmenting Low-Contrast XCTs of Concretes: An Unsupervised Approach

本文提出了一种基于自标注的无监督方法，利用超像素算法结合卷积神经网络的全局 - 局部关系学习，有效解决了混凝土 X 射线计算机断层扫描（XCT）图像中骨料与砂浆对比度低导致的语义分割难题。

Kaustav Das, Gaston Rauchs, Jan Sykora + 1 more2026-03-03💻 cs

Predicting Local Climate Zones using Urban Morphometrics and Satellite Imagery

该研究通过评估基于城市形态指标及其与卫星影像融合的方法对本地气候区（LCZ）的预测能力，发现形态指标与 LCZ 的对应关系具有选择性和不一致性，且融合方法带来的精度提升有限，表明 LCZ 框架在形态学研究中的应用需谨慎。

Hugo Majer, Martin Fleischmann2026-03-03💻 cs

You Don't Need All That Attention: Surgical Memorization Mitigation in Text-to-Image Diffusion Models

本文提出了名为 GUARD 的新框架，通过一种基于新颖统计机制的跨注意力衰减方法，在推理阶段动态引导扩散模型的生成过程，从而在保持图像质量的同时，有效且鲁棒地缓解了模型对训练数据的记忆（包括逐字和模板化记忆）问题。

Kairan Zhao, Eleni Triantafillou, Peter Triantafillou2026-03-03🤖 cs.AI

TinyVLM: Zero-Shot Object Detection on Microcontrollers via Vision-Language Distillation with Matryoshka Embeddings

本文提出了 TinyVLM 框架，通过解耦架构、Matryoshka 嵌入蒸馏及量化存储等创新技术，首次实现了仅需不到 1MB 内存即可在微控制器上运行的高效零样本目标检测。

Bibin Wilson2026-03-03🤖 cs.AI

Latent Replay Detection: Memory-Efficient Continual Object Detection on Microcontrollers via Task-Adaptive Compression

本文提出了首个适用于微控制器的持续目标检测框架“潜在回放检测（LRD）”，通过任务自适应压缩和空间多样性样本选择技术，在仅 64KB 内存预算下实现了高效的增量学习，解决了边缘设备无法在部署后学习新类别的难题。

Bibin Wilson2026-03-03💻 cs

Towards Data-driven Nitrogen Estimation in Wheat Fields using Multispectral Images

本文提出了名为 TerrAI 的基于神经网络的解决方案，利用多光谱图像分析小麦田的时空变异性，以支持精准施肥和喷药的数据驱动决策。

Andreas Tritsarolis, Tomaž Bokan, Matej Brumen + 2 more2026-03-03💻 cs

Steering Away from Memorization: Reachability-Constrained Reinforcement Learning for Text-to-Image Diffusion

该论文提出了 RADS 框架，通过将扩散去噪过程建模为动力学系统并利用可达性分析识别记忆化状态，进而采用约束强化学习在推理阶段引导生成轨迹避开记忆化样本，从而在不修改模型骨干的前提下实现了图像质量、提示对齐度与生成多样性的最优平衡。

Sathwik Karnik, Juyeop Kim, Sanmi Koyejo + 2 more2026-03-03🤖 cs.AI

From Scale to Speed: Adaptive Test-Time Scaling for Image Editing

本文提出了自适应编辑思维链（ADE-CoT）框架，通过难度感知资源分配、编辑特定验证及深度优先机会性停止策略，有效解决了将图像思维链应用于图像编辑时的资源低效与验证不可靠问题，在显著提升编辑性能的同时实现了超过两倍的推理加速。

Xiangyan Qu, Zhenlong Yuan, Jing Tang + 9 more2026-03-03⚡ eess

GrapHist: Graph Self-Supervised Learning for Histopathology

本文提出了名为 GrapHist 的新型图自监督学习框架，通过将组织建模为细胞图并结合掩码自编码器与异质图神经网络，在显著减少参数量的同时实现了优于现有视觉模型和全监督图模型的泛化性能，并发布了首个大规模数字病理图基准数据集。

Sevda Öğüt, Cédric Vincent-Cuaz, Natalia Dubljevic + 4 more2026-03-03🤖 cs.LG

Disentangled Hierarchical VAE for 3D Human-Human Interaction Generation

本文提出了一种基于解耦分层变分自编码器的潜在扩散模型（DHVAE），通过 CoTransformer 模块将全局交互上下文与个体运动模式解耦，并结合对比学习与 DDIM 去噪过程，实现了高保真、语义对齐且物理合理的 3D 人机交互生成。

Zichen Geng, Zeeshan Hayder, Bo Miao + 3 more2026-03-03🤖 cs.AI