cs.CV 篇论文 | Gist.Science

Joint Shadow Generation and Relighting via Light-Geometry Interaction Maps

本文提出了一种基于光 - 几何交互（LGI）图的新方法，通过将光照方向与几何结构显式关联，构建了首个涵盖复杂反射与透射的大规模联合阴影生成与重光照基准数据集，并利用桥接匹配生成模型实现了物理一致且逼真的阴影生成与重光照效果。

Shan Wang, Peixia Li, Chenchen Xu + 4 more2026-03-03💻 cs

PhotoAgent: Agentic Photo Editing with Exploratory Visual Aesthetic Planning

PhotoAgent 提出了一种通过显式美学规划、树搜索多步决策及闭环反馈机制实现自主图像编辑的智能体系统，并构建了 UGC-Edit 基准与评估集以验证其在指令遵循和视觉质量上的显著优势。

Mingde Yao, Zhiyuan You, King-Man Tam + 2 more2026-03-03💻 cs

OmniGAIA: Towards Native Omni-Modal AI Agents

本文提出了旨在评估跨视频、音频和图像模态深度推理与工具使用能力的 OmniGAIA 基准，并构建了基于主动感知与工具集成推理范式的原生全模态智能体 OmniAtlas，以推动面向真实场景的下一代全模态 AI 助手发展。

Xiaoxi Li, Wenxiang Jiao, Jiarui Jin + 8 more2026-03-03💬 cs.CL

HELMLAB: An Analytical, Data-Driven Color Space for Perceptual Distance in UI Design Systems

本文提出了 HELMLAB，一种专为 UI 设计系统打造的 72 参数解析色彩空间，它通过结合学习矩阵、通道幂压缩及傅里叶色相校正等机制，在 COMBVD 数据集上将感知距离的 STRESS 值较 CIEDE2000 降低了 20.2%，并具备高可逆性及完善的设计系统实用工具。

Gorkem Yildiz2026-03-03💻 cs

AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

本文提出了名为 AgentVista 的基准测试，旨在通过涵盖 25 个子领域、结合高保真视觉场景与混合工具调用的长程任务，评估并揭示当前多模态智能体在应对现实世界复杂问题时的显著能力差距。

Zhaochen Su, Jincheng Gao, Hangyu Guo + 10 more2026-03-03💻 cs

V-MORALS: Visual Morse Graph-Aided Estimation of Regions of Attraction in a Learned Latent Space

本文提出了 V-MORALS 方法，该方法利用图像轨迹数据在 learned 潜在空间中构建 Morse 图，从而在无需系统动力学模型或完整状态信息的情况下，有效估计机器人系统的吸引域。

Faiz Aladin, Ashwin Balasubramanian, Lars Lindemann + 1 more2026-03-03🤖 cs.LG

Hierarchical Multi-Scale Graph Learning with Knowledge-Guided Attention for Whole-Slide Image Survival Analysis

本文提出了一种名为 HMKGN 的层次化多尺度知识感知图网络，通过结合空间局部约束的动态图构建与多尺度特征融合，在四个 TCGA 癌症队列的生存分析中显著优于现有方法，实现了更准确的预后预测。

Bin Xu, Yufei Zhou, Boling Song + 6 more2026-03-03⚡ eess

AoE: Always-on Egocentric Human Video Collection for Embodied AI

该论文提出了名为 AoE 的始终在线第一人称视频采集系统，通过利用智能手机和云边协同架构，以低成本、高效率的方式从全球分布的“人类智能体”中获取大规模真实世界交互数据，从而解决具身智能基础模型训练中的数据稀缺问题并提升其泛化能力。

Bowen Yang, Zishuo Li, Yang Sun + 15 more2026-03-03💻 cs

Learning Under Extreme Data Scarcity: Subject-Level Evaluation of Lightweight CNNs for fMRI-Based Prodromal Parkinsons Detection

该研究通过对比不同数据划分策略发现，在基于 40 名受试者 fMRI 数据的帕金森病前驱期检测中，严格的受试者级划分能有效避免信息泄露，且在此极端数据稀缺场景下，轻量级模型 MobileNet 比深层架构表现出更可靠的泛化能力。

Naimur Rahman2026-03-03🤖 cs.LG

Certainty-Validity: A Diagnostic Framework for Discrete Commitment Systems

该论文针对离散承诺系统提出了一种“确定性 - 有效性”（CVS）诊断框架，通过区分高/低确定性与有效/无效预测，揭示了标准准确率指标无法识别的“自信错误”幻觉问题，并论证了模型在模糊数据上拒绝盲目承诺而非强行过拟合的机制才是推理系统的理想特征。

Datorien L. Anderson2026-03-03🤖 cs.LG

Automated Quality Check of Sensor Data Annotations

本文提出了一种用于自动检测铁路车辆多传感器数据标注中九种常见错误的开源工具，旨在通过显著减少人工工作量并实现高准确率（部分方法达 100% 精度）来保障自动驾驶训练数据的质量。

Niklas Freund, Zekiye Ilknur-Öz, Tobias Klockau + 3 more2026-03-03💻 cs

Multimodal Modular Chain of Thoughts in Energy Performance Certificate Assessment

本文提出了一种名为多模态模块化思维链（MMCoT）的框架，利用视觉语言模型将能源绩效证书（EPC）评估分解为中间推理阶段，并通过结构化提示在任务间显式传播推断属性，从而在数据稀缺场景下实现了比单纯指令提示更准确的低成本建筑能源性能预评估。

Zhen Peng, Peter J. Bentley2026-03-03🤖 cs.AI

VoxelDiffusionCut: Non-destructive Internal-part Extraction via Iterative Cutting and Structure Estimation

本文提出了一种名为 VoxelDiffusionCut 的方法，利用基于扩散模型的体素化迭代结构估计技术，在缺乏拆解信息的情况下，通过捕捉未观察区域的不确定性来规划切割路径，从而实现电池和电机等目标内部部件的非破坏性提取。

Takumi Hachimine, Yuhwan Kwon, Cheng-Yu Kuo + 2 more2026-03-03💻 cs

Efficient Image Super-Resolution with Multi-Scale Spatial Adaptive Attention Networks

本文提出了一种名为多尺度空间自适应注意力网络（MSAAN）的轻量级图像超分辨率方法，通过引入多尺度空间自适应注意力模块等创新组件，在显著降低模型复杂度的同时实现了优于现有方法的重建精度与纹理细节恢复效果。

Sushi Rao, Jingwei Li2026-03-03💻 cs

BiSe-Unet: A Lightweight Dual-path U-Net with Attention-refined Context for Real-time Medical Image Segmentation

本文提出了 BiSe-Unet，一种专为资源受限设备设计的轻量级双路径 U-Net 模型，它通过结合注意力机制优化的上下文路径与浅层空间路径，在 Kvasir-Seg 数据集上实现了兼顾高精度与实时性（树莓派 5 上超过 30 FPS）的结肠息肉分割。

M Iffat Hossain, Laura Brattain2026-03-03💻 cs

NovaLAD: A Fast, CPU-Optimized Document Extraction Pipeline for Generative AI and Data Intelligence

本文介绍了 NovaLAD，一种专为生成式 AI 和数据智能设计的快速 CPU 优化文档提取流水线，它通过并行运行双 YOLO 检测模型、智能图像过滤及可选的视觉语言增强，在不依赖 GPU 的情况下实现了优于商业和开源解析器的结构化数据提取性能。

Aman Ulla2026-03-03🤖 cs.AI

CT-Flow: Orchestrating CT Interpretation Workflow with Model Context Protocol Servers

本文提出了名为 CT-Flow 的代理框架，通过利用模型上下文协议（MCP）将静态推理转变为动态的工具感知工作流，并构建了首个 3D CT 工具使用基准 CT-FlowBench，从而在诊断准确性和自主工具调用成功率上实现了显著突破，为将自主智能集成到临床放射学实践中奠定了基础。

Yannian Gu, Xizhuo Zhang, Linjie Mu + 4 more2026-03-03🤖 cs.AI

QuickGrasp: Responsive Video-Language Querying Service via Accelerated Tokenization and Edge-Augmented Inference

本文提出了 QuickGrasp，一种基于本地优先架构与按需边缘增强机制的视频语言查询服务系统，通过加速视频分词、查询自适应边缘增强及延迟感知的视觉 Token 密度配置等关键技术，在保持与大模型相当准确率的同时，将响应延迟降低了高达 12.8 倍。

Miao Zhang, Ruixiao Zhang, Jianxin Shi + 3 more2026-03-03⚡ eess

Segmenting Low-Contrast XCTs of Concretes: An Unsupervised Approach

本文提出了一种基于自标注的无监督方法，利用超像素算法结合卷积神经网络的全局 - 局部关系学习，有效解决了混凝土 X 射线计算机断层扫描（XCT）图像中骨料与砂浆对比度低导致的语义分割难题。

Kaustav Das, Gaston Rauchs, Jan Sykora + 1 more2026-03-03💻 cs

Predicting Local Climate Zones using Urban Morphometrics and Satellite Imagery

该研究通过评估基于城市形态指标及其与卫星影像融合的方法对本地气候区（LCZ）的预测能力，发现形态指标与 LCZ 的对应关系具有选择性和不一致性，且融合方法带来的精度提升有限，表明 LCZ 框架在形态学研究中的应用需谨慎。

Hugo Majer, Martin Fleischmann2026-03-03💻 cs