cs.CV 篇论文 | Gist.Science

Hepato-LLaVA: An Expert MLLM with Sparse Topo-Pack Attention for Hepatocellular Pathology Analysis on Whole Slide Images

本文提出了专为肝细胞病理分析设计的多模态大语言模型 Hepato-LLaVA，通过引入稀疏拓扑打包注意力机制有效解决全切片图像中的信息丢失与特征冗余问题，并构建了专家验证的 HepatoPathoVQA 数据集，在肝癌诊断与描述任务中取得了领先性能。

Yuxuan Yang, Zhonghao Yan, Yi Zhang + 6 more2026-03-03💻 cs

Leveraging Causal Reasoning Method for Explaining Medical Image Segmentation Models

该论文提出了一种基于因果推理框架的医学图像分割模型解释方法，通过量化平均处理效应来评估输入区域及网络组件对分割结果的影响，实验表明该方法不仅比现有技术提供更忠实的解释，还能揭示不同模型及输入间感知策略的显著异质性，为模型优化提供了新见解。

Limai Jiang, Ruitao Xie, Bokai Yang + 6 more2026-03-03💻 cs

Dataset Color Quantization: A Training-Oriented Framework for Dataset-Level Compression

本文提出了数据集颜色量化（DCQ）框架，通过减少图像颜色空间的冗余并保留对模型训练至关重要的语义和结构信息，在显著压缩大规模图像数据集存储需求的同时提升了模型训练性能。

Chenyue Yu, Lingao Xiao, Jinhong Deng + 2 more2026-03-03🤖 cs.AI

VII: Visual Instruction Injection for Jailbreaking Image-to-Video Generation Models

该论文提出了名为“视觉指令注入（VII）”的训练无关且可迁移的越狱框架，通过将恶意文本意图伪装成安全参考图像中的视觉指令，成功利用图像到视频生成模型的视觉指令跟随能力，在四大主流商业模型上实现了高达 83.5% 的攻击成功率并几乎消除了拒绝响应。

Bowen Zheng, Yongli Xiang, Ziming Hong + 4 more2026-03-03💻 cs

HorizonForge: Driving Scene Editing with Any Trajectories and Any Vehicles

本文提出了 HorizonForge，这是一个通过结合可编辑的 Gaussian Splats 与 Mesh 表示及噪声感知视频扩散过程，实现任意轨迹和车辆驱动的逼真驾驶场景编辑的统一框架，并配套推出了 HorizonSuite 基准测试以验证其在保真度与可控性上的显著优势。

Yifan Wang, Francesco Pittaluga, Zaid Tasneem + 3 more2026-03-03💻 cs

Joint Shadow Generation and Relighting via Light-Geometry Interaction Maps

本文提出了一种基于光 - 几何交互（LGI）图的新方法，通过将光照方向与几何结构显式关联，构建了首个涵盖复杂反射与透射的大规模联合阴影生成与重光照基准数据集，并利用桥接匹配生成模型实现了物理一致且逼真的阴影生成与重光照效果。

Shan Wang, Peixia Li, Chenchen Xu + 4 more2026-03-03💻 cs

PhotoAgent: Agentic Photo Editing with Exploratory Visual Aesthetic Planning

PhotoAgent 提出了一种通过显式美学规划、树搜索多步决策及闭环反馈机制实现自主图像编辑的智能体系统，并构建了 UGC-Edit 基准与评估集以验证其在指令遵循和视觉质量上的显著优势。

Mingde Yao, Zhiyuan You, King-Man Tam + 2 more2026-03-03💻 cs

OmniGAIA: Towards Native Omni-Modal AI Agents

本文提出了旨在评估跨视频、音频和图像模态深度推理与工具使用能力的 OmniGAIA 基准，并构建了基于主动感知与工具集成推理范式的原生全模态智能体 OmniAtlas，以推动面向真实场景的下一代全模态 AI 助手发展。

Xiaoxi Li, Wenxiang Jiao, Jiarui Jin + 8 more2026-03-03💬 cs.CL

HELMLAB: An Analytical, Data-Driven Color Space for Perceptual Distance in UI Design Systems

本文提出了 HELMLAB，一种专为 UI 设计系统打造的 72 参数解析色彩空间，它通过结合学习矩阵、通道幂压缩及傅里叶色相校正等机制，在 COMBVD 数据集上将感知距离的 STRESS 值较 CIEDE2000 降低了 20.2%，并具备高可逆性及完善的设计系统实用工具。

Gorkem Yildiz2026-03-03💻 cs

AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

本文提出了名为 AgentVista 的基准测试，旨在通过涵盖 25 个子领域、结合高保真视觉场景与混合工具调用的长程任务，评估并揭示当前多模态智能体在应对现实世界复杂问题时的显著能力差距。

Zhaochen Su, Jincheng Gao, Hangyu Guo + 10 more2026-03-03💻 cs

V-MORALS: Visual Morse Graph-Aided Estimation of Regions of Attraction in a Learned Latent Space

本文提出了 V-MORALS 方法，该方法利用图像轨迹数据在 learned 潜在空间中构建 Morse 图，从而在无需系统动力学模型或完整状态信息的情况下，有效估计机器人系统的吸引域。

Faiz Aladin, Ashwin Balasubramanian, Lars Lindemann + 1 more2026-03-03🤖 cs.LG

Hierarchical Multi-Scale Graph Learning with Knowledge-Guided Attention for Whole-Slide Image Survival Analysis

本文提出了一种名为 HMKGN 的层次化多尺度知识感知图网络，通过结合空间局部约束的动态图构建与多尺度特征融合，在四个 TCGA 癌症队列的生存分析中显著优于现有方法，实现了更准确的预后预测。

Bin Xu, Yufei Zhou, Boling Song + 6 more2026-03-03⚡ eess

AoE: Always-on Egocentric Human Video Collection for Embodied AI

该论文提出了名为 AoE 的始终在线第一人称视频采集系统，通过利用智能手机和云边协同架构，以低成本、高效率的方式从全球分布的“人类智能体”中获取大规模真实世界交互数据，从而解决具身智能基础模型训练中的数据稀缺问题并提升其泛化能力。

Bowen Yang, Zishuo Li, Yang Sun + 15 more2026-03-03💻 cs

Learning Under Extreme Data Scarcity: Subject-Level Evaluation of Lightweight CNNs for fMRI-Based Prodromal Parkinsons Detection

该研究通过对比不同数据划分策略发现，在基于 40 名受试者 fMRI 数据的帕金森病前驱期检测中，严格的受试者级划分能有效避免信息泄露，且在此极端数据稀缺场景下，轻量级模型 MobileNet 比深层架构表现出更可靠的泛化能力。

Naimur Rahman2026-03-03🤖 cs.LG

cs.CV