cs.CV 篇论文 | Gist.Science

Investigating Disability Representations in Text-to-Image Models

本研究通过分析 Stable Diffusion XL 和 DALL-E 3 的生成结果，揭示了当前文生图模型在残障群体表征上存在的持续失衡问题，并强调了通过持续评估与优化以推动更具包容性描绘的必要性。

Yang Tian, Yu Fan, Liudmila Zavolokina + 1 more2026-03-03💬 cs.CL

RFDM: Residual Flow Diffusion Model for Efficient Causal Video Editing

本文提出了残差流扩散模型（RFDM），这是一种基于图像扩散模型的高效因果视频编辑方法，通过预测帧间残差实现了可变长度视频的逐帧编辑，在保持与图像模型相当计算成本的同时，显著提升了视频编辑的效率与效果。

Mohammadreza Salehi, Mehdi Noroozi, Luca Morreale + 4 more2026-03-03💻 cs

Single-Slice-to-3D Reconstruction in Medical Imaging and Natural Objects: A Comparative Benchmark with SAM 3D

该研究通过对比五个前沿模型在医疗与自然图像数据集上的表现，揭示了单切片重建 3D 体积时因深度模糊导致的体素重叠率普遍低下，但指出 SAM3D 在拓扑相似性上表现最佳，从而强调了实现可靠医疗 3D 重建亟需领域特定适配与解剖约束。

Yan Luo, Advaith Ravishankar, Serena Liu + 2 more2026-03-03💻 cs

EchoTorrent: Towards Swift, Sustained, and Streaming Multi-Modal Video Generation

本文提出了 EchoTorrent，一种通过多教师训练、自适应 CFG 校准、混合长尾强制及 VAE 解码器优化等创新设计，旨在解决多模态视频生成中延迟高、时序不稳定及流式推理性能下降问题，从而实现快速、持久且同步的高质量视频生成的新型架构。

Rang Meng, Yingjie Yin, Yuming Li + 1 more2026-03-03💻 cs

Deformation-Free Cross-Domain Image Registration via Position-Encoded Temporal Attention

本文提出了 GPEReg-Net，一种通过位置编码时序注意力机制将跨域图像配准转化为场景表示与外观统计解耦重组的无变形配准方法，在无需显式估计形变场的情况下实现了超越现有方法的精度与速度。

Yiwen Wang, Jiahao Qin2026-03-03🤖 cs.AI

OmniCT: Towards a Unified Slice-Volume LVLM for Comprehensive CT Analysis

本文提出了 OmniCT，一种统一的 CT 切片 - 体积大语言模型，通过空间一致性增强和器官级语义增强机制，有效解决了现有模型在局部细节与全局空间推理上的割裂问题，并发布了大规模数据集 MedEval-CT 以推动医学影像理解的临床转化。

Tianwei Lin, Zhongwei Qiu, Wenqiao Zhang + 12 more2026-03-03🤖 cs.AI

Prefer-DAS: Learning from Local Preferences and Sparse Prompts for Domain Adaptive Segmentation of Electron Microscopy

本文提出了 Prefer-DAS 模型，通过结合稀疏提示学习与局部偏好优化（包括 LPO、SLPO 及 UPO），在仅需稀疏点标注或人类反馈的情况下，实现了比现有无监督及弱监督方法更优越且接近全监督水平的电子显微镜域自适应分割性能。

Jiabao Chen, Shan Xiong, Jialin Peng2026-03-03💻 cs

Hepato-LLaVA: An Expert MLLM with Sparse Topo-Pack Attention for Hepatocellular Pathology Analysis on Whole Slide Images

本文提出了专为肝细胞病理分析设计的多模态大语言模型 Hepato-LLaVA，通过引入稀疏拓扑打包注意力机制有效解决全切片图像中的信息丢失与特征冗余问题，并构建了专家验证的 HepatoPathoVQA 数据集，在肝癌诊断与描述任务中取得了领先性能。

Yuxuan Yang, Zhonghao Yan, Yi Zhang + 6 more2026-03-03💻 cs

Leveraging Causal Reasoning Method for Explaining Medical Image Segmentation Models

该论文提出了一种基于因果推理框架的医学图像分割模型解释方法，通过量化平均处理效应来评估输入区域及网络组件对分割结果的影响，实验表明该方法不仅比现有技术提供更忠实的解释，还能揭示不同模型及输入间感知策略的显著异质性，为模型优化提供了新见解。

Limai Jiang, Ruitao Xie, Bokai Yang + 6 more2026-03-03💻 cs

Dataset Color Quantization: A Training-Oriented Framework for Dataset-Level Compression

本文提出了数据集颜色量化（DCQ）框架，通过减少图像颜色空间的冗余并保留对模型训练至关重要的语义和结构信息，在显著压缩大规模图像数据集存储需求的同时提升了模型训练性能。

Chenyue Yu, Lingao Xiao, Jinhong Deng + 2 more2026-03-03🤖 cs.AI

VII: Visual Instruction Injection for Jailbreaking Image-to-Video Generation Models

该论文提出了名为“视觉指令注入（VII）”的训练无关且可迁移的越狱框架，通过将恶意文本意图伪装成安全参考图像中的视觉指令，成功利用图像到视频生成模型的视觉指令跟随能力，在四大主流商业模型上实现了高达 83.5% 的攻击成功率并几乎消除了拒绝响应。

Bowen Zheng, Yongli Xiang, Ziming Hong + 4 more2026-03-03💻 cs

HorizonForge: Driving Scene Editing with Any Trajectories and Any Vehicles

本文提出了 HorizonForge，这是一个通过结合可编辑的 Gaussian Splats 与 Mesh 表示及噪声感知视频扩散过程，实现任意轨迹和车辆驱动的逼真驾驶场景编辑的统一框架，并配套推出了 HorizonSuite 基准测试以验证其在保真度与可控性上的显著优势。

Yifan Wang, Francesco Pittaluga, Zaid Tasneem + 3 more2026-03-03💻 cs

Joint Shadow Generation and Relighting via Light-Geometry Interaction Maps

本文提出了一种基于光 - 几何交互（LGI）图的新方法，通过将光照方向与几何结构显式关联，构建了首个涵盖复杂反射与透射的大规模联合阴影生成与重光照基准数据集，并利用桥接匹配生成模型实现了物理一致且逼真的阴影生成与重光照效果。

Shan Wang, Peixia Li, Chenchen Xu + 4 more2026-03-03💻 cs

PhotoAgent: Agentic Photo Editing with Exploratory Visual Aesthetic Planning

PhotoAgent 提出了一种通过显式美学规划、树搜索多步决策及闭环反馈机制实现自主图像编辑的智能体系统，并构建了 UGC-Edit 基准与评估集以验证其在指令遵循和视觉质量上的显著优势。

Mingde Yao, Zhiyuan You, King-Man Tam + 2 more2026-03-03💻 cs

OmniGAIA: Towards Native Omni-Modal AI Agents

本文提出了旨在评估跨视频、音频和图像模态深度推理与工具使用能力的 OmniGAIA 基准，并构建了基于主动感知与工具集成推理范式的原生全模态智能体 OmniAtlas，以推动面向真实场景的下一代全模态 AI 助手发展。

Xiaoxi Li, Wenxiang Jiao, Jiarui Jin + 8 more2026-03-03💬 cs.CL

HELMLAB: An Analytical, Data-Driven Color Space for Perceptual Distance in UI Design Systems

本文提出了 HELMLAB，一种专为 UI 设计系统打造的 72 参数解析色彩空间，它通过结合学习矩阵、通道幂压缩及傅里叶色相校正等机制，在 COMBVD 数据集上将感知距离的 STRESS 值较 CIEDE2000 降低了 20.2%，并具备高可逆性及完善的设计系统实用工具。

Gorkem Yildiz2026-03-03💻 cs

AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

本文提出了名为 AgentVista 的基准测试，旨在通过涵盖 25 个子领域、结合高保真视觉场景与混合工具调用的长程任务，评估并揭示当前多模态智能体在应对现实世界复杂问题时的显著能力差距。

Zhaochen Su, Jincheng Gao, Hangyu Guo + 10 more2026-03-03💻 cs

V-MORALS: Visual Morse Graph-Aided Estimation of Regions of Attraction in a Learned Latent Space

本文提出了 V-MORALS 方法，该方法利用图像轨迹数据在 learned 潜在空间中构建 Morse 图，从而在无需系统动力学模型或完整状态信息的情况下，有效估计机器人系统的吸引域。

Faiz Aladin, Ashwin Balasubramanian, Lars Lindemann + 1 more2026-03-03🤖 cs.LG

Hierarchical Multi-Scale Graph Learning with Knowledge-Guided Attention for Whole-Slide Image Survival Analysis

本文提出了一种名为 HMKGN 的层次化多尺度知识感知图网络，通过结合空间局部约束的动态图构建与多尺度特征融合，在四个 TCGA 癌症队列的生存分析中显著优于现有方法，实现了更准确的预后预测。

Bin Xu, Yufei Zhou, Boling Song + 6 more2026-03-03⚡ eess

AoE: Always-on Egocentric Human Video Collection for Embodied AI

该论文提出了名为 AoE 的始终在线第一人称视频采集系统，通过利用智能手机和云边协同架构，以低成本、高效率的方式从全球分布的“人类智能体”中获取大规模真实世界交互数据，从而解决具身智能基础模型训练中的数据稀缺问题并提升其泛化能力。

Bowen Yang, Zishuo Li, Yang Sun + 15 more2026-03-03💻 cs