cs.CV 篇论文 | Gist.Science

Multi-illuminant Color Constancy via Multi-scale Illuminant Estimation and Fusion

该论文提出了一种基于多尺度图像线性组合与三分支卷积网络的多尺度光照估计及融合方法，通过自适应注意力融合模块有效解决了多光照场景下的颜色恒常性问题，并取得了最先进的性能。

Hang Luo, Rongwei Li, Jinxing Liang2026-03-02⚡ eess

DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training

该论文提出了 DSV 方法，通过利用动态注意力稀疏性、两阶段低秩近似算法及混合稀疏感知上下文并行策略，在无需损失生成质量的前提下，将大规模视频 DiT 训练的吞吐量最高提升了 3.02 倍。

Xin Tan, Yuetao Chen, Yimin Jiang + 6 more2026-03-02💻 cs

Spread them Apart: Towards Robust Watermarking of Generated Content

本文提出了一种在推理阶段嵌入水印的无需重训练方法，用于生成式图像内容的版权保护与溯源，并证明了该水印在对抗加性扰动及多种合成移除攻击时具有鲁棒性。

Mikhail Pautov, Danil Ivanov, Andrey V. Galichin + 2 more2026-03-02🤖 cs.AI

JiSAM: Alleviate Labeling Burden and Corner Case Problems in Autonomous Driving via Minimal Real-World Data

本文提出了名为 JiSAM 的即插即用方法，通过抖动增强、领域感知骨干网络及基于记忆的扇区对齐技术，仅需 2.5% 的真实标注数据结合模拟数据，即可在 NuScenes 数据集上实现与全量真实数据训练相当的性能，并显著提升了对未标注罕见目标的检测能力。

Runjian Chen, Wenqi Shao, Bo Zhang + 3 more2026-03-02💻 cs

Autoregressive Image Generation with Randomized Parallel Decoding

本文提出了 ARPG 模型，通过解耦位置引导与内容表示并引入随机并行解码机制，在保持因果注意力结构的同时实现了高效的零样本泛化与并行推理，显著提升了图像生成的速度与内存效率。

Haopeng Li, Jinyue Yang, Guoqi Li + 1 more2026-03-02💻 cs

Towards Generating Realistic 3D Semantic Training Data for Autonomous Driving

本文提出了一种无需图像投影或多分辨率解耦模型的直接生成方法，用于创建逼真的 3D 语义场景数据，并验证了将其与真实标签结合训练能显著提升自动驾驶语义分割模型的性能。

Lucas Nunes, Rodrigo Marcuzzi, Jens Behley + 1 more2026-03-02💻 cs

Investigating Text Insulation and Attention Mechanisms for Complex Visual Text Generation

本文提出了受认知科学选择性视觉注意力启发的 TextCrafter 框架，通过引入“文本绝缘与注意力”机制及基于强化学习的优化策略，在无需增加参数且资源消耗更低的情况下，显著提升了复杂视觉文本生成的质量，并发布了包含 2000 个复杂提示的 CVTG-2K 基准数据集以验证其优越性。

Ying Tai, Nikai Du, Rui Xie + 5 more2026-03-02💻 cs

Multimodal Knowledge Distillation for Egocentric Action Recognition Robust to Missing Modalities

本文提出了 KARMMA 框架，这是一种无需模态对齐即可在训练和推理中处理缺失模态的多模态知识蒸馏方法，它通过从多模态教师模型向轻量级学生模型蒸馏知识，显著提升了第一人称视角动作识别在模态缺失场景下的鲁棒性，同时降低了计算资源消耗。

Maria Santos-Villafranca, Dustin Carrión-Ojeda, Alejandro Perez-Yus + 3 more2026-03-02💻 cs

What Makes Good Synthetic Training Data for Zero-Shot Stereo Matching?

该论文通过系统研究程序化生成数据集的参数设计，发现仅使用其构建的大规模合成数据集进行训练，在零样本立体匹配任务上不仅优于混合主流数据集的训练效果，且与 FoundationStereo 数据集表现相当，同时提供了开源代码与参数分析以促进后续研究。

David Yan, Alexander Raistrick, Jia Deng2026-03-02💻 cs

FermatSyn: SAM2-Enhanced Bidirectional Mamba with Isotropic Spiral Scanning for Multi-Modal Medical Image Synthesis

本文提出了 FermatSyn，一种结合 SAM2 先验编码器、分层残差下采样模块及双向费马螺旋扫描 Mamba 架构的多模态医学图像合成方法，通过注入解剖学先验知识并构建近似各向同性的感受野，有效解决了全局解剖一致性与局部细节保真度难以兼顾的问题，在多项基准测试及下游分割任务中展现出优越性能。

Feng Yuan2026-03-02⚡ eess

On the use of Graphs for Satellite Image Time Series

本文探讨了将图方法应用于卫星图像时间序列（SITS）分析，提出了一种构建时空图并用于下游任务的通用流程，通过综述和两个案例研究展示了其在土地覆盖制图与水资源预测中的潜力，并讨论了未来的发展方向。

Corentin Dufourg, Charlotte Pelletier, Stéphane May + 1 more2026-03-02💻 cs

Efficient Degradation-agnostic Image Restoration via Channel-Wise Functional Decomposition and Manifold Regularization

本文提出了 MIRAGE 框架，通过通道级功能分解与流形正则化技术，在保持高效性的同时实现了针对多样化退化类型的统一图像恢复，并在性能与效率上超越了现有方法。

Bin Ren, Yawei Li, Xu Zheng + 6 more2026-03-02💻 cs

OmniFall: From Staged Through Synthetic to Wild, A Unified Multi-Domain Dataset for Robust Fall Detection

本文提出了 OmniFall，这是一个包含 80 小时视频和 16 类细粒度标注的统一多域基准数据集，通过整合标准化真实场景、合成数据及首个真实事故测试集，旨在推动隐私友好且具备强泛化能力的鲁棒跌倒检测与分割研究。

David Schneider, Zdravko Marinov, Zeyun Zhong + 5 more2026-03-02💻 cs

Cora: Correspondence-aware image editing using few step diffusion

本文提出了名为 Cora 的图像编辑框架，通过引入对应感知噪声校正和插值注意力图，利用语义对应关系在少步扩散过程中实现结构保持与纹理转移的平衡，从而有效解决了现有方法在处理非刚性形变、物体修改及内容生成时易产生伪影或丢失关键属性的难题。

Amirhossein Alimohammadi, Aryan Mikaeili, Sauradip Nag + 3 more2026-03-02💻 cs

ECAM: A Contrastive Learning Approach to Avoid Environmental Collision in Trajectory Forecasting

本文提出了名为 ECAM 的基于对比学习的模块，旨在增强现有行人轨迹预测模型对环境障碍的感知与避让能力，从而显著降低预测轨迹中的碰撞率。

Giacomo Rosin, Muhammad Rameez Ur Rahman, Sebastiano Vascon2026-03-02💻 cs

LLM-Enhanced Multimodal Fusion for Cross-Domain Sequential Recommendation

本文提出了 LLM-EMF 模型，通过利用大语言模型增强文本信息并结合冻结 CLIP 模型融合视觉与文本数据，利用多注意力机制有效捕捉跨域用户偏好，从而在多个电商数据集上显著提升了跨域序列推荐的性能。

Wangyu Wu, Zhenhong Chen, Wenqiao Zhang + 5 more2026-03-02💻 cs

Distilling Balanced Knowledge from a Biased Teacher

本文提出了长尾知识蒸馏（LTKD）框架，通过将蒸馏目标分解为组间和组内损失并引入重平衡与重加权机制，有效解决了传统知识蒸馏在长尾分布下因教师模型偏差而导致的尾部类别性能不足问题。

Seonghak Kim2026-03-02💻 cs

Empowering Small VLMs to Think with Dynamic Memorization and Exploration

本文提出了 DyME 框架，通过动态平衡监督微调（SFT）与强化学习（RLVR）并引入视觉监督机制，有效解决了小尺度视觉语言模型（SVLMs）在训练思考能力时面临的记忆伪迹与探索不稳定问题，从而显著提升了其在专有任务中的性能与可靠性。

Jiazhen Liu, Yuchuan Deng, Long Chen2026-03-02💻 cs

SelvaBox: A high-resolution dataset for tropical tree crown detection

本文介绍了 SelvaBox，这是一个涵盖三个国家、包含超过 83,000 个手动标注树冠的开源高分辨率无人机影像数据集，旨在解决热带森林树冠检测中数据稀缺的难题，并证明了其在提升检测精度及实现跨数据集零-shot 泛化方面的卓越性能。

Hugo Baudchon, Arthur Ouaknine, Martin Weiss + 5 more2026-03-02💻 cs

Concept-based Adversarial Attack: a Probabilistic Perspective

本文提出了一种基于概率视角的概念型对抗攻击框架，该框架通过在概念分布上采样生成多样化的对抗样本，在有效保持原始概念（如身份或类别）的同时，实现了对分类器的高效攻击。

Andi Zhang, Xuan Ding, Steven McDonagh + 1 more2026-03-02🤖 cs.AI