cs.CV 篇论文 | Gist.Science

Shuffle Mamba: State Space Models with Random Shuffle for Multi-Modal Image Fusion

本文提出了一种名为 Shuffle Mamba 的新型多模态图像融合框架，通过引入随机洗牌扫描策略及其理论可逆的逆洗牌变换来消除固定扫描带来的偏差，并结合模态感知表示与蒙特卡洛平均测试方法，实现了优于现有最先进方法的融合质量。

Ke Cao, Xuanhua He, Tao Hu + 3 more2026-03-02💻 cs

Towards Privacy-Guaranteed Label Unlearning in Vertical Federated Learning: Few-Shot Forgetting without Disclosure

本文提出了垂直联邦学习中首个针对标签遗忘的隐私保障方法，通过表示级流形混合增强生成合成嵌入，结合基于梯度的遗忘与恢复优化步骤，在无需泄露数据的前提下实现了高效且保留实用性的标签遗忘。

Hanlin Gu, Hong Xi Tae, Lixin Fan + 1 more2026-03-02🤖 cs.LG

Stereo-Talker: Audio-driven 3D Human Synthesis with Prior-Guided Mixture-of-Experts

本文提出了 Stereo-Talker，一种新颖的单样本音频驱动 3D 人类视频合成系统，它通过融合大语言模型先验来生成高保真动作序列，并利用先验引导的混合专家机制优化扩散模型，从而实现了具备精确口型同步、丰富肢体表达、时间一致性及连续视角控制的高质量 3D 说话人视频生成。

Xiang Deng, Youxin Pang, Xiaochen Zhao + 6 more2026-03-02💻 cs

Aligning Few-Step Diffusion Models with Dense Reward Difference Learning

本文提出了步级扩散策略优化（SDPO）框架，通过双状态轨迹采样、基于潜在相似性的密集奖励预测及奖励差异学习等创新机制，有效解决了少步扩散模型在强化学习中难以对齐特定下游目标的问题，实现了高效且高质量的奖励对齐图像生成。

Ziyi Zhang, Li Shen, Sen Zhang + 6 more2026-03-02🤖 cs.LG

TREND: Unsupervised 3D Representation Learning via Temporal Forecasting for LiDAR Perception

本文提出了名为 TREND 的无监督 3D 表示学习方法，通过结合循环嵌入与时间神经场，利用可微分渲染对 LiDAR 点云序列进行未来帧预测预训练，从而在无需标注的情况下显著提升了下游 3D 目标检测任务的性能。

Runjian Chen, Hyoungseob Park, Bo Zhang + 3 more2026-03-02💻 cs

CLAP: Unsupervised 3D Representation Learning for Fusion 3D Perception via Curvature Sampling and Prototype Learning

本文提出了名为 CLAP 的无监督联合预训练方法，通过曲率采样降低计算成本并利用可学习原型挖掘图像与点云的互补性，从而在融合 3D 感知任务中显著超越了现有最先进方法。

Runjian Chen, Hang Zhang, Avinash Ravichandran + 4 more2026-03-02💻 cs

GenVidBench: A 6-Million Benchmark for AI-Generated Video Detection

本文提出了 GenVidBench，这是一个包含 678 万条视频、涵盖 11 种最先进生成模型且具备跨源跨生成器特性的超大规模基准数据集，旨在解决当前 AI 生成视频检测领域缺乏高质量数据的问题并推动通用检测模型的发展。

Zhenliang Ni, Qiangyu Yan, Mouxiao Huang + 5 more2026-03-02💻 cs

Multi-illuminant Color Constancy via Multi-scale Illuminant Estimation and Fusion

该论文提出了一种基于多尺度图像线性组合与三分支卷积网络的多尺度光照估计及融合方法，通过自适应注意力融合模块有效解决了多光照场景下的颜色恒常性问题，并取得了最先进的性能。

Hang Luo, Rongwei Li, Jinxing Liang2026-03-02⚡ eess

DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training

该论文提出了 DSV 方法，通过利用动态注意力稀疏性、两阶段低秩近似算法及混合稀疏感知上下文并行策略，在无需损失生成质量的前提下，将大规模视频 DiT 训练的吞吐量最高提升了 3.02 倍。

Xin Tan, Yuetao Chen, Yimin Jiang + 6 more2026-03-02💻 cs

Spread them Apart: Towards Robust Watermarking of Generated Content

本文提出了一种在推理阶段嵌入水印的无需重训练方法，用于生成式图像内容的版权保护与溯源，并证明了该水印在对抗加性扰动及多种合成移除攻击时具有鲁棒性。

Mikhail Pautov, Danil Ivanov, Andrey V. Galichin + 2 more2026-03-02🤖 cs.AI

JiSAM: Alleviate Labeling Burden and Corner Case Problems in Autonomous Driving via Minimal Real-World Data

本文提出了名为 JiSAM 的即插即用方法，通过抖动增强、领域感知骨干网络及基于记忆的扇区对齐技术，仅需 2.5% 的真实标注数据结合模拟数据，即可在 NuScenes 数据集上实现与全量真实数据训练相当的性能，并显著提升了对未标注罕见目标的检测能力。

Runjian Chen, Wenqi Shao, Bo Zhang + 3 more2026-03-02💻 cs

Autoregressive Image Generation with Randomized Parallel Decoding

本文提出了 ARPG 模型，通过解耦位置引导与内容表示并引入随机并行解码机制，在保持因果注意力结构的同时实现了高效的零样本泛化与并行推理，显著提升了图像生成的速度与内存效率。

Haopeng Li, Jinyue Yang, Guoqi Li + 1 more2026-03-02💻 cs

Towards Generating Realistic 3D Semantic Training Data for Autonomous Driving

本文提出了一种无需图像投影或多分辨率解耦模型的直接生成方法，用于创建逼真的 3D 语义场景数据，并验证了将其与真实标签结合训练能显著提升自动驾驶语义分割模型的性能。

Lucas Nunes, Rodrigo Marcuzzi, Jens Behley + 1 more2026-03-02💻 cs

Investigating Text Insulation and Attention Mechanisms for Complex Visual Text Generation

本文提出了受认知科学选择性视觉注意力启发的 TextCrafter 框架，通过引入“文本绝缘与注意力”机制及基于强化学习的优化策略，在无需增加参数且资源消耗更低的情况下，显著提升了复杂视觉文本生成的质量，并发布了包含 2000 个复杂提示的 CVTG-2K 基准数据集以验证其优越性。

Ying Tai, Nikai Du, Rui Xie + 5 more2026-03-02💻 cs

Multimodal Knowledge Distillation for Egocentric Action Recognition Robust to Missing Modalities

本文提出了 KARMMA 框架，这是一种无需模态对齐即可在训练和推理中处理缺失模态的多模态知识蒸馏方法，它通过从多模态教师模型向轻量级学生模型蒸馏知识，显著提升了第一人称视角动作识别在模态缺失场景下的鲁棒性，同时降低了计算资源消耗。

Maria Santos-Villafranca, Dustin Carrión-Ojeda, Alejandro Perez-Yus + 3 more2026-03-02💻 cs

What Makes Good Synthetic Training Data for Zero-Shot Stereo Matching?

该论文通过系统研究程序化生成数据集的参数设计，发现仅使用其构建的大规模合成数据集进行训练，在零样本立体匹配任务上不仅优于混合主流数据集的训练效果，且与 FoundationStereo 数据集表现相当，同时提供了开源代码与参数分析以促进后续研究。

David Yan, Alexander Raistrick, Jia Deng2026-03-02💻 cs

FermatSyn: SAM2-Enhanced Bidirectional Mamba with Isotropic Spiral Scanning for Multi-Modal Medical Image Synthesis

本文提出了 FermatSyn，一种结合 SAM2 先验编码器、分层残差下采样模块及双向费马螺旋扫描 Mamba 架构的多模态医学图像合成方法，通过注入解剖学先验知识并构建近似各向同性的感受野，有效解决了全局解剖一致性与局部细节保真度难以兼顾的问题，在多项基准测试及下游分割任务中展现出优越性能。

Feng Yuan2026-03-02⚡ eess

On the use of Graphs for Satellite Image Time Series

本文探讨了将图方法应用于卫星图像时间序列（SITS）分析，提出了一种构建时空图并用于下游任务的通用流程，通过综述和两个案例研究展示了其在土地覆盖制图与水资源预测中的潜力，并讨论了未来的发展方向。

Corentin Dufourg, Charlotte Pelletier, Stéphane May + 1 more2026-03-02💻 cs

Efficient Degradation-agnostic Image Restoration via Channel-Wise Functional Decomposition and Manifold Regularization

本文提出了 MIRAGE 框架，通过通道级功能分解与流形正则化技术，在保持高效性的同时实现了针对多样化退化类型的统一图像恢复，并在性能与效率上超越了现有方法。

Bin Ren, Yawei Li, Xu Zheng + 6 more2026-03-02💻 cs

OmniFall: From Staged Through Synthetic to Wild, A Unified Multi-Domain Dataset for Robust Fall Detection

本文提出了 OmniFall，这是一个包含 80 小时视频和 16 类细粒度标注的统一多域基准数据集，通过整合标准化真实场景、合成数据及首个真实事故测试集，旨在推动隐私友好且具备强泛化能力的鲁棒跌倒检测与分割研究。

David Schneider, Zdravko Marinov, Zeyun Zhong + 5 more2026-03-02💻 cs