cs.CV 篇论文 | Gist.Science

TerraCodec: Compressing Optical Earth Observation Data

本文提出了 TerraCodec，这是一个基于 Sentinel-2 数据预训练的地球观测数据学习压缩模型族，它通过引入时序 Transformer 和新型可变码率训练方法 Latent Repacking，在实现比传统编码器高 3-10 倍压缩率的同时，还具备零样本云修复能力。

Julen Costa-Watanabe, Isabelle Wittmann, Benedikt Blumenstiel + 1 more2026-03-06💻 cs

True Self-Supervised Novel View Synthesis is Transferable

本文提出了首个无需 3D 归纳偏置或显式多视图几何概念的自监督新视角合成模型 XFactor，通过结合成对姿态估计与简单的输入输出增强方案，成功实现了姿态表示在不同场景间的可迁移性，从而确立了可迁移性作为衡量真正新视角合成能力的关键标准。

Thomas W. Mitchel, Hyunwoo Ryu, Vincent Sitzmann2026-03-06💻 cs

Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator

本文提出了 VIST3A 框架，通过将预训练的文本到视频生成模型与多视图 3D 重建网络进行模型缝合，并利用直接奖励微调技术确保生成潜空间与 3D 解码器的对齐，从而实现了高质量且几何一致的文本到 3D 场景生成。

Hyojun Go, Dominik Narnhofer, Goutam Bhat + 3 more2026-03-06💻 cs

DRBD-Mamba for Robust and Efficient Brain Tumor Segmentation with Analytical Insights

本文提出了一种名为 DRBD-Mamba 的高效 3D 脑肿瘤分割模型，通过双分辨率双向 Mamba 架构、空间填充曲线映射及门控融合模块，在显著降低计算开销（提升 15 倍效率）的同时，有效解决了肿瘤异质性问题，并在 BraTS2023 数据集的系统性评估中实现了优于现有最先进方法的分割精度与鲁棒性。

Danish Ali, Ajmal Mian, Naveed Akhtar + 1 more2026-03-06💻 cs

Pursuing Minimal Sufficiency in Spatial Reasoning

本文提出了 MSSR 框架，通过双智能体协作从专家模型中筛选最小充分信息集（MSS），有效解决了视觉语言模型在 3D 空间推理中因 2D 预训练局限和信息冗余导致的瓶颈，从而在多个基准测试中实现了最先进的性能。

Yejie Guo, Yunzhong Hou, Wufei Ma + 2 more2026-03-06💻 cs

SceneCOT: Eliciting Grounded Chain-of-Thought Reasoning in 3D Scenes

本文提出了名为 SceneCOT 的新框架，通过引入 3D 场景中的接地思维链推理方法并构建了首个大规模数据集 SCENECOT-185K，有效解决了 3D 大语言模型在接地问答中的难题，实现了具有高度一致性的分步人类式场景推理。

Xiongkun Linghu, Jiangyong Huang, Ziyu Zhu + 2 more2026-03-06💻 cs

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

本文提出了 Grasp Any Region (GAR) 框架，通过引入 RoI 对齐特征回放技术，使多模态大语言模型能够在保留全局上下文的同时实现任意区域的精准感知与多区域交互推理，并构建了 GAR-Bench 基准以验证其在复杂场景理解及视频任务中的卓越性能。

Haochen Wang, Yuhao Wang, Tao Zhang + 13 more2026-03-06💻 cs

FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding

本文提出了 FLoC，一种基于设施选址函数的无训练、模型无关的高效视觉令牌压缩框架，通过结合懒惰贪心算法在严格预算下快速筛选出最具代表性和多样性的令牌子集，显著提升了长视频理解模型的处理效率与性能。

Janghoon Cho, Jungsoo Lee, Munawar Hayat + 3 more2026-03-06💻 cs

MotionStream: Real-Time Video Generation with Interactive Motion Controls

MotionStream 通过自强制分布匹配蒸馏将双向教师模型转化为因果学生模型，并结合滑动窗口因果注意力与 KV 缓存滚动机制，实现了在单 GPU 上以亚秒级延迟和高达 29 FPS 的速度进行无限时长的实时交互式视频生成。

Joonghyuk Shin, Zhengqi Li, Richard Zhang + 4 more2026-03-06💻 cs

SASG-DA: Sparse-Aware Semantic-Guided Diffusion Augmentation For Myoelectric Gesture Recognition

本文提出了一种名为 SASG-DA 的新型扩散数据增强方法，通过语义表征引导机制和稀疏感知语义采样策略，在确保肌电信号生成样本忠实性的同时提升其多样性，从而显著改善了表面肌电手势识别模型在数据稀缺场景下的过拟合问题与泛化性能。

Chen Liu, Can Han, Weishi Xu + 2 more2026-03-06💻 cs

DeiTFake: Deepfake Detection Model using DeiT Multi-Stage Training

该论文提出了名为 DeiTFake 的基于 DeiT 的深度学习模型，通过结合知识蒸馏与包含标准及高级仿真的两阶段渐进式训练策略，在 OpenForensics 数据集上实现了高达 99.22% 的准确率，显著优于现有基线模型。

Saksham Kumar, Ashish Singh, Srinivasarao Thota + 2 more2026-03-06💻 cs

Fully Automatic Data Labeling for Ultrasound Screen Detection

该论文提出了一种无需人工标注的全自动方法，通过生成训练数据来检测并校正超声屏幕照片中的图像，从而绕过 DICOM 传输瓶颈，使校正后的图像在心脏视图分类任务中能达到与原始 DICOM 数据相当的平衡准确率（0.79）。

Alberto Gomez, Jorge Oliveira, Ramon Casero + 1 more2026-03-06💻 cs

DAP: A Discrete-token Autoregressive Planner for Autonomous Driving

本文提出了 DAP，一种基于离散 Token 的自回归自动驾驶规划器，通过联合预测鸟瞰图语义与自车轨迹并结合强化学习微调，在仅 1.6 亿参数量的紧凑预算下实现了开放环与封闭环测试中的领先性能。

Bowen Ye, Bin Zhang, Hang Zhao2026-03-06💻 cs

CCSD: Cross-Modal Compositional Self-Distillation for Robust Brain Tumor Segmentation with Missing Modalities

本文提出了一种名为 CCSD 的跨模态组合自蒸馏框架，通过共享 - 特定编码器 - 解码器架构及分层与渐进式自蒸馏策略，有效解决了多模态 MRI 脑肿瘤分割中因模态缺失导致的性能下降问题，并在各种缺失场景下实现了最先进的分割效果与泛化能力。

Dongqing Xie, Yonghuang Wu, Zisheng Ai + 4 more2026-03-06💻 cs

Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach

本文提出了 FlashCache，一种通过频域分析识别并保留关键异常键值对（Outlier KVs）的多模态 KV 缓存压缩框架，在显著降低显存占用并加速推理的同时保持了模型性能。

Yaoxin Yang, Peng Ye, Xudong Tan + 4 more2026-03-06💻 cs

MambaTAD: When State-Space Models Meet Long-Range Temporal Action Detection

本文提出了 MambaTAD，一种基于状态空间模型的新型端到端单阶段时序动作检测框架，通过引入对角掩码双向状态空间模块和全局特征融合头，有效解决了长跨度动作检测中的上下文衰减与全局感知不足问题，并在多个基准测试中实现了优越性能。

Hui Lu, Yi Yu, Shijian Lu + 4 more2026-03-06💻 cs

Observer-Actor: Active Vision Imitation Learning with Sparse-View Gaussian Splatting

本文提出了名为 Observer-Actor (ObAct) 的新框架，该框架利用稀疏视角高斯泼溅（3DGS）技术，使双机械臂系统中的“观察者”臂主动移动至最佳视角以构建清晰场景并指导“执行者”臂，从而显著提升了在遮挡环境下基于轨迹迁移和行为克隆的模仿学习策略的鲁棒性与成功率。

Yilong Wang, Cheng Qian, Ruomeng Fan + 1 more2026-03-06💻 cs

STAvatar: Soft Binding and Temporal Density Control for Monocular 3D Head Avatars Reconstruction

STAvatar 提出了一种结合 UV 自适应软绑定与时间密度控制策略的单目 3D 头部重建方法，通过引入基于图像与几何先验的特征偏移学习及融合感知误差的克隆准则，有效解决了现有高斯泼溅方法在刚性运动、表情表达及遮挡区域重建上的局限性，实现了高保真且可驱动的头部 Avatar 生成。

Jiankuo Zhao, Xiangyu Zhu, Zidu Wang + 1 more2026-03-06💻 cs

RadarVLM: A Vision-Language Model Approach for Radar Scene Understanding

本文提出了 RadarVLM，这是一种利用结构化空间语言监督和空间接地 CLIP 目标来统一雷达场景理解的视觉 - 语言框架，通过 80 万对雷达 - 描述数据实现了在恶劣天气下显著优于传统方法的生成与分割性能。

Pushkal Mishra, Kshitiz Bansal, Dinesh Bharadia2026-03-06💻 cs

PowerCLIP: Powerset Alignment for Contrastive Pre-Training

PowerCLIP 提出了一种基于幂集对齐的新型对比预训练框架，通过引入高效非线性聚合器将区域子集组合的指数级计算复杂度降低至线性，从而在捕捉跨多区域的组合语义方面实现了显著优于现有方法的零样本性能。

Masaki Kawamura, Nakamasa Inoue, Rintaro Yanagi + 2 more2026-03-06💻 cs