cs.CV 篇论文 | Gist.Science

GradPCA: Leveraging NTK Alignment for Reliable Out-of-Distribution Detection

本文提出了名为 GradPCA 的分布外（OOD）检测方法，该方法利用神经切线核（NTK）对齐诱导的梯度低秩结构，通过对梯度类均值进行主成分分析，在标准图像分类基准上实现了比现有方法更稳健的性能，并提供了理论框架以指导谱 OOD 检测器的设计。

Mariia Seleznova, Hung-Hsu Chou, Claudio Mayrink Verdun + 1 more2026-03-03🤖 cs.LG

Dynamic Token Reweighting for Robust Vision-Language Models

本文提出了 DTR，一种通过优化键值缓存动态调整视觉 token 权重的推理时防御方法，旨在无需额外安全数据或图像转文本转换的情况下，有效缓解多模态大模型的越狱攻击并兼顾通用任务性能。

Tanqiu Jiang, Jiacheng Liang, Rongyi Zhu + 3 more2026-03-03💬 cs.CL

Seek-CAD: A Self-refined Generative Modeling for 3D Parametric CAD Using Local Inference via DeepSeek

Seek-CAD 是一种无需训练的本地化生成方法，它利用 DeepSeek-R1 结合视觉与思维链反馈进行自我优化，并基于 SSR 设计范式构建数据集，从而高效生成工业级 3D 参数化 CAD 模型。

Xueyang Li, Jiahao Li, Yu Song + 2 more2026-03-03🤖 cs.AI

Probabilistic Kernel Function for Fast Angle Testing

本文提出了一种无需渐近假设的确定性投影概率核函数，用于高效的角度测试与相似度搜索，其实验结果表明该方法在近似最近邻搜索任务中的查询吞吐量比主流 HNSW 算法高出 2.5 至 3 倍。

Kejing Lu, Chuan Xiao, Yoshiharu Ishikawa2026-03-03🤖 cs.AI

Point-MoE: Large-Scale Multi-Dataset Training with Mixture-of-Experts for 3D Semantic Segmentation

该论文提出了 Point-MoE，一种基于混合专家（Mixture-of-Experts）架构的 3D 语义分割模型，它通过稀疏激活的专家网络和无监督路由机制，成功实现了在无需数据集标签的情况下对异构多源 3D 点云数据的大规模联合训练，显著提升了模型在已知及零-shot 场景下的性能。

Xuweiyi Chen, Wentao Zhou, Aruni RoyChowdhury + 1 more2026-03-03💻 cs

SenseFlow: Scaling Distribution Matching for Flow-based Text-to-Image Distillation

本文针对分布匹配蒸馏（DMD）在大规模流匹配文本生成图像模型（如 SD 3.5 和 FLUX）上难以收敛的问题，提出了隐式分布对齐（IDA）和段内引导（ISG）方法，构建了名为 SenseFlow 的蒸馏框架，成功实现了在扩散模型和流匹配模型上的高效蒸馏与卓越性能。

Xingtong Ge, Xin Zhang, Tongda Xu + 4 more2026-03-03💻 cs

Harnessing Chain-of-Thought Reasoning in Multimodal Large Language Models for Face Anti-Spoofing

该论文针对人脸活体检测泛化性不足的问题，提出了首个大规模视觉问答数据集 FaceCoT，并结合强化学习优化的描述模型与思维链增强渐进式学习策略（CEPL），显著提升了多模态大语言模型在人脸活体检测任务中的鲁棒性与可解释性。

Honglu Zhang, Zhiqin Fang, Ningning Zhao + 4 more2026-03-03💻 cs

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

本文提出了基于认知心理学的综合性空间推理基准 OmniSpatial，涵盖动态推理、复杂空间逻辑、空间交互和视角转换四大类共 50 个子类，通过 8400 多个精细标注的问答对揭示了当前视觉语言模型在全面空间推理上的显著局限，并探索了 PointGraph 和 SpatialCoT 两种增强策略。

Mengdi Jia, Zekun Qi, Shaochen Zhang + 5 more2026-03-03💬 cs.CL

UniCUE: Unified Recognition and Generation Framework for Chinese Cued Speech Video-to-Speech Generation

本文提出了首个无需文本中间介质的统一框架 UniCUE，通过融合手语识别任务以提供细粒度视觉语义线索，直接实现从中文手语视频到语音的生成，并构建了包含 14 位发音人的大规模数据集 UniCUE-HI 以验证其卓越性能。

Jinting Wang, Shan Yang, Chenxing Li + 2 more2026-03-03⚡ eess

Improving Wildlife Out-of-Distribution Detection: Africas Big Five

该研究针对非洲“五大”野生动物在封闭世界假设下分类模型过度自信的问题，提出并验证了基于特征的异常分布（OOD）检测方法，其中结合 ImageNet 预训练特征的参数化最近类均值（NCM）方法在多项指标上显著优于现有主流 OOD 方法，有效提升了野生动物冲突检测中的泛化能力。

Mufhumudzi Muthivhi, Jiahao Huo, Fredrik Gustafsson + 1 more2026-03-03🤖 cs.AI

Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering

该论文提出了一种名为“元自适应提示蒸馏”的方法，通过从任务相关的视觉特征中提取并蒸馏固定软提示，利用注意力映射模块在测试时进行元学习适配，从而在少样本视觉问答任务中显著提升了大型多模态模型的性能，克服了传统上下文学习在增加示例数量时性能不再单调提升的瓶颈。

Akash Gupta, Amos Storkey, Mirella Lapata2026-03-03💬 cs.CL

BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation

本文提出了 BitVLA，一种基于 1-bit 架构的视觉 - 语言 - 动作模型，通过原生量化设计与量化蒸馏策略，在显著降低内存占用和延迟的同时，实现了与全精度基线相当的机器人操作性能。

Hongyu Wang, Chuyan Xiong, Ruiping Wang + 1 more2026-03-03💻 cs

PD $^{2}$ GS: Part-Level Decoupling and Continuous Deformation of Articulated Objects via Gaussian Splatting

本文提出了 PD $^{2}$ GS 框架，通过高斯泼溅技术实现关节物体的部分级解耦与连续形变建模，无需人工监督即可在合成及真实数据上实现高精度的几何重建、运动学建模及连续控制，并发布了配套的 RS-Art 数据集以支持真实世界评估。

Haowen Wang, Xiaoping Yuan, Zhao Jin + 6 more2026-03-03💻 cs

VITA: Zero-Shot Value Functions via Test-Time Adaptation of Vision-Language Models

本文提出了 VITA，一种通过测试时自监督适应来增强视觉语言模型零-shot 价值函数泛化能力与时序推理能力的学习方法，使其在真实机器人任务及离线强化学习中均超越了现有最先进方法。

Christos Ziakas, Alessandra Russo2026-03-03🤖 cs.AI

VINCIE: Unlocking In-context Image Editing from Video

本文提出了一种名为 VINCIE 的模型，通过从视频中学习并采用块因果扩散变换器架构，实现了无需依赖专家模型或特定任务流程的强大多轮上下文图像编辑能力，并在多项基准测试中取得了最先进成果。

Leigang Qu, Feng Cheng, Ziyan Yang + 7 more2026-03-03💬 cs.CL

NIC-RobustBench: A Comprehensive Open-Source Toolkit for Neural Image Compression and Robustness Analysis

本文介绍了 NIC-RobustBench，这是一个开源工具包，旨在填补现有基准在神经图像压缩（NIC）对抗鲁棒性评估方面的空白，通过集成多种攻击与防御策略、压缩模型及下游任务影响分析工具，对现代 NIC 方法在对抗场景下的鲁棒性进行了全面的实证研究。

Georgii Bychkov, Khaled Abud, Egor Kovalev + 4 more2026-03-03⚡ eess

Consistency-Driven Calibration and Matching for Few-Shot Class-Incremental Learning

该论文提出了一种名为 ConCM 的框架，通过受海马体联想记忆启发的记忆感知原型校准与动态结构匹配，从特征 - 结构双重一致性视角解决少样本类增量学习中的知识冲突问题，并在多个基准测试中取得了最先进的性能。

Qinzhe Wang, Zixuan Chen, Keke Huang + 3 more2026-03-03🤖 cs.LG

Rethinking Visual Token Reduction in LVLMs Under Cross-Modal Misalignment

本文针对现有大视觉语言模型中基于文本引导的视觉 Token 剪枝方法因跨模态不对齐而失效的问题，提出了一种无需训练、仅依赖视觉模态内部注意力机制的 VisionDrop 框架，通过多阶段渐进式剪枝与融合策略，在显著降低推理延迟和计算量的同时保持了模型的高性能。

Rui Xu, Yunke Wang, Yong Luo + 1 more2026-03-03💻 cs

EchoMimicV3: 1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation

EchoMimicV3 是一个仅需 13 亿参数的高效统一框架，通过“任务汤”、“模态汤”架构及创新的训练推理策略，在克服传统方法计算成本高和推理慢的局限的同时，实现了多任务、多模态的高质量人类动画生成。

Rang Meng, Yan Wang, Weipeng Wu + 3 more2026-03-03💻 cs

CLiFT: Compressive Light-Field Tokens for Compute-Efficient and Adaptive Neural Rendering

该论文提出了一种名为 CLiFT 的神经渲染方法，通过将场景表示为压缩光场令牌，利用多视图编码、潜空间聚类及令牌压缩技术，实现了在单一训练网络下根据计算预算自适应调整令牌数量，从而在显著降低数据量的同时保持高质量渲染并灵活平衡数据规模、画质与速度。

Zhengqing Wang, Yuefan Wu, Jiacheng Chen + 2 more2026-03-03💻 cs

cs.CV