Point-MoE: Large-Scale Multi-Dataset Training with Mixture-of-Experts for 3D Semantic Segmentation

该论文提出了 Point-MoE,一种基于混合专家(Mixture-of-Experts)架构的 3D 语义分割模型,它通过稀疏激活的专家网络和无监督路由机制,成功实现了在无需数据集标签的情况下对异构多源 3D 点云数据的大规模联合训练,显著提升了模型在已知及零-shot 场景下的性能。

Xuweiyi Chen, Wentao Zhou, Aruni RoyChowdhury + 1 more2026-03-03💻 cs

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

本文提出了基于认知心理学的综合性空间推理基准 OmniSpatial,涵盖动态推理、复杂空间逻辑、空间交互和视角转换四大类共 50 个子类,通过 8400 多个精细标注的问答对揭示了当前视觉语言模型在全面空间推理上的显著局限,并探索了 PointGraph 和 SpatialCoT 两种增强策略。

Mengdi Jia, Zekun Qi, Shaochen Zhang + 5 more2026-03-03💬 cs.CL

Improving Wildlife Out-of-Distribution Detection: Africas Big Five

该研究针对非洲“五大”野生动物在封闭世界假设下分类模型过度自信的问题,提出并验证了基于特征的异常分布(OOD)检测方法,其中结合 ImageNet 预训练特征的参数化最近类均值(NCM)方法在多项指标上显著优于现有主流 OOD 方法,有效提升了野生动物冲突检测中的泛化能力。

Mufhumudzi Muthivhi, Jiahao Huo, Fredrik Gustafsson + 1 more2026-03-03🤖 cs.AI

Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering

该论文提出了一种名为“元自适应提示蒸馏”的方法,通过从任务相关的视觉特征中提取并蒸馏固定软提示,利用注意力映射模块在测试时进行元学习适配,从而在少样本视觉问答任务中显著提升了大型多模态模型的性能,克服了传统上下文学习在增加示例数量时性能不再单调提升的瓶颈。

Akash Gupta, Amos Storkey, Mirella Lapata2026-03-03💬 cs.CL

NIC-RobustBench: A Comprehensive Open-Source Toolkit for Neural Image Compression and Robustness Analysis

本文介绍了 NIC-RobustBench,这是一个开源工具包,旨在填补现有基准在神经图像压缩(NIC)对抗鲁棒性评估方面的空白,通过集成多种攻击与防御策略、压缩模型及下游任务影响分析工具,对现代 NIC 方法在对抗场景下的鲁棒性进行了全面的实证研究。

Georgii Bychkov, Khaled Abud, Egor Kovalev + 4 more2026-03-03⚡ eess

CLiFT: Compressive Light-Field Tokens for Compute-Efficient and Adaptive Neural Rendering

该论文提出了一种名为 CLiFT 的神经渲染方法,通过将场景表示为压缩光场令牌,利用多视图编码、潜空间聚类及令牌压缩技术,实现了在单一训练网络下根据计算预算自适应调整令牌数量,从而在显著降低数据量的同时保持高质量渲染并灵活平衡数据规模、画质与速度。

Zhengqing Wang, Yuefan Wu, Jiacheng Chen + 2 more2026-03-03💻 cs