cs.CV 篇论文 | Gist.Science

Degradation-based augmented training for robust individual animal re-identification

该论文针对野生动物个体重识别中图像退化导致性能下降的问题，提出了一种通过在训练集中引入多样化人工退化来增强特征提取器的方法，并在首次公开的真实退化数据集上验证了该方法能显著提升跨物种的识别准确率。

Thanos Polychronou, Lukáš Adam, Viktor Penchev + 1 more2026-03-05💻 cs

PlaneCycle: Training-Free 2D-to-3D Lifting of Foundation Models Without Adapters

该论文提出了一种无需训练和适配器的“PlaneCycle"方法，通过在各网络深度循环聚合正交平面特征，成功将预训练的 2D 基础模型（如 DINOv3）无缝提升为具备强大 3D 理解能力的模型，且在无需重训的情况下性能媲美甚至超越部分全量训练的 3D 架构。

Yinghong Yu, Guangyuan Li, Jiancheng Yang2026-03-05🤖 cs.AI

Beyond Mixtures and Products for Ensemble Aggregation: A Likelihood Perspective on Generalized Means

该论文通过似然视角研究了广义均值在密度聚合中的应用，证明了仅当阶数 $r \in [0,1]$ 时（涵盖线性与几何平均），聚合策略才能系统性地优于个体分布，从而为深度集成学习中广泛使用的聚合方法提供了理论依据。

Raphaël Razafindralambo, Rémy Sun, Frédéric Precioso + 2 more2026-03-05🤖 cs.LG

Real5-OmniDocBench: A Full-Scale Physical Reconstruction Benchmark for Robust Document Parsing in the Wild

本文提出了 Real5-OmniDocBench，这是首个对 OmniDocBench v1.5 进行全规模物理重建的基准测试，通过覆盖扫描、形变、屏幕拍摄、光照和倾斜五种真实场景，首次实现了对文档解析性能下降因素的精确归因，揭示了当前视觉语言模型在真实物理世界中的显著差距。

Changda Zhou, Ziyue Gao, Xueqing Wang + 4 more2026-03-05💻 cs

Nearest-Neighbor Density Estimation for Dependency Suppression

本文提出了一种结合变分自编码器与非参数最近邻密度估计的编码器方法，通过显式估计和修改数据分布来消除敏感变量依赖，从而在保持数据效用的同时实现比现有无监督方法更优的独立性。

Kathleen Anderson, Thomas Martinetz2026-03-05🤖 cs.LG

DiverseDiT: Towards Diverse Representation Learning in Diffusion Transformers

该论文通过系统分析扩散变换器（DiT）的内部表示动态，发现跨层表示多样性对有效学习至关重要，并据此提出了通过长残差连接和多样性损失来显式提升表示多样性的 DiverseDiT 框架，在多种规模和设置下均实现了性能提升与收敛加速。

Mengping Yang, Zhiyu Tan, Binglei Li + 3 more2026-03-05💻 cs

DeNuC: Decoupling Nuclei Detection and Classification in Histopathology

本文提出了 DeNuC 方法，通过将病理基础模型中的细胞核检测与分类任务解耦，利用轻量级模型进行定位并结合基础模型进行特征编码，从而在显著减少可训练参数量的同时，有效解决了联合优化导致的表征退化问题并大幅提升了检测与分类性能。

Zijiang Yang, Chen Kuang, Dongmei Fu2026-03-05💻 cs

EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding

本文提出了 EmbodiedSplat，一种面向开放词汇场景理解的在线前馈 3D 高斯泼溅方法，它通过引入在线稀疏系数场与 CLIP 全局码本及 3D 几何感知特征聚合，实现了在流式图像输入下对 3D 场景的实时重建与语义理解，克服了现有方法局限于离线或单场景优化的不足。

Seungjun Lee, Zihan Wang, Yunsong Wang + 1 more2026-03-05💻 cs

A Hypertoroidal Covering for Perfect Color Equivariance

本文提出了一种基于超环面覆盖的色度等变架构，通过将饱和度和亮度等区间值映射到圆环而非实线，消除了以往方法的近似伪影，从而在细粒度分类和医学成像等任务中显著提升了模型的鲁棒性、可解释性及预测性能。

Yulong Yang, Zhikun Xu, Yaojun Li + 1 more2026-03-05💻 cs

ViterbiPlanNet: Injecting Procedural Knowledge via Differentiable Viterbi for Planning in Instructional Videos

本文提出了 ViterbiPlanNet 框架，通过引入将程序知识图与维特比解码算法深度融合的可微分层，实现了在指令视频规划任务中兼具高样本效率、强鲁棒性及显著参数优势的最先进性能。

Luigi Seminara, Davide Moltisanti, Antonino Furnari2026-03-05💻 cs

SSR: A Generic Framework for Text-Aided Map Compression for Localization

本文提出了一种名为 SSR 的通用文本辅助地图压缩框架，该框架利用大语言模型对文本进行无损压缩，并结合仅包含互补信息的轻量级图像特征向量，在显著降低存储与带宽成本的同时，实现了高精度的机器人定位。

Mohammad Omama, Po-han Li, Harsh Goel + 6 more2026-03-05💻 cs

A multi-center analysis of deep learning methods for video polyp detection and segmentation

本研究通过多中心协作构建数据集，评估了利用序列数据和时序信息增强深度学习模型在实时结肠镜视频中检测与分割息肉的能力，旨在提高诊断精度并降低漏检率。

Noha Ghatwary, Pedro Chavarias Solano, Mohamed Ramzy Ibrahim + 24 more2026-03-05💻 cs

CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video

CubeComposer 提出了一种新颖的时空自回归扩散模型，通过将视频分解为立方体贴图并按序合成，实现了原生 4K 分辨率 360°全景视频的高效生成，显著提升了 VR 应用的视觉体验。

Lingen Li, Guangzhi Wang, Xiaoyu Li + 5 more2026-03-05🤖 cs.AI

Motion Manipulation via Unsupervised Keypoint Positioning in Face Animation

该论文提出了一种名为 MMFA 的新方法，通过自监督表征学习、新型关键点计算及变分自编码器，成功在人脸动画中解耦身份与运动信息，实现了无监督框架下的表情插值与任意运动控制。

Hong Li, Boyu Liu, Xuhui Liu + 1 more2026-03-05💻 cs

Dual Diffusion Models for Multi-modal Guided 3D Avatar Generation

该论文提出了一种名为 PromptAvatar 的框架，通过构建包含 10 万对多模态数据的大规模数据集，利用双扩散模型（纹理与几何）实现了从文本或图像提示到高质量、无阴影 3D 虚拟形象的快速（10 秒内）生成，有效克服了现有方法在语义控制、推理速度及数据稀缺方面的局限。

Hong Li, Yutang Feng, Minqi Meng + 3 more2026-03-05💻 cs

CRESTomics: Analyzing Carotid Plaques in the CREST-2 Trial with a New Additive Classification Model

本文提出了一种结合相干性损失与组稀疏正则化的新型核加性模型，通过分析 CREST-2 试验中的 500 例颈动脉斑块超声影像，实现了可解释的高危斑块风险精准评估，并揭示了斑块纹理与临床风险之间的强关联。

Pranav Kulkarni, Brajesh K. Lal, Georges Jreij + 11 more2026-03-05🤖 cs.AI

MOO: A Multi-view Oriented Observations Dataset for Viewpoint Analysis in Cattle Re-Identification

本文提出了名为 MOO 的大规模合成数据集，包含 1000 头牛在 128 个视角下的 12.8 万张标注图像，旨在通过系统分析视角变化对牲畜重识别的影响，揭示关键仰角阈值并利用合成几何先验有效弥合跨域差距，从而提升模型在真实场景中的泛化能力。

William Grolleau, Achraf Chaouch, Astrid Sabourin + 2 more2026-03-05🤖 cs.AI

SPRINT: Semi-supervised Prototypical Representation for Few-Shot Class-Incremental Tabular Learning

本文提出了 SPRINT，这是首个专为表格数据设计的半监督原型表示少样本类增量学习框架，它利用置信度伪标签和低成本存储策略有效解决了在有限标注数据下持续学习新类别且不遗忘旧知识的问题，并在多个跨领域基准测试中取得了超越现有最先进方法的性能。

Umid Suleymanov, Murat Kantarcioglu, Kevin S Chan + 6 more2026-03-05🤖 cs.AI

Scalable Evaluation of the Realism of Synthetic Environmental Augmentations in Images

本文提出了一种可扩展框架，通过结合视觉语言模型陪审团和分布分析来评估合成图像增强的真实性，研究发现生成式 AI 在模拟雾、雨、雪和夜间等恶劣环境条件方面显著优于传统规则方法，其生成效果甚至能达到或超越真实图像的水平。

Damian J. Ruck, Paul Vautravers, Oliver Chalkley + 1 more2026-03-05🤖 cs.LG

Pointer-CAD: Unifying B-Rep and Command Sequences via Pointer-based Edges & Faces Selection

本文提出了 Pointer-CAD 框架，通过引入基于指针的实体选择机制将 B-Rep 几何信息与命令序列相结合，有效解决了传统 LLM 生成 CAD 模型时无法进行复杂编辑及因离散化导致拓扑错误的问题，并构建了包含 57.5 万个模型的数据集以验证其在生成复杂几何结构方面的显著优势。

Dacheng Qi, Chenyu Wang, Jingwei Xu + 6 more2026-03-05💬 cs.CL