cs.CV 篇论文 | Gist.Science

Functional Properties of the Focal-Entropy

本文从分布视角出发，系统研究了作为交叉熵类比物的焦点熵，通过建立其数学性质、证明最小化器的存在性与唯一性，并揭示其在类别不平衡下对概率分布的特定放大与抑制机制，为理解焦点损失函数提供了坚实的理论基础。

Jaimin Shah, Martina Cardone, Alex Dytso2026-03-04📊 stat

ForestPersons: A Large-Scale Dataset for Under-Canopy Missing Person Detection

本文介绍了专为森林树冠下缺失人员检测而构建的大规模数据集 ForestPersons，该数据集包含近十万张地面及低空视角图像，旨在解决传统无人机航拍在茂密植被下难以发现目标的问题，并为搜救任务中的先进人员检测能力提供基准。

Deokyun Kim, Jeongjun Lee, Jungwon Choi + 6 more2026-03-04💻 cs

On Discriminative vs. Generative classifiers: Rethinking MLLMs for Action Understanding

该论文针对多模态大模型在封闭集动作理解中生成式分类效率低且存在语义歧义的问题，提出了一种仅在微调阶段利用生成辅助的判别式分类器（GAD），在保持推理高效性的同时显著提升了准确率并实现了多项基准测试的领先性能。

Zhanzhong Pang, Dibyadip Chatterjee, Fadime Sener + 1 more2026-03-04💻 cs

SemGS: Feed-Forward Semantic 3D Gaussian Splatting from Sparse Views for Generalizable Scene Understanding

SemGS 提出了一种前馈框架，利用双分支架构和相机感知注意力机制，从稀疏视角输入中快速重建具有泛化能力的语义 3D 高斯场，从而在无需场景特定优化的情况下实现高效的语义场景理解与新视角合成。

Sheng Ye, Zhen-Hui Dong, Ruoyu Fan + 2 more2026-03-04💻 cs

Give me scissors: Collision-Free Dual-Arm Surgical Assistive Robot for Instrument Delivery

本文提出了一种名为"Give me scissors"的无碰撞双臂手术辅助机器人，它利用视觉语言模型零样本生成抓取与递送轨迹，并通过集成实时障碍物感知与二次规划框架，在动态环境中实现了安全、高效的器械递送，实验成功率达 83.33%。

Xuejin Luo, Shiquan Sun, Runshi Zhang + 2 more2026-03-04🤖 cs.LG

Generalizable Knowledge Distillation from Vision Foundation Models for Semantic Segmentation

本文提出了通用知识蒸馏（GKD）框架，通过解耦表征学习与任务学习并引入基于查询的软蒸馏机制，有效解决了传统方法在从视觉基础模型蒸馏时牺牲泛化能力的问题，显著提升了语义分割模型在分布偏移下的跨域性能。

Chonghua Lv, Dong Zhao, Shuang Wang + 4 more2026-03-04💻 cs

Through the Lens of Contrast: Self-Improving Visual Reasoning in VLMs

该论文提出了名为 VC-STaR 的新框架，利用对比视觉问答对来缓解视觉语言模型推理中的幻觉问题，并基于此构建了 VisCoR-55K 数据集，显著提升了模型的视觉推理能力。

Zhiyu Pan, Yizheng Wu, Jiashen Hua + 5 more2026-03-04💬 cs.CL

CAPT: Confusion-Aware Prompt Tuning for Reducing Vision-Language Misalignment

本文提出了 CAPT 框架，通过构建混淆库并利用语义与样本级混淆挖掘器及多粒度差异专家模块，使视觉 - 语言模型能够学习自身错分模式，从而有效缓解类别间的系统性混淆并提升细粒度判别能力与泛化性能。

Maoyuan Shao, Yutong Gao, Xinyang Huang + 3 more2026-03-04🤖 cs.AI

CAWM-Mamba: A unified model for infrared-visible image fusion and compound adverse weather restoration

本文提出了 CAWM-Mamba，这是首个能够利用统一共享权重端到端地联合执行红外 - 可见光图像融合与复合恶劣天气（如雾、雨、雪共存）恢复的模型，通过引入天气感知预处理、跨模态特征交互及基于小波分解的状态空间模块，在多种基准测试及下游感知任务中均取得了优于现有最先进方法的性能。

Huichun Liu, Xiaosong Li, Zhuangfan Huang + 3 more2026-03-04💻 cs

SOLAR: SVD-Optimized Lifelong Attention for Recommendation

本文提出了名为 SOLAR 的推荐序列建模框架，通过引入理论上无损且保留 Softmax 机制的 SVD-Attention 技术，将注意力复杂度从 $O(N^2 d)$ 降低至 $O(Ndr)$ ，从而实现了在无需过滤的情况下对万级行为序列和千级候选集的高效建模，并在快手线上场景中显著提升了视频观看量等核心业务指标。

Chenghao Zhang, Chao Feng, Yuanhao Pu + 8 more2026-03-04🤖 cs.LG

ATD: Improved Transformer with Adaptive Token Dictionary for Image Restoration

本文提出了一种名为自适应 Token 字典（ATD）的新型 Transformer 架构，通过引入可学习的 Token 字典和跨注意力机制，在保持线性计算复杂度的同时实现了全局依赖建模，从而在图像超分辨率、去噪及 JPEG 伪影去除等任务中取得了最先进的性能。

Leheng Zhang, Wei Long, Yawei Li + 3 more2026-03-04💻 cs

Neural Electromagnetic Fields for High-Resolution Material Parameter Reconstruction

本文提出了 NEMF 框架，通过利用高保真几何信息解耦环境场并约束物理逆问题，实现了从非侵入式数据到高分辨率材料参数场的精确重建，从而构建出具备物理仿真能力的功能性数字孪生。

Zhe Chen, Peilin Zheng, Wenshuo Chen + 3 more2026-03-04⚡ eess

Maximizing Generalization: The Effect of Different Augmentation Techniques on Lightweight Vision Transformer for Bengali Character Classification

该研究通过评估多种图像增强技术对轻量级 EfficientViT 模型在资源受限的孟加拉语手写字符分类任务中的影响，发现随机仿射变换与颜色抖动相结合的策略在 Ekush 和 AIBangla 数据集上取得了最佳分类准确率，有效解决了小样本场景下的过拟合问题。

Rafi Hassan Chowdhury, Naimul Haque, Kaniz Fatiha2026-03-04💻 cs

Synthetic-Child: An AIGC-Based Synthetic Data Pipeline for Privacy-Preserving Child Posture Estimation

本文提出了一种名为 Synthetic-Child 的基于 AIGC 的隐私保护合成数据流水线，通过从零生成包含真实标注的 1.2 万张儿童姿态图像来训练轻量级模型，在无需真实儿童照片的情况下实现了在边缘设备上高效部署且精度超越成人数据基线的儿童姿态估计与分类系统。

Taowen Zeng2026-03-04💻 cs

VLMFusionOcc3D: VLM Assisted Multi-Modal 3D Semantic Occupancy Prediction

本文提出了 VLMFusionOcc3D，一种利用视觉语言模型先验知识、结合实例驱动注意力机制与天气感知自适应融合策略的鲁棒多模态框架，旨在解决自动驾驶中 3D 语义占据预测的语义模糊及恶劣天气性能下降问题。

A. Enes Doruk, Hasan F. Ates2026-03-04💻 cs

Direct Reward Fine-Tuning on Poses for Single Image to 3D Human in the Wild

该论文提出了 DrPose 算法，通过利用仅包含单视图图像与人体姿态的 DrPose15K 数据集进行直接奖励微调，有效解决了多视图扩散模型在重建复杂动态姿态时表现不自然的问题，显著提升了单图重建 3D 人体的姿态质量。

Seunguk Do, Minwoo Huh, Joonghyuk Shin + 1 more2026-03-04💻 cs

Towards an Incremental Unified Multimodal Anomaly Detection: Augmenting Multimodal Denoising From an Information Bottleneck Perspective

本文针对增量统一多模态异常检测中因忽略虚假和冗余特征而导致的灾难性遗忘问题，提出了一种结合 Mamba 解码器与信息瓶颈融合模块的新型去噪框架 IB-IUMAD，通过解耦特征耦合与过滤冗余信息，有效实现了在持续学习新类别的同时保留先验知识。

Kaifang Long, Lianbo Ma, Jiaqi Liu + 2 more2026-03-04💻 cs

cs.CV