cs.CV 篇论文 | Gist.Science

Adaptive Enhancement and Dual-Pooling Sequential Attention for Lightweight Underwater Object Detection with YOLOv10

本文提出了一种基于 YOLOv10 的轻量级水下目标检测框架，通过集成多阶段自适应增强模块、双池化序列注意力机制以及 FGIoU 损失函数，在 RUOD 和 DUO 数据集上显著提升了检测精度并保持了模型的高效性。

Md. Mushibur Rahman, Umme Fawzia Rahim, Enam Ahmed Taufik2026-03-05💻 cs

Vector-Quantized Soft Label Compression for Dataset Distillation

本文针对数据集蒸馏中软标签存储开销过大的问题，提出了一种基于矢量量化自编码器的软标签压缩方法，在 ImageNet-1K 等基准测试中实现了比现有基线高 30-40 倍的压缩率，同时保留了超过 90% 的原始性能。

Ali Abbasi, Ashkan Shahbazi, Hamed Pirsiavash + 1 more2026-03-05💻 cs

Structure-aware Prompt Adaptation from Seen to Unseen for Open-Vocabulary Compositional Zero-Shot Learning

本文提出了一种名为结构感知提示适应（SPA）的即插即用方法，通过利用语义相关概念在嵌入空间中的局部结构一致性，在训练阶段约束结构并推理阶段引导对齐，从而有效提升了开放词汇组合零样本学习（OV-CZSL）中从已知到未知属性及对象的泛化能力。

Yihang Duan, Jiong Wang, Pengpeng Zeng + 5 more2026-03-05💻 cs

From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning

该论文提出了“懒惰注意力定位”现象，揭示了多模态冷启动未能提升视觉关注度的问题，并据此设计了无需重训练的干预方法及名为 AVAR 的冷启动框架，使 Qwen2.5-VL-7B 在多个多模态推理基准上平均提升了 7.0%。

Ruilin Luo, Chufan Shi, Yizhen Zhang + 10 more2026-03-05🤖 cs.AI

Universal Pansharpening Foundation Model

本文提出了名为 FoundPS 的通用全色锐化基础模型，通过模态交错 Transformer、潜在扩散桥接机制及无限维像素 - 潜在交互设计，解决了现有方法泛化性差的问题，并构建了大规模基准 PSBench，在多种卫星和场景下实现了卓越且稳健的融合性能。

Hebaixu Wang, Jing Zhang, Haonan Guo + 4 more2026-03-05💻 cs

All-in-One Image Restoration via Causal-Deconfounding Wavelet-Disentangled Prompt Network

针对现有全功能图像复原模型中语义特征与退化模式存在虚假关联及退化模式估计偏差的问题，本文提出了一种因果去混淆小波解耦提示网络（CWP-Net），通过编码器与解码器的小波注意力模块解耦特征，并利用小波提示块生成替代变量以消除偏差，从而在统一模型中实现了更优的通用图像复原效果。

Bingnan Wang, Bin Qin, Jiangmeng Li + 3 more2026-03-05💻 cs

DeepScan: A Training-Free Framework for Visually Grounded Reasoning in Large Vision-Language Models

DeepScan 是一种无需训练的框架，通过模仿人类自底向上的视觉证据定位与推理机制，结合分层扫描、重聚焦和证据增强推理，显著提升了大视觉语言模型在细粒度视觉理解任务中的准确性与可解释性。

Yangfu Li, Hongjian Zhan, Jiawei Chen + 3 more2026-03-05💻 cs

Bridging Human Evaluation to Infrared and Visible Image Fusion

该论文针对现有红外与可见光图像融合方法难以契合人类视觉偏好的问题，构建了首个包含多维主观评分的大规模人类反馈数据集，并据此提出一种结合奖励模型与组相对策略优化（GRPO）的反馈强化框架，显著提升了融合图像的人眼感知质量。

Jinyuan Liu, Xingyuan Li, Qingyun Mei + 5 more2026-03-05💻 cs

Yolo-Key-6D: Single Stage Monocular 6D Pose Estimation with Keypoint Enhancements

本文提出了 Yolo-Key-6D，一种专为实时应用设计的单阶段端到端单目 6D 位姿估计框架，它通过集成辅助关键点检测头增强 3D 几何理解，并采用连续 9D 旋转表示实现稳定训练，在 LINEMOD 等基准测试中实现了精度与速度的优异平衡。

Kemal Alperen Çetiner, Hazım Kemal Ekenel2026-03-05💻 cs

UniSync: Towards Generalizable and High-Fidelity Lip Synchronization for Challenging Scenarios

本文提出了名为 UniSync 的统一框架，通过结合无掩码姿态锚定训练与基于掩码的混合推理策略，并引入 RealWorld-LipSync 基准测试，实现了在复杂真实场景（如风格化虚拟人、遮挡及极端光照）下兼具高保真度与强泛化能力的唇形同步。

Ruidi Fan, Yang Zhou, Siyuan Wang + 3 more2026-03-05💻 cs

A novel network for classification of cuneiform tablet metadata

本文提出了一种受卷积启发的新型网络架构，通过结合局部邻域信息与特征空间全局信息，有效解决了楔形文字泥板元数据分类中数据集有限且点云分辨率高的难题，其性能优于现有的 Point-BERT 等先进方法。

Frederik Hagelskjær2026-03-05🤖 cs.AI

From Misclassifications to Outliers: Joint Reliability Assessment in Classification

该论文提出了一种将分布外检测与分类失败预测联合评估的统一框架及新指标（DS-F1 和 DS-AURC），并在此基础上提出了 SURE+ 方法，显著提升了分类器在真实场景下的可靠性。

Yang Li, Youyang Sha, Yinzhi Wang + 4 more2026-03-05🤖 cs.LG

Architecture and evaluation protocol for transformer-based visual object tracking in UAV applications

本文提出了一种结合 Transformer 跟踪器、扩展卡尔曼滤波及光流补偿的模块化异步跟踪架构（MATA），并引入了面向嵌入式系统的评估协议与“归一化失效时间”（NT2F）新指标，在 Nvidia Jetson AGX Orin 平台上验证了其在无人机视觉跟踪任务中的实时性与鲁棒性。

Augustin Borne, Pierre Notin, Christophe Hennequin + 4 more2026-03-05💻 cs

Fine-grained Image Aesthetic Assessment: Learning Discriminative Scores from Relative Ranks

本文提出了名为 FGAesthetics 的细粒度图像美学评估数据库及 FGAesQ 框架，通过引入成对比较标注、数据清洗机制以及基于相对排名的判别性评分学习策略，有效解决了现有模型难以区分细微美学差异的难题，并在细粒度与粗粒度评估中均展现出优越性能。

Zhichao Yang, Jianjie Wang, Zhixianhe Zhang + 4 more2026-03-05💻 cs

N-gram Injection into Transformers for Dynamic Language Model Adaptation in Handwritten Text Recognition

该论文提出了一种在推理阶段动态注入外部 n-gram 语言模型的方法，使基于 Transformer 的手写文本识别网络能够在不针对目标域图像 - 文本对进行额外训练的情况下，有效适应语言分布偏移并显著提升识别性能。

Florent Meyer, Laurent Guichard, Denis Coquenet + 3 more2026-03-05💻 cs

DISC: Dense Integrated Semantic Context for Large-Scale Open-Set Semantic Mapping

本文提出了 DISC（密集集成语义上下文）框架，通过利用视觉 Transformer 中间层直接提取距离加权的单遍 CLIP 嵌入，并结合全 GPU 加速的体素级在线更新机制，有效解决了现有开放集语义映射方法在上下文缺失和计算效率方面的瓶颈，从而在大规模复杂场景中实现了显著优于现有零样本方法的实时语义精度与检索性能。

Felix Igelbrink, Lennart Niecksch, Martin Atzmueller + 1 more2026-03-05💻 cs

Cross-Modal Mapping and Dual-Branch Reconstruction for 2D-3D Multimodal Industrial Anomaly Detection

本文提出了轻量级无监督框架 CMDR-IAD，通过双向跨模态映射与双分支重建策略，在无需记忆库的情况下实现了 2D-3D 多模态及单模态工业异常检测的鲁棒性与高精度，并在 MVTec 3D-AD 基准及真实工业数据上取得了最先进性能。

Radia Daci, Vito Renò, Cosimo Patruno + 4 more2026-03-05🤖 cs.AI

Slice-wise quality assessment of high b-value breast DWI via deep learning-based artifact detection

该研究利用深度学习（特别是 DenseNet121 模型）在单切片层面上对高 b 值（1500 s/mm²）乳腺扩散加权成像中的高信号和低信号伪影进行了有效的检测与分类，展现了其在辅助诊断中的潜力。

Ameya Markale, Luise Brock, Ihor Horishnyi + 10 more2026-03-05💻 cs

Spatial Causal Prediction in Video

本文提出了旨在挑战模型超越观测进行推理的“空间因果预测”新任务范式，构建了包含 2500 个问答对的 SCP-Bench 基准，并通过评估 23 个先进模型揭示了当前模型在时空外推与因果推理能力上的显著不足，进而提出了相应的改进策略。

Yanguang Zhao, Jie Yang, Shengqiong Wu + 9 more2026-03-05💻 cs

RVN-Bench: A Benchmark for Reactive Visual Navigation

本文提出了 RVN-Bench，这是一个基于 Habitat 2.0 和高保真 HM3D 场景构建的碰撞感知基准测试，旨在解决现有室内视觉导航基准缺乏碰撞考量或仅适用于室外场景的问题，通过提供多样化的无地图环境、标准化评估指标及支持在线与离线学习的工具，推动安全且鲁棒的室内移动机器人视觉导航研究。

Jaewon Lee, Jaeseok Heo, Gunmin Lee + 3 more2026-03-05🤖 cs.AI