cs.CV 篇论文 | Gist.Science

Bridging Human Evaluation to Infrared and Visible Image Fusion

该论文针对现有红外与可见光图像融合方法难以契合人类视觉偏好的问题，构建了首个包含多维主观评分的大规模人类反馈数据集，并据此提出一种结合奖励模型与组相对策略优化（GRPO）的反馈强化框架，显著提升了融合图像的人眼感知质量。

Jinyuan Liu, Xingyuan Li, Qingyun Mei + 5 more2026-03-05💻 cs

Yolo-Key-6D: Single Stage Monocular 6D Pose Estimation with Keypoint Enhancements

本文提出了 Yolo-Key-6D，一种专为实时应用设计的单阶段端到端单目 6D 位姿估计框架，它通过集成辅助关键点检测头增强 3D 几何理解，并采用连续 9D 旋转表示实现稳定训练，在 LINEMOD 等基准测试中实现了精度与速度的优异平衡。

Kemal Alperen Çetiner, Hazım Kemal Ekenel2026-03-05💻 cs

UniSync: Towards Generalizable and High-Fidelity Lip Synchronization for Challenging Scenarios

本文提出了名为 UniSync 的统一框架，通过结合无掩码姿态锚定训练与基于掩码的混合推理策略，并引入 RealWorld-LipSync 基准测试，实现了在复杂真实场景（如风格化虚拟人、遮挡及极端光照）下兼具高保真度与强泛化能力的唇形同步。

Ruidi Fan, Yang Zhou, Siyuan Wang + 3 more2026-03-05💻 cs

A novel network for classification of cuneiform tablet metadata

本文提出了一种受卷积启发的新型网络架构，通过结合局部邻域信息与特征空间全局信息，有效解决了楔形文字泥板元数据分类中数据集有限且点云分辨率高的难题，其性能优于现有的 Point-BERT 等先进方法。

Frederik Hagelskjær2026-03-05🤖 cs.AI

From Misclassifications to Outliers: Joint Reliability Assessment in Classification

该论文提出了一种将分布外检测与分类失败预测联合评估的统一框架及新指标（DS-F1 和 DS-AURC），并在此基础上提出了 SURE+ 方法，显著提升了分类器在真实场景下的可靠性。

Yang Li, Youyang Sha, Yinzhi Wang + 4 more2026-03-05🤖 cs.LG

Architecture and evaluation protocol for transformer-based visual object tracking in UAV applications

本文提出了一种结合 Transformer 跟踪器、扩展卡尔曼滤波及光流补偿的模块化异步跟踪架构（MATA），并引入了面向嵌入式系统的评估协议与“归一化失效时间”（NT2F）新指标，在 Nvidia Jetson AGX Orin 平台上验证了其在无人机视觉跟踪任务中的实时性与鲁棒性。

Augustin Borne, Pierre Notin, Christophe Hennequin + 4 more2026-03-05💻 cs

Fine-grained Image Aesthetic Assessment: Learning Discriminative Scores from Relative Ranks

本文提出了名为 FGAesthetics 的细粒度图像美学评估数据库及 FGAesQ 框架，通过引入成对比较标注、数据清洗机制以及基于相对排名的判别性评分学习策略，有效解决了现有模型难以区分细微美学差异的难题，并在细粒度与粗粒度评估中均展现出优越性能。

Zhichao Yang, Jianjie Wang, Zhixianhe Zhang + 4 more2026-03-05💻 cs

N-gram Injection into Transformers for Dynamic Language Model Adaptation in Handwritten Text Recognition

该论文提出了一种在推理阶段动态注入外部 n-gram 语言模型的方法，使基于 Transformer 的手写文本识别网络能够在不针对目标域图像 - 文本对进行额外训练的情况下，有效适应语言分布偏移并显著提升识别性能。

Florent Meyer, Laurent Guichard, Denis Coquenet + 3 more2026-03-05💻 cs

DISC: Dense Integrated Semantic Context for Large-Scale Open-Set Semantic Mapping

本文提出了 DISC（密集集成语义上下文）框架，通过利用视觉 Transformer 中间层直接提取距离加权的单遍 CLIP 嵌入，并结合全 GPU 加速的体素级在线更新机制，有效解决了现有开放集语义映射方法在上下文缺失和计算效率方面的瓶颈，从而在大规模复杂场景中实现了显著优于现有零样本方法的实时语义精度与检索性能。

Felix Igelbrink, Lennart Niecksch, Martin Atzmueller + 1 more2026-03-05💻 cs

Cross-Modal Mapping and Dual-Branch Reconstruction for 2D-3D Multimodal Industrial Anomaly Detection

本文提出了轻量级无监督框架 CMDR-IAD，通过双向跨模态映射与双分支重建策略，在无需记忆库的情况下实现了 2D-3D 多模态及单模态工业异常检测的鲁棒性与高精度，并在 MVTec 3D-AD 基准及真实工业数据上取得了最先进性能。

Radia Daci, Vito Renò, Cosimo Patruno + 4 more2026-03-05🤖 cs.AI

Slice-wise quality assessment of high b-value breast DWI via deep learning-based artifact detection

该研究利用深度学习（特别是 DenseNet121 模型）在单切片层面上对高 b 值（1500 s/mm²）乳腺扩散加权成像中的高信号和低信号伪影进行了有效的检测与分类，展现了其在辅助诊断中的潜力。

Ameya Markale, Luise Brock, Ihor Horishnyi + 10 more2026-03-05💻 cs

Spatial Causal Prediction in Video

本文提出了旨在挑战模型超越观测进行推理的“空间因果预测”新任务范式，构建了包含 2500 个问答对的 SCP-Bench 基准，并通过评估 23 个先进模型揭示了当前模型在时空外推与因果推理能力上的显著不足，进而提出了相应的改进策略。

Yanguang Zhao, Jie Yang, Shengqiong Wu + 9 more2026-03-05💻 cs

RVN-Bench: A Benchmark for Reactive Visual Navigation

本文提出了 RVN-Bench，这是一个基于 Habitat 2.0 和高保真 HM3D 场景构建的碰撞感知基准测试，旨在解决现有室内视觉导航基准缺乏碰撞考量或仅适用于室外场景的问题，通过提供多样化的无地图环境、标准化评估指标及支持在线与离线学习的工具，推动安全且鲁棒的室内移动机器人视觉导航研究。

Jaewon Lee, Jaeseok Heo, Gunmin Lee + 3 more2026-03-05🤖 cs.AI

Towards Generalized Multimodal Homography Estimation

该论文提出了一种从单张图像合成具有真实偏移量的未对齐多模态图像对的训练数据方法，并设计了一种利用跨尺度信息且解耦颜色特征的神经网络，从而显著提升了多模态单应性估计模型在未见模态上的泛化能力与鲁棒性。

Jinkun You, Jiaxin Cheng, Jie Zhang + 1 more2026-03-05🤖 cs.AI

Structural Action Transformer for 3D Dexterous Manipulation

本文提出了结构动作 Transformer（SAT），通过引入以结构为中心的视角，将动作重构为无序的关节轨迹序列并结合具身关节码本，从而有效解决了异构高自由度机械手在 3D 灵巧操作中的跨本体技能迁移难题。

Xiaohan Lei, Min Wang, Bohong Weng + 2 more2026-03-05💻 cs

ProFound: A moderate-sized vision foundation model for multi-task prostate imaging

本文提出了 ProFound，一种基于 5000 名患者超 22000 个 3D 多参数 MRI 体积数据自监督预训练的中规模前列腺专用视觉基础模型，其在癌症检测、分级、定位及分割等 11 项下游临床任务上的表现均优于或媲美现有的专用模型及医学视觉基础模型。

Yipei Wang, Yinsong Xu, Weixi Yi + 11 more2026-03-05💻 cs

BLOCK: An Open-Source Bi-Stage MLLM Character-to-Skin Pipeline for Minecraft

本文介绍了开源项目 BLOCK，这是一个利用大语言模型生成 3D 预览图并结合微调 FLUX.2 模型进行解码的双阶段管道，通过创新的 EvolveLoRA 渐进式训练策略，实现了从任意角色概念到像素级 Minecraft 皮肤的高效、稳定生成。

Hengquan Guo2026-03-05🤖 cs.AI

UniRain: Unified Image Deraining with RAG-based Dataset Distillation and Multi-objective Reweighted Optimization

本文提出了 UniRain 统一图像去雨框架，通过基于检索增强生成（RAG）的数据集蒸馏技术筛选高质量训练样本，并结合非对称混合专家架构中的多目标重加权优化策略，实现了在复杂真实场景下对雨纹和雨滴等多种退化类型的高效泛化与鲁棒恢复。

Qianfeng Yang, Qiyuan Guan, Xiang Chen + 3 more2026-03-05💻 cs

Scaling Dense Event-Stream Pretraining from Visual Foundation Models

本文提出了一种利用视觉基础模型进行自监督预训练的新方法，通过引入结构感知蒸馏损失来解决图像与事件流之间的语义失配问题，从而在无需大量标注的情况下实现了大规模、高密度的事件流表征学习，并显著提升了下游任务的性能。

Zhiwen Chen, Junhui Hou, Zhiyu Zhu + 2 more2026-03-05💻 cs

Dual-Solver: A Generalized ODE Solver for Diffusion Models with Dual Prediction

本文提出了 Dual-Solver，一种通过可学习参数灵活调整预测类型、积分域及残差项的通用 ODE 求解器，旨在利用分类目标在低函数评估次数（NFE）下显著提升扩散模型的采样质量。

Soochul Park, Yeon Ju Lee2026-03-05🤖 cs.LG