cs.CV 篇论文 | Gist.Science

TAPFormer: Robust Arbitrary Point Tracking via Transient Asynchronous Fusion of Frames and Events

本文提出了 TAPFormer，一种基于 Transformer 的鲁棒任意点跟踪框架，通过创新的瞬态异步融合机制自适应地结合帧与事件流，有效解决了多模态数据在时间对齐和模态失效下的跟踪难题，并在自建数据集及标准基准上取得了显著的性能提升。

Jiaxiong Liu, Zhen Tan, Jinpu Zhang + 4 more2026-03-06💻 cs

MultiGO++: Monocular 3D Clothed Human Reconstruction via Geometry-Texture Collaboration

本文提出了名为 MultiGO++ 的新框架，通过构建大规模纹理数据集、引入区域感知形状提取模块及双重建 U-Net 实现几何与纹理的有效协同，从而显著提升了单目 3D 着衣人体重建的质量与泛化能力。

Nanjie Yao, Gangjian Zhang, Wenhao Shen + 3 more2026-03-06💻 cs

Physics-consistent deep learning for blind aberration recovery in mobile optics

本文提出了名为 Lens2Zernike 的深度学习框架，通过联合优化 Zernike 系数回归、可微物理约束及辅助空间图预测的三重监督策略，从单张模糊图像中盲恢复物理光学参数，从而在移动摄影中实现了比现有方法更稳定且准确的像差校正与细节复原。

Kartik Jhawar, Tamo Sancho Miguel Tandoc, Khoo Jun Xuan + 1 more2026-03-06💻 cs

How far have we gone in Generative Image Restoration? A study on its capability, limitations and evaluation practices

本文通过构建涵盖细节、清晰度、语义正确性及整体质量的多维评估体系，对生成式图像修复模型进行了大规模研究，揭示了其从“细节匮乏”向“细节质量与语义控制”的范式转变，并据此训练了更符合人类感知的新图像质量评估模型。

Xiang Yin, Jinfan Hu, Zhiyuan You + 4 more2026-03-06💻 cs

Tell2Adapt: A Unified Framework for Source Free Unsupervised Domain Adaptation via Vision Foundation Model

本文提出了 Tell2Adapt，一种基于视觉基础模型（VFM）的统一源自由无监督域自适应框架，通过上下文感知提示正则化（CAPR）和视觉合理性细化（VPR）机制，在涵盖 10 个域适应方向和 22 种解剖目标的广泛医学图像分割任务中实现了最先进的性能。

Yulong Shi, Shijie Li, Ziyi Li + 1 more2026-03-06💻 cs

Generalizable Multiscale Segmentation of Heterogeneous Map Collections

本文通过构建包含 1,439 个标注样本的新基准数据集 Semap，并提出一种结合程序化数据合成与多尺度整合的分割框架，成功实现了针对风格、尺度及地理范围各异的历史地图集合的通用化语义分割，从而为将海量异构地图档案纳入历史地理研究开辟了新途径。

Remi Petitpierre2026-03-06💻 cs

Exploiting Intermediate Reconstructions in Optical Coherence Tomography for Test-Time Adaption of Medical Image Segmentation

该论文提出了 IRTTA 方法，通过在测试阶段利用光学相干断层扫描（OCT）重建过程中的中间表示来动态调整冻结下游分割网络的归一化层参数，从而在不修改重建过程或模型架构的前提下，显著提升了分割性能并实现了零成本的语义不确定性估计。

Thomas Pinetz, Veit Hucke, Hrvoje Bogunovic2026-03-06💻 cs

CoIn3D: Revisiting Configuration-Invariant Multi-Camera 3D Object Detection

本文提出了 CoIn3D 框架，通过空间感知特征调制（SFM）和免训练动态新视图图像合成（CDA）技术，将焦距、地面深度等空间先验显式融入特征与观测，从而显著提升了多相机 3D 目标检测模型在不同相机配置下的泛化能力与跨配置迁移性能。

Zhaonian Kuang, Rui Ding, Haotian Wang + 3 more2026-03-06💻 cs

CLIP-driven Zero-shot Learning with Ambiguous Labels

本文提出了一种名为 CLIP-PZSL 的新框架，通过利用 CLIP 提取特征、设计语义挖掘模块以及引入渐进式优化的部分零样本损失函数，有效解决了真实场景中标签模糊导致的零样本学习性能下降问题。

Jinfu Fan, Jiangnan Li, Xiaowen Yan + 3 more2026-03-06💻 cs

A 360-degree Multi-camera System for Blue Emergency Light Detection Using Color Attention RT-DETR and the ABLDataset

该研究利用 ABLDataset 数据集和四目鱼眼相机系统，通过引入颜色注意力机制改进 RT-DETR 模型，实现了在复杂环境下对欧洲应急车辆蓝色警灯的高精度检测与方位估计，旨在增强高级驾驶辅助系统（ADAS）的主动安全性。

Francisco Vacalebri-Lloret, Lucas Banchero, Jose J. Lopez + 1 more2026-03-06🤖 cs.AI

MI-DETR: A Strong Baseline for Moving Infrared Small Target Detection with Bio-Inspired Motion Integration

本文提出了一种名为 MI-DETR 的生物启发式红外小目标检测基线模型，该模型通过视网膜启发的细胞自动机显式构建运动图，并利用视锥 - 视杆细胞互连机制融合外观与运动特征，在无需额外运动监督或对齐模块的情况下，于多个基准测试中取得了显著优于现有方法的检测性能。

Nian Liu, Jin Gao, Shubo Lin + 8 more2026-03-06💻 cs

UniM: A Unified Any-to-Any Interleaved Multimodal Benchmark

本文提出了首个统一任意到任意交错多模态基准 UniM，包含 31K 个覆盖 7 种模态的高质量实例及评估套件，并引入具备可追溯推理能力的 UniMA 基线模型，旨在推动多模态大模型在复杂交错输入输出场景下的理解与生成能力发展。

Yanlin Li, Minghui Guo, Kaiwen Zhang + 13 more2026-03-06💻 cs

MoRe: Motion-aware Feed-forward 4D Reconstruction Transformer

MoRe 是一种高效的单目视频前馈 4D 重建 Transformer，它通过注意力强制策略解耦动态运动与静态结构，并结合分组因果注意力机制，在无需额外监督的情况下实现了高质量且实时的动态场景重建。

Juntong Fang, Zequn Chen, Weiqi Zhang + 4 more2026-03-06💻 cs

Orthogonal Spatial-temporal Distributional Transfer for 4D Generation

针对当前 4D 生成因缺乏大规模数据集而受限的问题，本文提出了一种名为 Orster 的新型框架，通过正交时空分布转移机制将 3D 和视频扩散模型中的先验知识解耦并注入到 STD-4D 扩散模型及 ST-HexPlane 中，从而显著提升了 4D 内容生成的质量与时空一致性。

Wei Liu, Shengqiong Wu, Bobo Li + 4 more2026-03-06💻 cs

Axiomatic On-Manifold Shapley via Optimal Generative Flows

该论文提出了一种基于最优生成流的公理化流形上 Aumann-Shapley 归因理论，通过利用最小化动能的 Wasserstein-2 测地线解决路径歧义，在理论上证明了梯度线积分的唯一性，并在实验中实现了严格的流形一致性与优越的语义对齐。

Cenwei Zhang, Lin Zhu, Manxi Lin + 1 more2026-03-06🤖 cs.AI

GEM-TFL: Bridging Weak and Full Supervision for Forgery Localization through EM-Guided Decomposition and Temporal Refinement

本文提出了 GEM-TFL 框架，通过 EM 引导的标签分解、无监督时序一致性细化及图结构提案优化，有效解决了弱监督时序伪造定位中训练与推理目标不匹配及监督信号不足的问题，显著缩小了其与全监督方法的性能差距。

Xiaodong Zhu, Yuanming Zheng, Suting Wang + 4 more2026-03-06🤖 cs.AI

cs.CV