cs.CV 篇论文 | Gist.Science

PET-F2I: A Comprehensive Benchmark and Parameter-Efficient Fine-Tuning of LLMs for PET/CT Report Impression Generation

该论文提出了包含 4.1 万份真实报告的 PET-F2I-41K 基准数据集及三种临床评估指标，并通过 LoRA 微调构建了 PET-F2I-7B 模型，显著提升了 PET/CT 影像报告印象生成的准确性与事实一致性，为临床部署提供了高效可靠的解决方案。

Yuchen Liu, Wenbo Zhang, Liling Peng, Yichi Zhang, Yu Fu, Xin Guo, Chao Qu, Yuan Qi, Le Xue2026-03-12💻 cs

UniStitch: Unifying Semantic and Geometric Features for Image Stitching

本文提出了 UniStitch 框架，通过引入神经点 Transformer 将离散几何特征转化为连续语义特征，并利用自适应混合专家模块动态融合两者，从而在复杂场景下显著提升了图像拼接性能并弥合了传统方法与学习-based 方法之间的鸿沟。

Yuan Mei, Lang Nie, Kang Liao, Yunqiu Xu, Chunyu Lin, Bin Xiao2026-03-12💻 cs

R4-CGQA: Retrieval-based Vision Language Models for Computer Graphics Image Quality Assessment

该论文针对现有计算机图形图像质量评估缺乏系统描述和文本解释的问题，构建了一个包含 3500 张图像及多维质量描述的新数据集，并提出了基于检索增强生成的双流框架（R4-CGQA），显著提升了视觉语言模型在细粒度 CG 质量评估中的准确性与解释能力。

Zhuangzi Li, Jian Jin, Shilv Cai, Weisi Lin2026-03-12💻 cs

Attribution as Retrieval: Model-Agnostic AI-Generated Image Attribution

该论文提出了一种名为 LIDA 的模型无关框架，通过将 AI 生成图像溯源问题重构为实例检索任务，利用低位平面指纹生成及无监督预训练结合少样本适应策略，在零样本和少样本设置下实现了最先进的检测与溯源性能。

Hongsong Wang, Renxi Cheng, Chaolei Han, Jie Gui2026-03-12💻 cs

Need for Speed: Zero-Shot Depth Completion with Single-Step Diffusion

本文提出了 Marigold-SSD，这是一种利用强扩散先验的单步晚融合深度补全框架，通过将计算负担从推理转移到微调，在仅需 4.5 GPU 天训练成本的情况下实现了高效的零-shot 性能，显著缩小了扩散模型与判别模型之间的效率差距。

Jakub Gregorek, Paraskevas Pegios, Nando Metzger, Konrad Schindler, Theodora Kontogianni, Lazaros Nalpantidis2026-03-12💻 cs

Layer Consistency Matters: Elegant Latent Transition Discrepancy for Generalizable Synthetic Image Detection

该论文提出了一种名为“潜在过渡差异（LTD）”的新方法，通过捕捉真实图像与合成图像在网络层间特征过渡一致性的差异，有效解决了现有合成图像检测技术泛化能力不足的问题，并在多个数据集上实现了优于当前最先进方法的检测精度与鲁棒性。

Yawen Yang, Feng Li, Shuqi Kong, Yunfeng Diao, Xinjian Gao, Zenglin Shi, Meng Wang2026-03-12💻 cs

HyPER-GAN: Hybrid Patch-Based Image-to-Image Translation for Real-Time Photorealism Enhancement

本文提出了一种名为 HyPER-GAN 的轻量级图像到图像翻译模型，它基于 U-Net 架构并采用混合训练策略，旨在以实时推理速度显著提升合成数据的视觉真实感与语义一致性，同时避免引入损害算法准确性的视觉伪影。

Stefanos Pasios, Nikos Nikolaidis2026-03-12💻 cs

MUNIChus: Multilingual News Image Captioning Benchmark

本文提出了首个涵盖 9 种语言（包括僧伽罗语和乌尔都语等低资源语言）的多语言新闻图像描述基准 MUNIChus，旨在解决该领域非英语数据稀缺的问题，并评估了多种先进模型的表现以推动相关技术的发展。

Yuji Chen, Alistair Plum, Hansi Hettiarachchi, Diptesh Kanojia, Saroj Basnet, Marcos Zampieri, Tharindu Ranasinghe2026-03-12💬 cs.CL

Splat2Real: Novel-view Scaling for Physical AI with 3D Gaussian Splatting

该论文提出了 Splat2Real 框架，利用 3D 高斯泼溅（3DGS）生成可扩展的新视角数据，并通过引入结合几何增益与外推惩罚的 CN-Coverage 课程学习策略，有效解决了物理 AI 在单目 RGB 到 3D 感知任务中因视角偏移导致的性能不稳定问题，显著提升了模型在未见视角下的鲁棒性。

Hansol Lim, Jongseong Brad Choi2026-03-12💻 cs

Less is More: Decoder-Free Masked Modeling for Efficient Skeleton Representation Learning

本文提出了名为 SLiM 的解码器无关掩码建模框架，通过结合对比学习与语义管状掩码策略，在消除计算冗余的同时实现了骨骼动作表征学习的效率与性能双重突破。

Jeonghyeok Do, Yun Chen, Geunhyuk Youk, Munchurl Kim2026-03-12💻 cs

Are Video Reasoning Models Ready to Go Outside?

该论文提出了名为 ROVA 的训练框架及 PVRBench 基准，通过引入抗扰动一致性奖励和难度感知在线训练策略，显著提升了视频推理模型在天气、遮挡等真实世界干扰下的鲁棒性与推理能力，并验证了其在标准基准上的泛化收益。

Yangfan He, Changgyu Boo, Jaehong Yoon2026-03-12🤖 cs.AI

How To Embed Matters: Evaluation of EO Embedding Design Choices

该论文利用 NeuCo-Bench 对地球观测基础模型（GeoFMs）的嵌入设计进行了系统分析，揭示了骨干架构、预训练策略及聚合方式等关键选择对下游任务性能的影响，并证明了通过特定设计可将原始数据压缩为 500 倍以上的紧凑嵌入，同时保持广泛的下游任务适用性。

Luis Gilch, Isabelle Wittmann, Maximilian Nitsche, Johannes Jakubik, Arne Ewald, Thomas Brunschwiler2026-03-12💻 cs

An FPGA Implementation of Displacement Vector Search for Intra Pattern Copy in JPEG XS

本文提出了一种针对 JPEG XS 标准中帧内模式复制（IPC）位移向量搜索的高效流水线 FPGA 架构，通过优化存储组织实现了 38.3 Mpixels/s 的高吞吐量和低功耗，为其实用化部署及 ASIC 实现奠定了基础。

Qiyue Chen, Yao Li, Jie Tao, Song Chen, Li Li, Dong Liu2026-03-12⚡ eess

A $^2$ -Edit: Precise Reference-Guided Image Editing of Arbitrary Objects and Ambiguous Masks

本文提出了 A²-Edit 框架，通过构建包含 50 万对图像的大规模多类别数据集 UniEdit-500K，并引入混合 Transformer 模块与掩码退火训练策略，实现了仅凭粗略掩码即可对任意类别对象进行精确参考引导编辑的统一修复方案。

Huayu Zheng, Guangzhao Li, Baixuan Zhao, Siqi Luo, Hantao Jiang, Guangtao Zhai, Xiaohong Liu2026-03-12💻 cs

MapGCLR: Geospatial Contrastive Learning of Representations for Online Vectorized HD Map Construction

该论文提出了一种名为 MapGCLR 的半监督学习方法，通过在向量化的在线 HD 地图构建模型中引入基于重叠鸟瞰图特征网格的地理空间对比损失，利用多轨迹数据增强自监督训练，从而在减少标注依赖的同时显著提升了地图感知性能。

Jonas Merkert, Alexander Blumberg, Jan-Hendrik Pauls, Christoph Stiller2026-03-12💻 cs

Bioinspired CNNs for border completion in occluded images

该论文受视觉皮层边界补全机制启发，设计了名为 BorderNet 的卷积神经网络滤波器，通过在多个数据集上测试条纹和网格两种遮挡情况，证明了该架构在提升图像遮挡鲁棒性方面的有效性。

Catarina P. Coutinho, Aneeqa Merhab, Janko Petkovic, Ferdinando Zanchetta, Rita Fioresi2026-03-12💻 cs

RandMark: On Random Watermarking of Visual Foundation Models

该论文提出了一种名为 RandMark 的视觉基础模型所有权验证方法，通过在内部表示中嵌入随机数字水印，实现了对功能复制模型的高效检测，同时保证了极低的误报率和漏报率。

Anna Chistyakova, Mikhail Pautov2026-03-12🤖 cs.AI

UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations

UniCom 提出了一种基于压缩连续语义表示的统一多模态建模框架，通过注意力语义压缩器替代离散化与空间下采样，在保留丰富语义先验的同时实现了卓越的生成性能、图像编辑可控性及训练稳定性。

Yaqi Zhao, Wang Lin, Zijian Zhang, Miles Yang, Jingyuan Chen, Wentao Zhang, Zhao Zhong, Liefeng Bo2026-03-12💻 cs

WalkGPT: Grounded Vision-Language Conversation with Depth-Aware Segmentation for Pedestrian Navigation

本文提出了 WalkGPT，一种将语言推理与分割统一于单一架构中的像素级大视觉语言模型，旨在通过多尺度查询投影和校准文本投影实现深度感知的无障碍导航指导，并发布了包含 4.1 万张图像的大规模基准数据集 PAVE 以验证其在地面导航任务中的有效性。

Rafi Ibn Sultan, Hui Zhu, Xiangyu Zhou, Chengyin Li, Prashant Khanduri, Marco Brocanelli, Dongxiao Zhu2026-03-12💻 cs

UAV traffic scene understanding: A cross-spectral guided approach and a unified benchmark

该论文提出了一种名为 CTCNet 的新型跨光谱交通认知网络，通过原型引导知识嵌入和质量感知光谱补偿模块，结合首个大规模光热红外基准数据集 Traffic-VQA，显著提升了无人机在复杂光照条件下对交通场景的鲁棒感知与复杂违规行为认知能力。

Yu Zhang, Zhicheng Zhao, Ze Luo, Chenglong Li, Jin Tang2026-03-12🤖 cs.AI

cs.CV