cs.CV 篇论文 | Gist.Science

Apple's Synthetic Defocus Noise Pattern: Characterization and Forensic Applications

本文深入表征了 iPhone 人像模式下特有的合成散焦噪声模式（SDNP），提出了其精确估计方法，并展示了该模式在跨设备版本溯源及通过掩蔽受干扰区域显著提升 PRNU 相机来源验证准确性方面的关键应用价值。

David Vázquez-Padín, Fernando Pérez-González, Pablo Pérez-Miguélez2026-03-05💻 cs

Why 1 + 1 < 1 in Visual Token Pruning: Beyond Naive Integration via Multi-Objective Balanced Covering

该论文通过推导基于豪斯多夫距离的闭式误差界揭示视觉令牌剪枝中提示对齐与视觉保留的内在权衡，并提出多目标平衡覆盖（MoB）方法，将剪枝重构为双目标覆盖问题，从而在显著加速多模态大模型的同时保持其性能。

Yangfu Li, Hongjian Zhan, Tianyi Chen + 2 more2026-03-05💬 cs.CL

From Press to Pixels: Evolving Urdu Text Recognition

本文针对乌尔都语报纸中 Nastaliq 字体、多栏排版及低分辨率扫描带来的识别挑战，提出了结合 YOLOv11x 文本块提取与 SwinIR 超分辨率增强的预处理方案，并发布了包含近万句标注数据的乌尔都语报纸基准（UNB），通过系统对比证实了微调大语言模型（如 GPT-4o 和 Gemini-2.5-Pro）在低资源复杂脚本识别任务中显著优于传统 OCR 系统。

Samee Arif, Sualeha Farid2026-03-05💻 cs

Extremely Simple Multimodal Outlier Synthesis for Out-of-Distribution Detection and Segmentation

该论文提出了一种名为“特征混合”的极简多模态异常合成方法，并发布了新的 CARLA-OOD 数据集，旨在通过理论支持的高效合成策略显著提升多模态数据中的分布外检测与分割性能。

Moru Liu, Hao Dong, Jessica Kelly + 2 more2026-03-05🤖 cs.AI

BAH Dataset for Ambivalence/Hesitancy Recognition in Videos for Digital Behavioural Change

本文介绍了首个用于识别数字健康行为改变中矛盾与犹豫（A/H）的多模态视频数据集 BAH，该数据集包含 300 名参与者的 1427 段视频及专家标注，并提供了基准测试结果以突显当前模型在该任务上的局限性及未来改进方向。

Manuela González-González, Soufiane Belharbi, Muhammad Osama Zeeshan + 6 more2026-03-05🤖 cs.LG

Do We Need All the Synthetic Data? Targeted Image Augmentation via Diffusion Models

本文提出了名为 TADA 的框架，通过利用扩散模型仅针对训练初期未充分学习的样本进行 30%-40% 的定向增强，在显著降低计算开销的同时，有效提升了多种架构在图像分类及检测任务中的泛化性能。

Dang Nguyen, Jiping Li, Jinghao Zheng + 1 more2026-03-05🤖 cs.LG

Structural Vibration Monitoring with Diffractive Optical Processors

本文提出了一种结合优化衍射层与浅层神经网络的低功耗衍射振动监测系统，能够无需密集传感器阵列即可实时远程重建结构三维振动频谱，在精度、成本和能效上显著优于传统方案。

Yuntian Wang, Zafer Yilmaz, Yuhang Li + 5 more2026-03-05🔬 physics.optics

EgoWorld: Translating Exocentric View to Egocentric View using Rich Exocentric Observations

本文提出了名为 EgoWorld 的新框架，通过利用点云、3D 手部姿态和文本描述等丰富的外视角观测信息，结合深度估计与扩散模型，成功实现了从外视角到内视角的高质量图像转换，并在多个数据集上展现了卓越的泛化能力与实用性。

Junho Park, Andrew Sangwoo Ye, Taein Kwon2026-03-05🤖 cs.AI

Partial Weakly-Supervised Oriented Object Detection

本文提出了首个基于部分弱标注（水平框或单点）的偏置目标检测框架 PWOOD，通过引入方向与尺度感知学生模型及类别无关伪标签过滤策略，有效利用未标注数据，在显著降低标注成本的同时实现了媲美甚至超越传统半监督算法的性能。

Mingxin Liu, Peiyuan Zhang, Yuan Liu + 8 more2026-03-05💻 cs

Fast Equivariant Imaging: Acceleration for Unsupervised Learning via Augmented Lagrangian and Auxiliary PnP Denoisers

本文提出了一种名为快速等变成像（FEI）的新型无监督学习框架，该方法通过结合拉格朗日乘子法与即插即用去噪器，在无需真实标签数据的情况下，实现了比传统等变成像快约 10 倍的训练速度，并显著提升了 X 射线 CT 重建和图像修复等任务的性能及泛化能力。

Guixian Xu, Jinglai Li, Junqi Tang2026-03-05🤖 cs.LG

D2Dewarp: Dual Dimensions Geometric Representation Learning Based Document Image Dewarping

本文提出了名为 D2Dewarp 的文档图像去畸变模型，通过利用水平和垂直双维度几何表示学习及特征融合模块来感知多方向形变，并构建了新的数据集 DocDewarpHV，在多个基准测试中取得了优于现有最先进方法的效果。

Heng Li, Xiangping Wu, Qingcai Chen2026-03-05💻 cs

VITA: Vision-to-Action Flow Matching Policy

本文提出了 VITA，一种无需迭代去噪和视觉条件输入的流匹配策略框架，通过联合训练动作自编码器与引入流潜在解码技术，实现了从视觉表征到潜在动作的直接映射，在显著降低推理延迟的同时保持了顶尖的性能表现。

Dechen Gao, Boqi Zhao, Andrew Lee + 6 more2026-03-05🤖 cs.AI

Classification of Histopathology Slides with Persistent Homology Convolutions

该论文提出了一种名为“持久同调卷积”的新方法，通过在卷积操作中引入局部持久同调信息来弥补传统卷积神经网络在组织病理学图像分类中丢失拓扑特征的缺陷，实验表明该方法不仅提升了诊断性能，还降低了对超参数的敏感性。

Shrunal Pothagoni, Benjamin Schweinhart2026-03-05💻 cs

Towards Generalizable AI-Generated Image Detection via Image-Adaptive Prompt Learning

该论文提出了一种名为图像自适应提示学习（IAPL）的新范式，通过为每个测试图像动态调整编码器提示并融合条件信息与测试时自适应令牌，有效解决了现有方法难以泛化到未见生成器伪造图像的问题，并在多个数据集上取得了最先进的检测性能。

Yiheng Li, Zichang Tan, Guoqing Xu + 3 more2026-03-05💻 cs

GaitSnippet: Gait Recognition Beyond Unordered Sets and Ordered Sequences

本文针对现有步态识别方法在时序上下文捕捉上的局限，提出将步态视为由随机片段（Snippet）组成的个性化动作集合，通过片段采样与建模实现多尺度时序特征学习，从而在多个数据集上显著提升了识别性能。

Saihui Hou, Chenye Wang, Wenpeng Lang + 2 more2026-03-05💻 cs

Reinforcing Video Reasoning Segmentation to Think Before It Segments

本文提出了 Veason-R1，一种通过思维链初始化与基于组相对策略优化的强化学习训练，显著提升了视频推理分割任务中时空推理能力与可解释性的专用大视觉语言模型。

Sitong Gong, Lu Zhang, Yunzhi Zhuge + 3 more2026-03-05💻 cs

Stochastic Self-Guidance for Training-Free Enhancement of Diffusion Models

该论文针对无分类器引导（CFG）在扩散模型中因过度依赖次优预测而导致语义不连贯的问题，提出了一种利用随机块丢弃构建子网络进行自我引导的无训练增强方法 S²-Guidance，显著提升了文生图和文生视频任务的质量。

Chubin Chen, Jiashu Zhu, Xiaokun Feng + 7 more2026-03-05💻 cs

Adaptive Quantized Planetary Crater Detection System for Autonomous Space Exploration

本文提出了一种自适应量化行星陨石坑检测系统（AQ-PCDSys），通过结合量化感知训练、自适应多传感器融合及多尺度检测头架构，旨在解决自主深空探测中受限于星载硬件资源而难以部署高精度深度学习模型的瓶颈问题。

Aditri Paul, Archan Paul2026-03-05🤖 cs.AI

ROBUST-MIPS: A Combined Skeletal Pose and Instance Segmentation Dataset for Laparoscopic Surgical Instruments

本文提出了 ROBUST-MIPS 数据集，该数据集基于现有的 ROBUST-MIS 数据集，通过引入骨骼姿态标注与实例分割标注相结合的方式，旨在解决手术器械标注数据稀缺问题，促进计算机辅助介入技术的发展并支持多种下游任务的对比研究。

Zhe Han, Charlie Budd, Gongyu Zhang + 3 more2026-03-05💻 cs

Index-Preserving Lightweight Token Pruning for Efficient Document Understanding in Vision-Language Models

本文提出了一种轻量级令牌剪枝框架，通过二值化分类去除文档图像中的非文本背景区域并利用最大池化优化文本区域，在显著降低视觉语言模型计算成本的同时保持了文档理解任务的准确率。

Jaemin Son, Sujin Choi, Inyong Yun2026-03-05🤖 cs.AI