cs.CV 篇论文 | Gist.Science

Extending Neural Operators: Robust Handling of Functions Beyond the Training Set

本文提出了一种基于核近似和再生核希尔伯特空间理论的严谨框架，通过建立核函数与索伯列夫原生空间的联系，使神经算子能够鲁棒地处理分布外输入函数并准确捕捉函数及其导数，且该方法在流形点云表示的椭圆偏微分方程求解中得到了实证验证。

Blaine Quackenbush, Paul J. Atzberger2026-03-05🤖 cs.LG

Image-based Prompt Injection: Hijacking Multimodal LLMs through Visually Embedded Adversarial Instructions

该论文提出了一种名为“基于图像的提示注入”的黑盒攻击方法，通过将对抗性指令嵌入自然图像中，在保持隐蔽性的同时成功劫持多模态大语言模型的行为，最高可达 64% 的攻击成功率，从而揭示了多模odal 模型面临的新安全威胁。

Neha Nagaraja, Lan Zhang, Zhilong Wang + 2 more2026-03-05🤖 cs.AI

InfinityStory: Unlimited Video Generation with World Consistency and Character-Aware Shot Transitions

本文提出了名为 InfinityStory 的新框架、数据集及模型，通过引入背景一致性生成流程、多主体过渡感知合成模块以及包含 1 万条序列的合成数据集，有效解决了长篇幅叙事视频中背景连贯性、多主体镜头切换及长时扩展性三大挑战，并在 VBench 评测中实现了背景与主体一致性的最优表现。

Mohamed Elmoghany, Liangbing Zhao, Xiaoqian Shen + 27 more2026-03-05💻 cs

One-Step Face Restoration via Shortcut-Enhanced Coupling Flow

本文提出了 Shortcut-enhanced Coupling flow for Face Restoration (SCFlowFR)，通过建立数据依赖耦合、条件均值估计及捷径约束，实现了兼具高质量与高速度的单步人脸复原。

Xiaohui Sun, Hanlin Wu2026-03-05💻 cs

Field imaging framework for morphological characterization of aggregates with computer vision: Algorithms and applications

该论文针对传统骨料表征方法的局限性，提出了一套涵盖单颗粒、二维堆场及三维点云场景的现场成像框架，通过开发集成重建 - 分割 - 补全（RSC-3D）的深度学习算法，实现了对骨料形态特征的高效自动化分析与未可见面的预测。

Haohang Huang2026-03-05🤖 cs.AI

InEdit-Bench: Benchmarking Intermediate Logical Pathways for Intelligent Image Editing Models

本文提出了首个专注于评估图像编辑模型中间逻辑路径推理能力的基准 InEdit-Bench，通过涵盖四类任务的测试集和细粒度评估标准，揭示了当前主流模型在处理动态推理与多步演化任务时的显著不足，旨在推动更智能的多模态生成模型发展。

Zhiqiang Sheng, Xumeng Han, Zhiwei Zhang + 6 more2026-03-05🤖 cs.AI

Machine Pareidolia: Protecting Facial Image with Emotional Editing

本文提出了一种名为 MAP 的新型面部隐私保护方法，通过联合优化目标身份与人类表情来编辑图像，有效克服了传统方法在黑盒场景下迁移性差及跨人群适用性不足的缺陷，显著提升了对抗人脸识别系统的鲁棒性与图像感知质量。

Binh M. Le, Simon S. Woo2026-03-05🤖 cs.LG

EvoPrune: Early-Stage Visual Token Pruning for Efficient MLLMs

本文提出了 EvoPrune，一种在视觉编码阶段直接执行剪枝的早期视觉令牌剪枝方法，通过基于相似性、多样性和注意力重要性的分层策略，在显著降低多模态大模型推理延迟的同时保持了极低的性能损失。

Yuhao Chen, Bin Shan, Xin Ye + 1 more2026-03-05🤖 cs.AI

Polyp Segmentation Using Wavelet-Based Cross-Band Integration for Enhanced Boundary Representation

针对传统 RGB 方法在低对比度下难以精准分割息肉边界的局限，本文基于小波域分析发现灰度图具有更优的边界对比度，进而提出了一种融合灰度与 RGB 表示的互补频率交互模型，在多个基准数据集上显著提升了息肉分割的边界精度与鲁棒性。

Haesung Oh, Jaesung Lee2026-03-05💻 cs

Error as Signal: Stiffness-Aware Diffusion Sampling via Embedded Runge-Kutta Guidance

本文提出了一种名为 ERK-Guid 的新方法，通过将求解器误差识别为引导信号并利用嵌入式龙格 - 库塔法感知刚度，有效降低了扩散模型采样过程中的局部截断误差，从而在合成数据集和 ImageNet 基准测试中显著提升了样本质量。

Inho Kong, Sojin Lee, Youngjoon Hong + 1 more2026-03-05🤖 cs.AI

MPFlow: Multi-modal Posterior-Guided Flow Matching for Zero-Shot MRI Reconstruction

本文提出了 MPFlow，一种基于流匹配的多模态后验引导零样本 MRI 重建框架，通过自监督预训练策略 PAMRI 在推理阶段利用辅助模态信息，在显著减少肿瘤幻觉的同时，仅用 20% 的采样步数即可达到与扩散模型相当的重建质量。

Seunghoi Kim, Chen Jin, Henry F. J. Tregidgo + 2 more2026-03-05🤖 cs.AI

Order Is Not Layout: Order-to-Space Bias in Image Generation

该论文揭示了现代图像生成模型中存在的“顺序到空间偏差”（OTS）现象，即实体提及顺序会错误地决定空间布局，并通过提出 OTS-Bench 基准测试证实了该偏差的普遍性及其数据驱动本质，同时展示了通过针对性微调或早期干预策略可有效缓解该问题。

Yongkang Zhang, Zonglin Zhao, Yuechen Zhang + 3 more2026-03-05🤖 cs.AI

Glass Segmentation with Fusion of Learned and General Visual Features

本文提出了一种名为 LGNet 的新型玻璃分割架构，通过融合冻结的 DINOv3 通用视觉特征与监督训练的 Swin 任务特定特征，并借助残差 Squeeze-and-Excitation 通道缩减和 Mask2Former 解码器，在多个数据集上实现了优于现有最先进方法的精度与推理速度。

Risto Ojala, Tristan Ellison, Mo Chen2026-03-05💻 cs

QD-PCQA: Quality-Aware Domain Adaptation for Point Cloud Quality Assessment

本文提出了名为 QD-PCQA 的无参考点云质量评估框架，通过引入秩加权条件对齐和质感引导特征增强策略，有效解决了现有无监督域适应方法在感知质量排序敏感性和特征对齐方面的不足，从而显著提升了点云质量评估的泛化能力。

Guohua Zhang, Jian Jin, Meiqin Liu + 2 more2026-03-05💻 cs

PROSPECT: Unified Streaming Vision-Language Navigation via Semantic--Spatial Fusion and Latent Predictive Representation

本文提出了 PROSPECT，一种通过融合 CUT3R 流式 3D 空间编码与 SigLIP 语义特征、并利用潜在预测表示学习来增强环境动态建模能力的统一流式视觉语言导航智能体，其在 VLN-CE 基准测试及真实机器人部署中均展现了最先进的性能与长程鲁棒性。

Zehua Fan, Wenqi Lyu, Wenxuan Song + 12 more2026-03-05🤖 cs.AI

DAGE: Dual-Stream Architecture for Efficient and Fine-Grained Geometry Estimation

本文提出了 DAGE，一种通过低分辨率流构建全局一致性、高分辨率流保留细节特征，并利用轻量级适配器融合的双流 Transformer 架构，从而在保持高效推理的同时实现了高分辨率视频几何估计与多视图重建的 State-of-the-Art 性能。

Tuan Duc Ngo, Jiahui Huang, Seoung Wug Oh + 4 more2026-03-05💻 cs

WSI-INR: Implicit Neural Representations for Lesion Segmentation in Whole-Slide Images

本文提出了基于隐式神经表示（INR）的 WSI-INR 框架，通过构建从空间坐标直接映射到组织语义的连续函数并引入多分辨率哈希网格编码，有效解决了传统补丁法破坏空间连续性的问题，实现了在保持跨分辨率鲁棒性的同时显著提升了对高度异质性病理病灶的分割性能。

Yunheng Wu, Wenqi Huang, Liangyi Wang + 4 more2026-03-05💻 cs

Seeing as Experts Do: A Knowledge-Augmented Agent for Open-Set Fine-Grained Visual Understanding

本文提出了知识增强的细粒度推理代理（KFRA），通过构建包含开放词汇检测、判别性区域定位及多模态证据整合的三阶段闭环推理机制，实现了在开放集条件下具备可解释性和事实依据的细粒度视觉理解，并在自建的 FGExpertBench 基准测试中显著超越了现有模型。

Junhan Chen, Zilu Zhou, Yujun Tong + 3 more2026-03-05💻 cs

LiDAR Prompted Spatio-Temporal Multi-View Stereo for Autonomous Driving

本文提出了 DriveMVS 框架，通过利用稀疏但精确的 LiDAR 观测作为几何提示来锚定绝对尺度，并结合多视图与多时域信息的深度融合，实现了自动驾驶场景下兼具高精度、时空一致性及跨域泛化能力的度量深度估计。

Qihao Sun, Jiarun Liu, Ziqian Ni + 5 more2026-03-05💻 cs

Small Object Detection in Complex Backgrounds with Multi-Scale Attention and Global Relation Modeling

本文提出了一种面向复杂背景小目标检测的多级特征增强与全局关系建模框架，通过引入残差 Haar 小波下采样、全局关系建模、跨尺度混合注意力机制及中心辅助损失函数，有效解决了特征退化与定位不准问题，在 RGBT-Tiny 基准测试中显著优于现有最先进方法。

Wenguang Tao, Xiaotian Wang, Tian Yan + 2 more2026-03-05💻 cs