cs.CV 篇论文 | Gist.Science

Integration of deep generative Anomaly Detection algorithm in high-speed industrial line

该论文提出了一种基于生成对抗网络与残差自编码器的半监督异常检测框架，通过仅使用标称样本训练，成功在制药行业高速吹灌封（BFS）生产线上实现了满足 500 毫秒时序约束的高精度在线缺陷检测与定位。

Niccolò Ferrari, Nicola Zanarini, Michele Fraccaroli, Alice Bizzarri, Evelina Lamma2026-03-10🤖 cs.LG

3DGS-HPC: Distractor-free 3D Gaussian Splatting with Hybrid Patch-wise Classification

本文提出了 3DGS-HPC 框架，通过结合利用局部空间一致性的分块分类策略与自适应融合光度及感知线索的混合分类指标，有效克服了现有方法依赖语义线索的局限性，显著提升了 3D 高斯泼溅在真实世界动态干扰场景下的重建质量与新视角合成效果。

Jiahao Chen, Yipeng Qin, Ganlong Zhao, Xin Li, Wenping Wang, Guanbin Li2026-03-10💻 cs

Models as Lego Builders: Assembling Malice from Benign Blocks via Semantic Blueprints

该论文揭示了大型视觉语言模型（LVLMs）存在一种通过语义槽填充将看似无害的视觉块组装成恶意内容的新型漏洞，并据此提出了一种名为 StructAttack 的黑盒单查询越狱框架，该框架通过将有害查询分解为良性槽位并嵌入结构化视觉提示，成功诱导模型绕过安全机制生成有害输出。

Chenxi Li, Xianggan Liu, Dake Shen, Yaosong Du, Zhibo Yao, Hao Jiang, Linyi Jiang, Chengwei Cao, Jingzhe Zhang, RanYi Peng, Peiling Bai, Xiande Huang2026-03-10🤖 cs.LG

Fast Attention-Based Simplification of LiDAR Point Clouds for Object Detection and Classification

本文提出了一种结合特征嵌入与注意力机制的端到端学习式 LiDAR 点云简化方法，旨在解决现有采样方法在速度与精度间的权衡难题，在 KITTI 等数据集上实现了比最远点采样（FPS）更快的速度以及比随机采样（RS）更稳定的高保真度。

Z. Rozsa, Á. Madaras, Q. Wei, X. Lu, M. Golarits, H. Yuan, T. Sziranyi, R. Hamzaoui2026-03-10💻 cs

EmbedTalk: Triplane-Free Talking Head Synthesis using Embedding-Driven Gaussian Deformation

本文提出了 EmbedTalk，一种通过可学习嵌入替代传统三平面编码来驱动高斯变形的免三平面说话头合成方法，该方法在提升渲染质量、唇形同步和运动一致性的同时，显著降低了模型体积并实现了在移动端 GPU 上的实时（60 FPS）推理。

Arpita Saggar, Jonathan C. Darling, Duygu Sarikaya, David C. Hogg2026-03-10💻 cs

Looking Into the Water by Unsupervised Learning of the Surface Shape

该论文提出了一种基于双神经场网络的无监督学习方法，利用周期性激活函数（SIREN）对水面高度进行时空建模，从而有效消除航拍图像中的水面折射畸变并重建水下场景。

Ori Lifschitz, Tali Treibitz, Dan Rosenbaum2026-03-10💻 cs

Compression as Adaptation: Implicit Visual Representation with Diffusion Foundation Models

该论文提出了一种将视觉信号编码为冻结生成模型低秩适配参数的函数式隐式表示框架，通过将其哈希为紧凑向量，实现了极低码率下的高感知视频压缩，并构建了连接视觉压缩与生成的统一范式。

Jiajun He, Zongyu Guo, Zhaoyang Jia, Xiaoyi Zhang, Jiahao Li, Xiao Li, Bin Li, José Miguel Hernández-Lobato, Yan Lu2026-03-10🤖 cs.LG

Overthinking Causes Hallucination: Tracing Confounder Propagation in Vision Language Models

该论文指出视觉语言模型的幻觉源于模型在深层推理中因过度思考而锁定并传播错误假设，并据此提出通过测量跨层假设不稳定性的“过度思考分数”来显著提升幻觉检测性能。

Abin Shoby, Ta Duc Huy, Tuan Dung Nguyen, Minh Khoi Ho, Qi Chen, Anton van den Hengel, Phi Le Nguyen, Johan W. Verjans, Vu Minh Hieu Phan2026-03-10💻 cs

Duala: Dual-Level Alignment of Subjects and Stimuli for Cross-Subject fMRI Decoding

该论文提出了名为 Duala 的双级对齐框架，通过刺激级的语义对齐与关系一致性策略以及主体级的分布特征扰动机制，有效解决了跨被试 fMRI 视觉解码中语义一致性与脑响应对齐的难题，在仅使用少量数据微调的情况下显著提升了图像检索与重建性能。

Shumeng Li, Jintao Guo, Jian Zhang, Yulin Zhou, Luyang Cao, Yinghuan Shi2026-03-10💻 cs

Real-Time Glottis Detection Framework via Spatial-decoupled Feature Learning for Nasal Transnasal Intubation

本文提出了一种名为 Mobile GlottisNet 的轻量级实时框架，通过引入空间解耦特征学习、动态阈值策略及自适应特征解耦模块，在资源受限的嵌入式设备上实现了针对经鼻气管插管手术的高效且鲁棒的声门检测。

Jinyu Liu, Gaoyang Zhang, Yang Zhou, Ruoyi Hao, Yang Zhang, Hongliang Ren2026-03-10💻 cs

Evaluating Synthetic Data for Baggage Trolley Detection in Airport Logistics

该论文提出了一种基于 NVIDIA Omniverse 构建的阿尔及尔国际机场高保真数字孪生体的合成数据生成管道，用于解决行李推车检测中的隐私与数据多样性难题，实验表明结合少量真实标注数据的混合训练策略在显著降低标注成本的同时，其检测精度（mAP@50 达 0.94）可媲美甚至超越全量真实数据基线。

Abdeldjalil Taibi, Mohmoud Badlis, Amina Bensalem, Belkacem Zouilekh, Mohammed Brahimi2026-03-10🤖 cs.LG

AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots

本文提出了名为 AtomicVLA 的统一规划与执行框架，通过技能引导的混合专家模型（SG-MoE）和灵活路由编码器构建可扩展的原子技能库，有效解决了现有视觉 - 语言 - 动作（VLA）模型在长程任务规划、多步问题解决及持续技能学习方面的局限性，并在仿真与真实世界实验中显著超越了现有基线模型。

Likui Zhang, Tao Tang, Zhihao Zhan, Xiuwei Chen, Zisheng Chen, Jianhua Han, Jiangtong Zhu, Pei Xu, Hang Xu, Hefeng Wu, Liang Lin, Xiaodan Liang2026-03-10💻 cs

GLASS: Graph and Vision-Language Assisted Semantic Shape Correspondence

本文提出了 GLASS 框架，通过融合几何谱分析与视觉 - 语言基础模型的语义先验（包括视图一致特征提取、零样本 3D 分割注入语言嵌入及图辅助对比损失），在无监督条件下实现了跨类别及非等距形变场景下 3D 形状稠密语义对应的最先进性能。

Qinfeng Xiao, Guofeng Mei, Qilong Liu, Chenyuan Yi, Fabio Poiesi, Jian Zhang, Bo Yang, Yick Kit-lun2026-03-10💻 cs

Scaling Test-Time Robustness of Vision-Language Models via Self-Critical Inference Framework

该论文提出了一种通过多轮文本与视觉扰动进行反事实推理的自批判推理（SCI）框架，以解决大视觉语言模型的语言偏见与敏感性鲁棒性问题，并配套构建了动态鲁棒性基准（DRBench）进行针对性评估。

Kaihua Tang, Jiaxin Qi, Jinli Ou, Yuhua Zheng, Jianqiang Huang2026-03-10💻 cs

Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

本文提出了 Holi-Spatial，这是首个完全自动化构建的大规模空间感知多模态数据集，它利用原始视频流生成包含 3D 高斯泼溅重建、物体级语义标注及空间问答对的高质量数据，显著提升了现有基准的规模与质量，并有效增强了视觉语言模型在空间推理任务上的表现。

Yuanyuan Gao, Hao Li, Yifei Liu, Xinhao Ji, Yuning Gong, Yuanjun Liao, Fangfu Liu, Manyuan Zhang, Yuchen Yang, Dan Xu, Xue Yang, Huaxi Huang, Hongjie Zhang, Ziwei Liu, Xiao Sun, Dingwen Zhang, Zhihang Zhong2026-03-10💻 cs

Ref-DGS: Reflective Dual Gaussian Splatting

本文提出了 Ref-DGS 框架，通过解耦表面重建与镜面反射，利用几何高斯、局部反射高斯及全局环境反射场，在不依赖显式光线追踪的情况下高效实现了包含近场强镜面反射场景的高质量重建与新视图合成。

Ningjing Fan, Yiqun Wang, Dongming Yan, Peter Wonka2026-03-10💻 cs

FusionRegister: Every Infrared and Visible Image Fusion Deserves Registration

本文提出了名为 FusionRegister 的通用跨模态配准方法，该方法利用视觉先验引导配准过程，通过直接学习并处理融合结果中的错位表征而非强制全局对齐，在无需繁琐预配准操作的情况下，显著提升了红外与可见光图像融合的效率、鲁棒性及细节对齐能力。

Congcong Bian, Haolong Ma, Hui Li, Zhongwei Shen, Xiaoqing Luo, Xiaoning Song, Xiao-Jun Wu2026-03-10💻 cs

UniUncer: Unified Dynamic Static Uncertainty for End to End Driving

UniUncer 提出了一种轻量级统一框架，通过联合估计静态地图与动态智能体的不确定性，并将其融入端到端驾驶规划器的查询与门控机制中，在几乎不增加计算开销的情况下显著提升了自动驾驶轨迹预测的精度与规划可靠性。

Yu Gao, Jijun Wang, Zongzheng Zhang, Anqing Jiang, Yiru Wang, Yuwen Heng, Shuo Wang, Hao Sun, Zhangfeng Hu, Hao Zhao2026-03-10💻 cs

FrameVGGT: Frame Evidence Rolling Memory for streaming VGGT

针对流式视觉几何 Transformer 在长序列中显存无限增长的问题，本文提出了 FrameVGGT，这是一种基于帧证据滚动记忆的框架，通过将每帧的增量 KV 贡献聚合为紧凑原型并维护固定容量的帧块库，在严格内存限制下实现了更稳定的长序列 3D 重建与几何感知。

Zhisong Xu, Takeshi Oishi2026-03-10💻 cs

RoboPCA: Pose-centered Affordance Learning from Human Demonstrations for Robot Manipulation

本文提出了 RoboPCA 框架，通过自动从人类演示中构建姿态中心 affordance 标注的数据管道（Human2Afford），实现了对接触区域与姿态的联合预测，从而显著提升了机器人基于指令进行物体操作的能力与泛化性。

Zhanqi Xiao, Ruiping Wang, Xilin Chen2026-03-10💻 cs