Models as Lego Builders: Assembling Malice from Benign Blocks via Semantic Blueprints

该论文揭示了大型视觉语言模型(LVLMs)存在一种通过语义槽填充将看似无害的视觉块组装成恶意内容的新型漏洞,并据此提出了一种名为 StructAttack 的黑盒单查询越狱框架,该框架通过将有害查询分解为良性槽位并嵌入结构化视觉提示,成功诱导模型绕过安全机制生成有害输出。

Chenxi Li, Xianggan Liu, Dake Shen, Yaosong Du, Zhibo Yao, Hao Jiang, Linyi Jiang, Chengwei Cao, Jingzhe Zhang, RanYi Peng, Peiling Bai, Xiande Huang2026-03-10🤖 cs.LG

Fast Attention-Based Simplification of LiDAR Point Clouds for Object Detection and Classification

本文提出了一种结合特征嵌入与注意力机制的端到端学习式 LiDAR 点云简化方法,旨在解决现有采样方法在速度与精度间的权衡难题,在 KITTI 等数据集上实现了比最远点采样(FPS)更快的速度以及比随机采样(RS)更稳定的高保真度。

Z. Rozsa, Á. Madaras, Q. Wei, X. Lu, M. Golarits, H. Yuan, T. Sziranyi, R. Hamzaoui2026-03-10💻 cs

Duala: Dual-Level Alignment of Subjects and Stimuli for Cross-Subject fMRI Decoding

该论文提出了名为 Duala 的双级对齐框架,通过刺激级的语义对齐与关系一致性策略以及主体级的分布特征扰动机制,有效解决了跨被试 fMRI 视觉解码中语义一致性与脑响应对齐的难题,在仅使用少量数据微调的情况下显著提升了图像检索与重建性能。

Shumeng Li, Jintao Guo, Jian Zhang, Yulin Zhou, Luyang Cao, Yinghuan Shi2026-03-10💻 cs

Evaluating Synthetic Data for Baggage Trolley Detection in Airport Logistics

该论文提出了一种基于 NVIDIA Omniverse 构建的阿尔及尔国际机场高保真数字孪生体的合成数据生成管道,用于解决行李推车检测中的隐私与数据多样性难题,实验表明结合少量真实标注数据的混合训练策略在显著降低标注成本的同时,其检测精度(mAP@50 达 0.94)可媲美甚至超越全量真实数据基线。

Abdeldjalil Taibi, Mohmoud Badlis, Amina Bensalem, Belkacem Zouilekh, Mohammed Brahimi2026-03-10🤖 cs.LG

AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots

本文提出了名为 AtomicVLA 的统一规划与执行框架,通过技能引导的混合专家模型(SG-MoE)和灵活路由编码器构建可扩展的原子技能库,有效解决了现有视觉 - 语言 - 动作(VLA)模型在长程任务规划、多步问题解决及持续技能学习方面的局限性,并在仿真与真实世界实验中显著超越了现有基线模型。

Likui Zhang, Tao Tang, Zhihao Zhan, Xiuwei Chen, Zisheng Chen, Jianhua Han, Jiangtong Zhu, Pei Xu, Hang Xu, Hefeng Wu, Liang Lin, Xiaodan Liang2026-03-10💻 cs

GLASS: Graph and Vision-Language Assisted Semantic Shape Correspondence

本文提出了 GLASS 框架,通过融合几何谱分析与视觉 - 语言基础模型的语义先验(包括视图一致特征提取、零样本 3D 分割注入语言嵌入及图辅助对比损失),在无监督条件下实现了跨类别及非等距形变场景下 3D 形状稠密语义对应的最先进性能。

Qinfeng Xiao, Guofeng Mei, Qilong Liu, Chenyuan Yi, Fabio Poiesi, Jian Zhang, Bo Yang, Yick Kit-lun2026-03-10💻 cs

Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

本文提出了 Holi-Spatial,这是首个完全自动化构建的大规模空间感知多模态数据集,它利用原始视频流生成包含 3D 高斯泼溅重建、物体级语义标注及空间问答对的高质量数据,显著提升了现有基准的规模与质量,并有效增强了视觉语言模型在空间推理任务上的表现。

Yuanyuan Gao, Hao Li, Yifei Liu, Xinhao Ji, Yuning Gong, Yuanjun Liao, Fangfu Liu, Manyuan Zhang, Yuchen Yang, Dan Xu, Xue Yang, Huaxi Huang, Hongjie Zhang, Ziwei Liu, Xiao Sun, Dingwen Zhang, Zhihang Zhong2026-03-10💻 cs

FusionRegister: Every Infrared and Visible Image Fusion Deserves Registration

本文提出了名为 FusionRegister 的通用跨模态配准方法,该方法利用视觉先验引导配准过程,通过直接学习并处理融合结果中的错位表征而非强制全局对齐,在无需繁琐预配准操作的情况下,显著提升了红外与可见光图像融合的效率、鲁棒性及细节对齐能力。

Congcong Bian, Haolong Ma, Hui Li, Zhongwei Shen, Xiaoqing Luo, Xiaoning Song, Xiao-Jun Wu2026-03-10💻 cs