cs.CV 篇论文 | Gist.Science

TrianguLang: Geometry-Aware Semantic Consensus for Pose-Free 3D Localization

TrianguLang 提出了一种无需相机标定的前馈 3D 定位框架，通过引入利用预测几何信息来抑制几何不一致匹配的“几何感知语义注意力（GASA）”机制，在 ScanNet++ 等五个基准测试中实现了最先进的文本引导分割与定位性能，同时显著降低了用户交互成本并支持实时推理。

Bryce Grant, Aryeh Rothenberg, Atri Banerjee, Peng Wang2026-03-10💻 cs

Adaptive MLP Pruning for Large Vision Transformers

本文提出了一种自适应 MLP 剪枝（AMP）方法，通过引入无标签信息熵准则评估神经元重要性并结合二分搜索算法自适应调整剪枝比例，在无需微调的情况下将大型视觉 Transformer（如 CLIP 和 DINOv2）的参数和计算量减少约 40% 且几乎不损失性能。

Chengchao Shen2026-03-10💻 cs

SAMoE-VLA: A Scene Adaptive Mixture-of-Experts Vision-Language-Action Model for Autonomous Driving

本文提出了 SAMoE-VLA，一种通过利用鸟瞰图特征而非 Token 嵌入来动态选择专家、并引入条件跨模态因果注意力机制以增强时空一致性的场景自适应视觉 - 语言 - 动作模型，从而在自动驾驶任务中实现了优于现有方法且参数更少的最先进性能。

Zihan You, Hongwei Liu, Chenxu Dang, Zhe Wang, Sining Ang, Aoqi Wang, Yan Wang2026-03-10💻 cs

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

本文提出了 FoleyFlow，一种通过掩码建模训练实现音视频语义与节奏对齐，并利用动态条件流框架基于视频特征生成协调音频的新方法，其在基准测试中显著超越了现有成果。

Shentong Mo, Yibing Song2026-03-10🤖 cs.LG

UniGround: Universal 3D Visual Grounding via Training-Free Scene Parsing

本文提出了无需训练的 UniGround 方法，通过两阶段的拓扑与语义推理机制，在 ScanRefer 和 EmbodiedScan 等基准测试中实现了无需 3D 监督的零样本开放世界 3D 视觉定位，并展现出对未见场景和分布外数据的强泛化能力。

Jiaxi Zhang, Yunheng Wang, Wei Lu, Taowen Wang, Weisheng Xu, Shuning Zhang, Yixiao Feng, Yuetong Fang, Renjing Xu2026-03-10💻 cs

Fast Low-light Enhancement and Deblurring for 3D Dark Scenes

本文提出了 FLED-GS 框架，通过交替进行去模糊与噪声感知 3D 高斯泼溅重建，并引入中间亮度锚点防止噪声放大，实现了在低光照、含噪且运动模糊的 3D 场景中比现有方法快 21 倍训练和 11 倍渲染的高效恢复。

Feng Zhang, Jinglong Wang, Ze Li, Yanghong Zhou, Yang Chen, Lei Chen, Xiatian Zhu2026-03-10💻 cs

VesselFusion: Diffusion Models for Vessel Centerline Extraction from 3D CT Images

本文提出了一种名为 VesselFusion 的扩散模型，通过结合由粗到细的表示和基于投票的聚合策略，从 3D CT 图像中提取出比传统方法更准确且自然的血管中心线。

Soichi Mita, Shumpei Takezaki, Ryoma Bise2026-03-10💻 cs

MV-Fashion: Towards Enabling Virtual Try-On and Size Estimation with Multi-View Paired Data

本文介绍了 MV-Fashion 数据集，这是一个包含 3273 个序列、7250 万帧的大规模多视角视频数据集，通过提供真实服装动态、像素级语义标注、3D 点云以及“穿着状态与平铺图像”的配对数据，旨在解决现有数据在虚拟试衣和尺码估计等时尚特定任务中的局限性并建立基准。

Hunor Laczkó, Libang Jia, Loc-Phat Truong, Diego Hernández, Sergio Escalera, Jordi Gonzalez, Meysam Madadi2026-03-10💻 cs

Edged USLAM: Edge-Aware Event-Based SLAM with Learning-Based Depth Priors

本文提出了 Edged USLAM，一种结合边缘感知前端与轻量级深度先验的混合视觉惯性系统，旨在通过利用事件相机的高动态范围和时序优势，解决传统 SLAM 在快速运动、低光照及光照突变场景下的失效问题，从而在复杂航拍任务中实现比纯事件或纯学习方法更稳健的定位与建图。

Sebnem Sarıözkan, Hürkan Sahin, Olaya Álvarez-Tuñón, Erdal Kayacan2026-03-10💻 cs

MERLIN: Building Low-SNR Robust Multimodal LLMs for Electromagnetic Signals

该论文针对电磁领域多模态大语言模型面临的数据稀缺、基准缺失及低信噪比鲁棒性不足三大挑战，提出了包含 EM-100k 数据集、EM-Bench 评测基准以及旨在提升低信噪比环境下性能的 MERLIN 训练框架的完整解决方案，并在实验中验证了其卓越性能。

Junyu Shen, Zhendong She, Chenghanyu Zhang, Yuchuang Sun, Luqing Luo, Dingwei Tan, Zonghao Guo, Bo Guo, Zehua Han, Wupeng Xie, Yaxin Mu, Peng Zhang, Peipei Li, Fengxiang Wang, Yangang Sun, Maosong Sun2026-03-10💻 cs

ALOOD: Exploiting Language Representations for LiDAR-based Out-of-Distribution Object Detection

该论文提出了 ALOOD 方法，通过将 LiDAR 物体特征与视觉 - 语言模型（VLM）的语言表示进行对齐，将未知类别（OOD）物体的检测转化为零样本分类任务，从而有效解决了自动驾驶中 LiDAR 检测器对未知物体过度自信的安全风险。

Michael Kösel, Marcel Schreiber, Michael Ulrich, Claudius Gläser, Klaus Dietmayer2026-03-10🤖 cs.LG

Fusion-Poly: A Polyhedral Framework Based on Spatial-Temporal Fusion for 3D Multi-Object Tracking

本文提出了 Fusion-Poly，一种基于时空融合的多模态 3D 多目标跟踪框架，通过有效利用异步 LiDAR 与相机观测数据并引入频率感知匹配与轨迹估计模块，在 nuScenes 数据集上实现了 76.5% AMOTA 的当前最优性能。

Xian Wu, Yitao Wu, Xiaoyu Li, Zijia Li, Lijun Zhao, Lining Sun2026-03-10💻 cs

MM-TS: Multi-Modal Temperature and Margin Schedules for Contrastive Learning with Long-Tail Data

该论文提出了多模态温度与间隔调度（MM-TS）方法，通过根据长尾数据分布动态调整对比学习中的温度参数，并将温度调度与最大间隔框架相结合，在多个图像 - 语言和视频 - 语言数据集上实现了新的最先进性能。

Siarhei Sheludzko, Dhimitrios Duka, Bernt Schiele, Hilde Kuehne, Anna Kukleva2026-03-10💻 cs

Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors

该研究针对异构热成像与可见光传感器在无人机检测中的融合难题，提出了注册感知引导图像融合（RGIF）与可靠性门控模态注意力融合（RGMAF）两种策略，通过在 MMFW-UAV 数据集上的实验验证，显著提升了多模态环境下的检测精度与召回率。

Ishrat Jahan, Molla E Majid, M Murugappan, Muhammad E. H. Chowdhury, N. B. Prakash, Saad Bin Abul Kashem, Balamurugan Balusamy, Amith Khandakar2026-03-10💻 cs

cs.CV