cs.CV 篇论文 | Gist.Science

Foundation Models in Remote Sensing: Evolving from Unimodality to Multimodality

本文全面调研了遥感领域的基础模型，从单模态到多模态的演进视角系统梳理了现有工作，并通过教程式指导回答了基础模型的定义、必要性及实践方法，旨在帮助研究人员快速掌握并应用这些技术。

Danfeng Hong, Chenyu Li, Xuyang Li + 2 more2026-03-03💻 cs

MLRecon: Robust Markerless Freehand 3D Ultrasound Reconstruction via Coarse-to-Fine Pose Estimation

本文提出了 MLRecon 框架，利用视觉基础模型和粗到细的位姿优化策略，实现了仅凭单目 RGB-D 相机即可进行抗漂移、高精度的无标记自由手 3D 超声重建，显著提升了资源受限临床环境下的成像可及性。

Yi Zhang, Puxun Tu, Kun Wang + 3 more2026-03-03💻 cs

GeodesicNVS: Probability Density Geodesic Flow Matching for Novel View Synthesis

该论文提出了一种名为 GeodesicNVS 的新颖视图合成方法，通过结合数据到数据的流匹配框架与基于预训练扩散模型概率密度的测地线约束，实现了比传统扩散模型更具几何一致性和视图连贯性的生成效果。

Xuqin Wang, Tao Wu, Yanfeng Zhang + 5 more2026-03-03💻 cs

Implementation of Licensed Plate Detection and Noise Removal in Image Processing

本文介绍了车牌识别系统的技术背景及其在马来西亚交通管理、电子收费、执法监控及跨领域应用中的重要作用。

Yiquan Gao2026-03-03⚡ eess

RaUF: Learning the Spatial Uncertainty Field of Radar

本文提出了 RaUF 框架，通过建模毫米波雷达的物理各向异性特性来学习细粒度空间不确定性，并引入双向域注意力机制以抑制杂波和虚假回波，从而在恶劣天气下实现高可靠性且不确定性校准良好的空间感知。

Shengpeng Wang, Kuangyu Wang, Wei Wang2026-03-03💻 cs

Content-Aware Frequency Encoding for Implicit Neural Representations with Fourier-Chebyshev Features

本文提出了一种名为 CAFE 的内容感知频率编码方法，通过结合并行线性层与哈达玛积来显式合成更广泛的频率基，并进一步扩展为融合切比雪夫特征的 CAFE+，从而有效克服隐式神经表示中的频谱偏差问题，显著提升了高频率细节的捕捉能力与整体性能。

Junbo Ke, Yangyang Xu, You-Wei Wen + 1 more2026-03-03🤖 cs.AI

Vision-Language Feature Alignment for Road Anomaly Segmentation

本文提出了 VL-Anomaly 框架，通过引入预训练视觉 - 语言模型的语义先验及多源推理策略，有效解决了现有道路异常分割方法在背景区域误报率高及未知障碍物漏检的问题，从而显著提升了自动驾驶系统在复杂环境下的感知安全性。

Zhuolin He, Jiacheng Tang, Jian Pu + 1 more2026-03-03💻 cs

SMR-Net:Robot Snap Detection Based on Multi-Scale Features and Self-Attention Network

本文针对机器人自动化装配中复杂场景下的卡扣检测难题，提出了一种结合专用传感器与基于自注意力机制的多尺度特征融合网络（SMR-Net），通过注意力嵌入特征提取、多尺度并行处理及自适应重加权机制，显著提升了卡扣检测与定位的精度和鲁棒性。

Kuanxu Hou2026-03-03💻 cs

From Intuition to Investigation: A Tool-Augmented Reasoning MLLM Framework for Generalizable Face Anti-Spoofing

本文提出了工具增强的推理框架 TAR-FAS，通过构建包含多轮工具使用轨迹的 ToolFAS-16K 数据集并引入多样化的工具组相对策略优化（DT-GRPO）训练机制，使多模态大模型能够从直觉观察过渡到利用外部视觉工具进行细粒度调查，从而在跨域人脸活体检测任务中实现了最先进的性能与可解释性。

Haoyuan Zhang, Keyao Wang, Guosheng Zhang + 11 more2026-03-03🤖 cs.AI

MM-DeepResearch: A Simple and Effective Multimodal Agentic Search Baseline

该论文提出了 MM-DeepResearch，一种通过引入基于超图的多模态问答数据生成方法（Hyper-Search）、基于工具专家分解与树搜索的轨迹优化策略（DR-TTS）以及支持离线强化学习的多工具搜索引擎，来有效解决多模态深度研究智能体在数据稀缺、轨迹缺乏及训练成本高昂方面挑战的基线模型。

Huanjin Yao, Qixiang Yin, Min Yang + 5 more2026-03-03🤖 cs.AI

Unleashing VLA Potentials in Autonomous Driving via Explicit Learning from Failures

本文提出了 ELF-VLA 框架，通过引入显式失败诊断反馈来指导策略修正，有效解决了自动驾驶 VLA 模型在强化学习中因奖励稀疏导致的长尾场景性能瓶颈，并在 NAVSIM 基准测试中取得了最先进的整体表现。

Yuechen Luo, Qimao Chen, Fang Li + 5 more2026-03-03💻 cs

LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model

本文提出了 LLaDA-o，一种基于混合扩散框架的灵活长度自适应全模态扩散模型，它通过解耦文本理解与视觉生成并共享高效注意力骨干，在多模态理解与生成任务中实现了最先进的性能。

Zebin You, Xiaolu Zhang, Jun Zhou + 2 more2026-03-03🤖 cs.LG

SHIELD8-UAV: Sequential 8-bit Hardware Implementation of a Precision-Aware 1D-F-CNN for Low-Energy UAV Acoustic Detection and Temporal Tracking

本文提出了 SHIELD8-UAV，这是一种面向低功耗无人机声学检测的串行 8 位硬件加速器，它通过结合精度感知量化、结构化剪枝及共享多精度数据通路，在无需大规模并行架构的情况下实现了低延迟、低能耗的边缘实时推理。

Susmita Ghanta, Karan Nathwani, Rohit Chaurasiya2026-03-03⚡ eess

cs.CV

Foundation Models in Remote Sensing: Evolving from Unimodality to Multimodality

MLRecon: Robust Markerless Freehand 3D Ultrasound Reconstruction via Coarse-to-Fine Pose Estimation

GeodesicNVS: Probability Density Geodesic Flow Matching for Novel View Synthesis

Implementation of Licensed Plate Detection and Noise Removal in Image Processing

RaUF: Learning the Spatial Uncertainty Field of Radar

Content-Aware Frequency Encoding for Implicit Neural Representations with Fourier-Chebyshev Features

Vision-Language Feature Alignment for Road Anomaly Segmentation

SMR-Net:Robot Snap Detection Based on Multi-Scale Features and Self-Attention Network

From Intuition to Investigation: A Tool-Augmented Reasoning MLLM Framework for Generalizable Face Anti-Spoofing

MM-DeepResearch: A Simple and Effective Multimodal Agentic Search Baseline

Unleashing VLA Potentials in Autonomous Driving via Explicit Learning from Failures

LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model

SHIELD8-UAV: Sequential 8-bit Hardware Implementation of a Precision-Aware 1D-F-CNN for Low-Energy UAV Acoustic Detection and Temporal Tracking

Adaptive Augmentation-Aware Latent Learning for Robust LiDAR Semantic Segmentation

Beyond Global Similarity: Towards Fine-Grained, Multi-Condition Multimodal Retrieval

Can Vision Language Models Assess Graphic Design Aesthetics? A Benchmark, Evaluation, and Dataset Perspective

Unified Vision-Language Modeling via Concept Space Alignment

Differential privacy representation geometry for medical image analysis

Data-Efficient Brushstroke Generation with Diffusion Models for Oil Painting

Egocentric Co-Pilot: Web-Native Smart-Glasses Agents for Assistive Egocentric AI