cs.CV 篇论文 | Gist.Science

ARSGaussian: 3D Gaussian Splatting with LiDAR for Aerial Remote Sensing Novel View Synthesis

该论文提出了 ARSGaussian 方法，通过引入 LiDAR 点云约束、畸变校正坐标变换及几何一致性损失，有效解决了航空遥感场景下 3D 高斯泼溅技术面临的浮点与过度生长问题，并发布了配套的 AIR-LONGYAN 数据集以推动高精度新视角合成研究。

Yiling Yao, Bing Zhang, Wenjuan Zhang, Lianru Gao, Dailiang Peng, Bocheng Li, Yaning Wang, Bowen Wang2026-03-11💻 cs

CuriousBot: Interactive Mobile Exploration via Actionable 3D Relational Object Graph

该论文提出了一种基于可操作 3D 关系对象图的移动机器人探索系统，通过编码多样化的物体关系并实现主动交互，有效克服了现有方法在大规模移动探索空间中的局限性，并在泛化性和性能上超越了仅依赖视觉语言模型的方法。

Yixuan Wang, Leonor Fermoselle, Tarik Kelestemur, Jiuguang Wang, Yunzhu Li2026-03-11🤖 cs.LG

Unveiling the Potential of iMarkers: Invisible Fiducial Markers for Advanced Robotics

该论文提出了一种名为 iMarkers 的创新型隐形基准标记，旨在解决传统可见标记破坏环境美观的问题，通过专为机器人和 AR 设备设计的硬件与开源算法，实现了在保持视觉隐蔽性的同时具备高灵活性、鲁棒性及广泛适用性的导航与识别功能。

Ali Tourani, Deniz Isinsu Avsar, Hriday Bavle, Jose Luis Sanchez-Lopez, Jan Lagerwall, Holger Voos2026-03-11💻 cs

LAYOUTDREAMER: Physics-guided Layout for Text-to-3D Compositional Scene Generation

本文提出了 LayoutDreamer 框架，该框架利用 3D 高斯泼溅技术，通过文本引导的有向场景图、自适应布局调整及物理能量约束，实现了高质量且符合物理规律的文本到 3D 组合场景生成，并在 T3Bench 多物体生成指标上取得了最先进水平。

Yang Zhou, Zongjin He, Qixuan Li + 1 more2026-03-11🤖 cs.AI

A Survey on Wi-Fi Sensing Generalizability: Taxonomy, Techniques, Datasets, and Future Research Prospects

这篇综述论文系统回顾了 200 多篇关于 Wi-Fi 感知泛化性的文献，构建了涵盖从实验设置到模型部署的完整分类体系，深入分析了域适应、元学习等关键技术，总结了相关数据集，并提出了未来研究方向及数据集共享平台，旨在为提升 Wi-Fi 感知系统的泛化能力提供全面指南。

Fei Wang, Tingting Zhang, Wei Xi, Han Ding, Ge Wang, Di Zhang, Yuanhao Cui, Fan Liu, Jinsong Han, Jie Xu, Tony Xiao Han2026-03-11💻 cs

Recognition-Synergistic Scene Text Editing

本文提出了识别协同场景文本编辑（RS-STE）方法，通过构建统一框架将文本识别与编辑深度融合，利用多模态并行解码器和无监督循环自监督微调策略，在简化架构的同时实现了优于现有方法的场景文本编辑效果，并提升了下游识别任务性能。

Zhengyao Fang, Pengyuan Lyu, Jingjing Wu, Chengquan Zhang, Jun Yu, Guangming Lu, Wenjie Pei2026-03-11💻 cs

Semi-Supervised Biomedical Image Segmentation via Diffusion Models and Teacher-Student Co-Training

本文提出了一种基于去噪扩散概率模型（DDPM）与师生协同训练框架的半监督生物医学图像分割新方法，通过无监督预训练生成语义掩码并结合多轮伪标签迭代策略，在标注数据有限的情况下显著提升了分割性能并超越了现有最先进技术。

Luca Ciampi, Gabriele Lagani, Giuseppe Amato, Fabrizio Falchi2026-03-11💻 cs

Zooming In on Fakes: A Novel Dataset for Localized AI-Generated Image Detection with Forgery Amplification Approach

该论文针对现有局部 AI 生成图像检测数据集缺乏场景级编辑覆盖的局限，提出了包含 15 万张图像的大规模场景感知数据集 BR-Gen，并设计了基于噪声指纹引导的特征放大机制 NFA-ViT，通过增强异常特征与正常特征的交互显著提升了局部伪造检测的鲁棒性与泛化能力。

Lvpan Cai, Haowei Wang, Jiayi Ji, Yanshu Zhoumen, Shen Chen, Taiping Yao, Xiaoshuai Sun2026-03-11💻 cs

M4-SAR: A Multi-Resolution, Multi-Polarization, Multi-Scene, Multi-Source Dataset and Benchmark for optical-SAR Object Detection

该论文针对现有单源遥感目标检测在复杂环境下的局限性，提出了包含近百万标注实例的多分辨率、多极化、多场景、多源光学-SAR 融合数据集 M4-SAR，并配套开发了统一评测工具包及新型端到端融合检测框架 E2E-OSDet，显著提升了复杂场景下的检测精度。

Chao Wang, Wei Lu, Xiang Li, Jian Yang, Lei Luo2026-03-11💻 cs

MARRS: Masked Autoregressive Unit-based Reaction Synthesis

本文提出了 MARRS 框架，通过结合独立编码身体与手部单元的 UD-VAE、基于随机掩码的 Action-Conditioned Fusion 以及促进单元间交互的 Adaptive Unit Modulation，利用连续表示和扩散模型实现了高质量的细粒度人类动作反应合成。

Yabiao Wang, Shuo Wang, Jiangning Zhang, Jiafu Wu, Qingdong He, Yong Liu2026-03-11💻 cs

Embodied AI with Foundation Models for Mobile Service Robots: A Systematic Review

本文作为首篇针对移动服务机器人的系统性综述，深入探讨了基础模型如何通过语言控制、多模态融合及不确定性推理等机制解决核心挑战，并分析了其在家庭、医疗等场景的应用、伦理影响及未来研究方向。

Matthew Lisondra, Beno Benhabib, Goldie Nejat2026-03-11💬 cs.CL

EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering

本文提出了基于扩散变换器（DiT）的 EasyText 框架，通过字符定位编码与位置编码插值技术，结合大规模多语言合成数据集，实现了高质量、可控且布局感知的多语言文本渲染。

Runnan Lu, Yuxuan Zhang, Jiaming Liu, Haofan Wang, Yiren Song2026-03-11💻 cs

SpikeSMOKE: Spiking Neural Networks for Monocular 3D Object Detection with Cross-Scale Gated Coding

本文提出了名为 SpikeSMOKE 的架构，通过引入受生物突触过滤机制启发的跨尺度门控编码（CSGC）和轻量级残差块，成功将低功耗的脉冲神经网络应用于单目 3D 目标检测，在 KITTI 等数据集上显著提升了检测精度并大幅降低了能耗与计算量。

Xuemei Chen, Huamin Wang, Jing Peng, Hangchi Shen, Shukai Duan, Shiping Wen, Tingwen Huang2026-03-11💻 cs

Improving Large Vision-Language Models' Understanding for Flow Field Data

本文提出了名为 FieldLVLM 的新框架，通过结合物理特征提取的领域感知语言生成策略与数据压缩的多模态模型微调，显著提升了大型视觉语言模型对流场等科学领域数据的理解能力。

Xiaomei Zhang, Hanyu Zheng, Xiangyu Zhu, Jinghuan Wei, Junhong Zou, Zhen Lei, Zhaoxiang Zhang2026-03-11💻 cs

MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection

本文提出了一种名为 MGCR-Net 的多模态图条件视觉 - 语言重建网络，通过利用多模态大语言模型生成文本数据并结合图注意力机制构建语义图条件重建模块，实现了遥感变化检测任务中视觉与文本特征的细粒度对齐与深层语义交互，从而在多个公开数据集上取得了优于主流方法的性能。

Chengming Wang, Guodong Fan, Jinjiang Li + 2 more2026-03-11⚡ eess

Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method

该论文提出了一种名为 SFDA-PFT 的轻量级无源域自适应方法，通过在潜在空间中利用预训练的特征翻译器将源域风格映射到仅含中性表情的目标域数据，从而在无需源数据或图像合成的隐私敏感场景下实现了高效的面部表情识别。

Masoumeh Sharafi, Soufiane Belharbi, Muhammad Osama Zeeshan, Houssem Ben Salem, Ali Etemad, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric Granger2026-03-11🤖 cs.AI

EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering

本文提出了 EgoCross 基准，旨在通过涵盖手术、工业、极限运动和动物视角等四个高影响力跨域场景的评测，揭示现有多模态大语言模型在 egocentric 视频问答任务中面对域偏移时的泛化局限性，并为构建更鲁棒的领域自适应视频理解系统奠定基础。

Yanjun Li, Yuqian Fu, Tianwen Qian, Qi'ao Xu, Silong Dai, Danda Pani Paudel, Luc Van Gool, Xiaoling Wang2026-03-11🤖 cs.AI

You Only Pose Once: A Minimalist's Detection Transformer for Monocular RGB Category-level 9D Multi-Object Pose Estimation

本文提出了YOPO，一种单阶段、基于查询的极简检测Transformer框架，仅需单目RGB图像和类别级标签即可实现端到端的9自由度多物体姿态估计，并在多个基准测试中刷新了仅用RGB数据的性能纪录。

Hakjin Lee, Junghoon Seo, Jaehoon Sim2026-03-11💻 cs

CoRe-GS: Coarse-to-Refined Gaussian Splatting with Semantic Object Focus

CoRe-GS 提出了一种面向任务驱动的粗到精高斯溅射框架，通过仅对感兴趣区域进行选择性优化并引入颜色过滤机制去除异常点，在显著降低计算成本的同时提升了特定场景点的重建质量与分割效率，从而满足机器人实时操作需求。

Hannah Schieber, Dominik Frischmann, Victor Schaack, Simon Boche, Angela Schoellig, Stefan Leutenegger, Daniel Roth2026-03-11💻 cs

VocSegMRI: Multimodal Learning for Precise Vocal Tract Segmentation in Real-time MRI

本文提出了 VocSegMRI 框架，通过融合视频、音频和音位信息并利用交叉注意力机制与对比学习，显著提升了实时磁共振成像（rtMRI）中声道分割的精度与鲁棒性，在 USC-75 数据集上取得了优于现有方法的性能。

Daiqi Liu, Tomás Arias-Vergara, Johannes Enk, Fangxu Xing, Maureen Stone, Jerry L. Prince, Jana Hutter, Andreas Maier, Jonghye Woo, Paula Andrea Pérez-Toro2026-03-11💻 cs