cs.CV 篇论文 | Gist.Science

Point-based Instance Completion with Scene Constraints

本文提出了一种结合场景约束的点云实例补全模型，通过引入稀疏场景约束点云和交叉注意力机制，解决了现有方法在处理非规范姿态物体及忽略场景约束方面的局限，并构建了新的 ScanWCF 数据集以验证其在室内场景中实现高保真、无碰撞且合理的物体补全能力。

Wesley Khademi, Li Fuxin2026-03-10💻 cs

LEL: Lipschitz Continuity Constrained Ensemble Learning for Efficient EEG-Based Intra-subject Emotion Recognition

本文提出了一种名为 LEL 的 Lipschitz 连续性约束集成学习框架，通过在该框架的 Transformer 注意力机制等模块中施加 Lipschitz 约束并结合可学习的集成融合策略，有效解决了现有脑电情感识别方法在稳定性、高维非线性信号处理及抗噪性方面的不足，并在多个公开数据集上实现了优越的识别精度。

Shengyu Gong, Yueyang Li, Zijian Kang, Bo Chai, Weiming Zeng, Hongjie Yan, Zhiguo Zhang, Wai Ting Siok, Nizhuan Wang2026-03-10💻 cs

Task-Oriented Semantic Compression for Localization at the Network Edge

本文提出了一种受哺乳动物空间认知启发的任务导向通信框架，通过引入正交约束变分信息瓶颈（O-VIB）编码器，在严格带宽限制下实现多视角特征的高效压缩与边缘协同定位，从而在资源受限的移动平台上达成高精度城市视觉定位。

Zhengru Fang, Senkang Hu, Yu Guo, Yiqin Deng, Yuguang Fang2026-03-10💻 cs

DeepSparse: A Foundation Model for Sparse-View CBCT Reconstruction

本文提出了首个用于稀疏视图 CBCT 重建的基础模型 DeepSparse，通过引入融合多视角 2D 与多尺度 3D 特征的 DiCE 网络架构，以及结合混合视角采样预训练和两阶段微调的 HyViP 框架，有效解决了现有方法计算需求高和泛化能力差的问题，显著提升了重建质量并降低了辐射风险。

Yiqun Lin, Jixiang Chen, Hualiang Wang, Jiewen Yang, Jiarong Guo, Yi Zhang, Xiaomeng Li2026-03-10💻 cs

M3CAD: Towards Generic Cooperative Autonomous Driving Benchmark

本文提出了名为 M³CAD 的综合性基准数据集，旨在推动通用协同自动驾驶研究，该数据集包含多模态多车数据以支持多种任务，并引入了适应网络条件的多级融合方法以平衡通信效率与感知精度。

Morui Zhu, Yongqi Zhu, Yihao Zhu, Qi Chen, Deyuan Qu, Song Fu, Qing Yang2026-03-10💻 cs

FoldNet: Learning Generalizable Closed-Loop Policy for Garment Folding via Keypoint-Driven Asset and Demonstration Synthesis

本文提出了 FoldNet 框架，通过基于关键点的资产与演示合成构建大规模合成数据集，并引入 KG-DAgger 算法增强故障恢复能力，从而在无需大量真实数据的情况下实现了高泛化性的机器人衣物折叠闭环策略。

Yuxing Chen, Bowen Xiao, He Wang2026-03-10💻 cs

MTVCraft: Tokenizing 4D Motion for Arbitrary Character Animation

MTVCraft 是首个直接利用原始 3D 运动序列（4D 运动）进行角色图像动画生成的框架，通过 4D 运动分词器（4DMoT）和运动感知视频 DiT（MV-DiT）将运动量化为紧凑的 4D 令牌，从而在实现任意角色及物体零样本泛化动画的同时，显著提升了姿态引导视频生成的性能与灵活性。

Yanbo Ding, Xirui Hu, Zhizhi Guo, Yan Zhang, Xinrui Wang, Zhixiang He, Chi Zhang, Yali Wang, Xuelong Li2026-03-10💻 cs

Deep Unrolled Meta-Learning for Multi-Coil and Multi-Modality MRI with Adaptive Optimization

该论文提出了一种统一的深度元学习框架，通过将具有收敛性保证的自适应优化算法展开为结构化神经网络，实现了多线圈与多模态 MRI 数据的联合重建与合成，显著提升了模型在欠采样和跨域场景下的泛化性能与重建质量。

Merham Fouladvand, Peuroly Batra2026-03-10🔢 math

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

该论文介绍了利用 Apple Vision Pro 采集的 EgoDex 数据集，这是目前规模最大且最多样化的灵巧操作数据集，包含 829 小时带有同步 3D 手部追踪数据的沉浸式视频，旨在通过填补大规模数据空白来推动机器人模仿学习与基础模型的发展。

Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian Zhang2026-03-10🤖 cs.LG

Vid2World: Crafting Video Diffusion Models to Interactive World Models

本文提出了 Vid2World 框架，通过系统性地重塑预训练视频扩散模型的架构与训练目标并引入因果动作引导机制，成功将其转化为能够生成高保真、可交互且具备动作可控性的通用世界模型，从而在机器人操作、3D 游戏模拟及开放世界导航等多个领域实现了高效应用。

Siqiao Huang, Jialong Wu, Qixing Zhou, Shangchen Miao, Mingsheng Long2026-03-10🤖 cs.LG

Generative Prior-Guided Neural Interface Reconstruction for 3D Electrical Impedance Tomography

该论文提出了一种将预训练三维生成先验与严格边界积分方程求解器耦合的“求解器内循环”框架，通过硬约束物理方程与数据驱动潜空间正则化，实现了高对比度三维电阻抗层析成像中复杂界面的高精度、高效率重建。

Haibo Liu, Junqing Chen, Guang Lin2026-03-10🔢 math

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

本文提出了名为 ViTaPEs 的基于 Transformer 的架构，通过引入包含模态内局部编码与跨模态全局编码的两阶段位置注入机制，实现了任务无关的视触觉表征学习，在多项真实世界数据集的识别任务及机器人抓取场景中均展现出超越现有最先进方法的性能与零样本泛化能力。

Fotios Lygerakis, Ozan Özdenizci, Elmar Rückert2026-03-10🤖 cs.LG

From Semantic To Instance: A Semi-Self-Supervised Learning Approach

该论文提出了一种名为 GLMask 的半自监督学习方法，通过最小化人工标注并专注于形状与纹理特征，成功将语义分割转化为实例分割，在小麦穗实例分割任务中达到了 98.5% 的 mAP@50 的 SOTA 性能，并在 COCO 数据集上实现了超过 12.6% 的显著提升。

Keyhan Najafian, Farhad Maleki, Lingling Jin, Ian Stavness2026-03-10🤖 cs.LG

Transforming H&E images into IHC: A Variance-Penalized GAN for Precision Oncology

本研究提出了一种引入方差惩罚机制的改进型金字塔 pix2pix 生成对抗网络，通过从常规 H&E 染色图像生成高保真 IHC 图像，有效解决了 HER2 阳性乳腺癌诊断中的模式崩溃问题，为精准肿瘤学提供了一种低成本、可扩展的 AI 驱动诊断新方案。

Sara Rehmat, Hafeez Ur Rehman, Byeong-Gwon Kang, Sarra Ayouni, Yunyoung Nam2026-03-10💻 cs

Light of Normals: Unified Feature Representation for Universal Photometric Stereo

该论文提出了名为 LINO UniPS 的通用光度立体方法，通过引入光注册令牌与交错注意力机制实现光照与法线的有效解耦，结合小波双分支架构与法线梯度感知损失以保留高频几何细节，并借助大规模合成数据集 PS-Verse 及课程训练策略，在多个基准测试中取得了新的最先进性能。

Houyuan Chen, Hong Li, Chongjie Ye + 11 more2026-03-10💻 cs

Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models

本文提出了一种由视觉语言模型（VLM）引导的级联框架，通过利用 VLM 特征作为提示来指导 Segment Anything Model 进行精准分割，并将分割结果作为软空间先验保留全图上下文以消除域差距，从而有效解决了开放词汇伪装物体分割中的视觉模糊与未见类别分类难题。

Kai Zhao, Wubang Yuan, Zheng Wang, Guanyi Li, Xiaoqiang Zhu, Deng-ping Fan, Dan Zeng2026-03-10💻 cs

LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling

该论文提出了一种名为 LD-RPS 的零样本统一图像恢复方法，通过利用预训练潜在扩散模型结合多模态理解先验与轻量级对齐模块，采用循环后验采样策略，有效解决了现有方法在泛化性和闭集约束方面的局限。

Huaqiu Li, Yong Wang, Tongwen Huang, Hailang Huang, Haoqian Wang, Xiangxiang Chu2026-03-10💻 cs

Adopting a human developmental visual diet yields robust, shape-based AI vision

该研究提出了一种受人类视觉发育启发的“发展性视觉饮食”（DVD）课程，通过模拟人类从婴儿期到成年的视觉成熟过程（如视力、对比度和色彩感知的发展），成功引导 AI 模型从依赖纹理特征转向依赖形状信息，从而显著提升了其在形状识别、抗干扰及对抗攻击方面的鲁棒性，实现了更类人且高效的视觉系统。

Zejin Lu, Sushrut Thorat, Radoslaw M Cichy, Tim C Kietzmann2026-03-10🤖 cs.LG

Query-Based Adaptive Aggregation for Multi-Dataset Joint Training Toward Universal Visual Place Recognition

该论文提出了一种名为查询自适应聚合（QAA）的新型特征聚合技术，通过利用学习到的查询作为参考码本，有效解决了多数据集联合训练中因数据差异导致的特征聚合容量受限问题，从而实现了在保持高性能的同时显著提升视觉地点识别模型在多样化数据集上的泛化能力。

Jiuhong Xiao, Yang Zhou, Giuseppe Loianno2026-03-10💻 cs

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

本文提出了一种名为 MCULoRA 的鲁棒不完整多模态低秩适应框架，通过模态组合感知低秩适应（MCLA）模块解耦共享信息与模态特性，并利用动态参数微调（DPFT）模块基于表征空间可分性优化训练比例，从而有效解决了多模态情感识别中因模态缺失导致的梯度冲突问题并显著提升了预测性能。

Xinkui Zhao, Jinsong Shu, Yangyang Wu, Guanjie Cheng, Zihe Liu, Naibo Wang, Shuiguang Deng, Zhongle Xie, Jianwei Yin2026-03-10💻 cs