cs.CV 篇论文 | Gist.Science

Data-Centric Benchmark for Label Noise Estimation and Ranking in Remote Sensing Image Segmentation

本文提出了一种面向遥感图像语义分割的数据中心基准，包含公开数据集及两种基于模型不确定性、预测一致性和表征分析的新型标签噪声估计与排序方法，旨在有效识别和量化标注噪声以提升模型性能。

Keiller Nogueira, Codrut-Andrei Diaconu, Dávid Kerekes + 9 more2026-03-03💻 cs

IdGlow: Dynamic Identity Modulation for Multi-Subject Generation

本文提出了 IdGlow，一种基于流匹配扩散模型的无掩码两阶段框架，通过任务自适应时间步调度、基于坏例的视觉语言模型提示合成以及细粒度组级直接偏好优化，有效解决了多主体生成中的稳定性 - 可塑性困境，在保持高保真身份特征的同时实现了自然和谐的场景融合与年龄变换。

Honghao Cai, Xiangyuan Wang, Yunhao Bai + 10 more2026-03-03🤖 cs.AI

Linking Modality Isolation in Heterogeneous Collaborative Perception

本文针对异构协同感知中因训练数据缺失共现样本而导致的模态隔离难题，提出了首个无需共现监督的高效对齐框架 CodeAlign，该方法通过跨模态特征 - 码本 - 特征（FCF）翻译机制实现模态对齐，在显著降低参数量与通信开销的同时，在 OPV2V 和 DAIR-V2X 数据集上取得了最先进的感知性能。

Changxing Liu, Zichen Chao, Siheng Chen2026-03-03💻 cs

Exploring Spatiotemporal Feature Propagation for Video-Level Compressive Spectral Reconstruction: Dataset, Model and Benchmark

本文针对现有光谱压缩成像方法在单帧重建不确定性及视频时序一致性方面的局限，构建了首个动态高光谱数据集 DynaSpec，提出了利用时空特征传播的 PG-SVRT 模型，并通过仿真与实物实验验证了其在重建质量、光谱保真度及时序一致性上的优越性能。

Lijing Cai, Zhan Shi, Chenglong Huang + 6 more2026-03-03💻 cs

Exploring 3D Dataset Pruning

本文针对 3D 数据长尾分布导致传统指标冲突的难题，提出了一种通过加权子集近似全量风险、结合类保留配额与先验不变教师监督的 3D 数据集剪枝方法，从而在多个场景下有效平衡并提升了总体准确率与平均准确率。

Xiaohan Zhao, Xinyi Shang, Jiacheng Liu + 1 more2026-03-03🤖 cs.LG

RC-GeoCP: Geometric Consensus for Radar-Camera Collaborative Perception

本文提出了首个雷达 - 相机协同感知框架 RC-GeoCP，通过建立以雷达为锚点的几何共识机制（包含几何结构校正、不确定性感知通信和共识驱动聚合），有效解决了多智能体间的深度歧义与空间失配问题，并在显著降低通信开销的同时实现了最先进的协同感知性能。

Xiaokai Bai, Lianqing Zheng, Runwei Guan + 2 more2026-03-03💻 cs

Stateful Cross-layer Vision Modulation

本文提出了一种名为 SCVM 的状态化跨层视觉调制框架，通过引入递归更新的跨层记忆状态和逐层反馈调制机制，在无需扩展视觉令牌、增加编码器或微调语言模型的前提下，有效解决了多模态大模型中浅层细节丢失及语义分布不匹配的问题，从而显著提升了视觉问答和幻觉评估等任务的性能。

Ying Liu, Yudong Han, Kean Shi + 1 more2026-03-03💻 cs

Act Like a Pathologist: Tissue-Aware Whole Slide Image Reasoning

本文提出了名为 HistoSelect 的框架，通过模拟病理学家“由粗到细”的检索策略，利用问题引导的组采样和补丁选择机制，在显著降低视觉 Token 用量的同时提升了全切片图像问答的准确性与可解释性。

Wentao Huang, Weimin Lyu, Peiliang Lou + 8 more2026-03-03💻 cs

Direct low-field MRI super-resolution using undersampled k-space

该研究提出了一种基于 k 空间双通道 U-Net 的新型框架，能够直接从欠采样的低场 MRI k 空间数据中重建出高质量图像，其效果优于传统的空间域方法，并实现了与全 k 空间采集相当的图像质量。

Daniel Tweneboah Anyimadu, Mohammed M. Abdelsamea, Ahmed Karam Eldaly2026-03-03💻 cs

Specializing Foundation Models via Mixture of Low-Rank Experts for Comprehensive Head CT Analysis

本文提出了一种混合低秩专家（MoLRE）框架，通过引入多个专用低秩适配器与无监督软路由机制，在仅增加不到 0.5% 参数且无需显式病理监督的情况下，显著提升了六种不同架构的医学影像基础模型在 7 万例头 CT 扫描多标签诊断任务中的综合检测性能。

Youngjin Yoo, Han Liu, Bogdan Georgescu + 14 more2026-03-03💻 cs

CoLC: Communication-Efficient Collaborative Perception with LiDAR Completion

本文提出了 CoLC 框架，通过前景感知点采样、补全增强早期融合及密度引导双重对齐策略，在显著降低通信成本的同时实现了高效的协同感知与场景完整性恢复。

Yushan Han, Hui Zhang, Qiming Xia + 2 more2026-03-03💻 cs

SCOUT: Fast Spectral CT Imaging in Ultra LOw-data Regimes via PseUdo-label GeneraTion

本文提出了一种名为 SCOUT 的自监督重建方法，通过利用空间非局部相似性和投影域共轭性质生成伪标签，在无需外部数据或预训练的情况下，实现了超低数据量下快速、高保真且能有效抑制伪影的 CT 成像。

Guoquan Wei, Liu Shi, Shaoyu Wang + 3 more2026-03-03💻 cs

STMI: Segmentation-Guided Token Modulation with Cross-Modal Hypergraph Interaction for Multi-Modal Object Re-Identification

本文提出了一种名为 STMI 的新型多模态行人重识别框架，通过结合利用 SAM 掩码的分割引导特征调制、基于可学习查询的语义令牌重分配以及跨模态超图交互机制，有效解决了现有方法中因硬令牌过滤或简单融合导致的判别性线索丢失及背景干扰问题，并在多个基准测试中展现了卓越的性能与鲁棒性。

Xingguo Xu, Zhanyu Liu, Weixiang Zhou + 5 more2026-03-03💻 cs

cs.CV

Data-Centric Benchmark for Label Noise Estimation and Ranking in Remote Sensing Image Segmentation

IdGlow: Dynamic Identity Modulation for Multi-Subject Generation

Linking Modality Isolation in Heterogeneous Collaborative Perception

Exploring Spatiotemporal Feature Propagation for Video-Level Compressive Spectral Reconstruction: Dataset, Model and Benchmark

Exploring 3D Dataset Pruning

RC-GeoCP: Geometric Consensus for Radar-Camera Collaborative Perception

Stateful Cross-layer Vision Modulation

Act Like a Pathologist: Tissue-Aware Whole Slide Image Reasoning

Direct low-field MRI super-resolution using undersampled k-space

Specializing Foundation Models via Mixture of Low-Rank Experts for Comprehensive Head CT Analysis

CoLC: Communication-Efficient Collaborative Perception with LiDAR Completion

SCOUT: Fast Spectral CT Imaging in Ultra LOw-data Regimes via PseUdo-label GeneraTion

STMI: Segmentation-Guided Token Modulation with Cross-Modal Hypergraph Interaction for Multi-Modal Object Re-Identification

TokenSplat: Token-aligned 3D Gaussian Splatting for Feed-forward Pose-free Reconstruction

Towards Universal Khmer Text Recognition

Towards Khmer Scene Document Layout Detection

IU: Imperceptible Universal Backdoor Attack

A Reconstruction System for Industrial Pipeline Inner Walls Using Panoramic Image Stitching with Endoscopic Imaging

Diversity over Uniformity: Rethinking Representation in Generated Image Detection

UniHM: Unified Dexterous Hand Manipulation with Vision Language Model