cs.CV 篇论文 | Gist.Science

Direct low-field MRI super-resolution using undersampled k-space

该研究提出了一种基于 k 空间双通道 U-Net 的新型框架，能够直接从欠采样的低场 MRI k 空间数据中重建出高质量图像，其效果优于传统的空间域方法，并实现了与全 k 空间采集相当的图像质量。

Daniel Tweneboah Anyimadu, Mohammed M. Abdelsamea, Ahmed Karam Eldaly2026-03-03💻 cs

Specializing Foundation Models via Mixture of Low-Rank Experts for Comprehensive Head CT Analysis

本文提出了一种混合低秩专家（MoLRE）框架，通过引入多个专用低秩适配器与无监督软路由机制，在仅增加不到 0.5% 参数且无需显式病理监督的情况下，显著提升了六种不同架构的医学影像基础模型在 7 万例头 CT 扫描多标签诊断任务中的综合检测性能。

Youngjin Yoo, Han Liu, Bogdan Georgescu + 14 more2026-03-03💻 cs

CoLC: Communication-Efficient Collaborative Perception with LiDAR Completion

本文提出了 CoLC 框架，通过前景感知点采样、补全增强早期融合及密度引导双重对齐策略，在显著降低通信成本的同时实现了高效的协同感知与场景完整性恢复。

Yushan Han, Hui Zhang, Qiming Xia + 2 more2026-03-03💻 cs

SCOUT: Fast Spectral CT Imaging in Ultra LOw-data Regimes via PseUdo-label GeneraTion

本文提出了一种名为 SCOUT 的自监督重建方法，通过利用空间非局部相似性和投影域共轭性质生成伪标签，在无需外部数据或预训练的情况下，实现了超低数据量下快速、高保真且能有效抑制伪影的 CT 成像。

Guoquan Wei, Liu Shi, Shaoyu Wang + 3 more2026-03-03💻 cs

STMI: Segmentation-Guided Token Modulation with Cross-Modal Hypergraph Interaction for Multi-Modal Object Re-Identification

本文提出了一种名为 STMI 的新型多模态行人重识别框架，通过结合利用 SAM 掩码的分割引导特征调制、基于可学习查询的语义令牌重分配以及跨模态超图交互机制，有效解决了现有方法中因硬令牌过滤或简单融合导致的判别性线索丢失及背景干扰问题，并在多个基准测试中展现了卓越的性能与鲁棒性。

Xingguo Xu, Zhanyu Liu, Weixiang Zhou + 5 more2026-03-03💻 cs

TokenSplat: Token-aligned 3D Gaussian Splatting for Feed-forward Pose-free Reconstruction

TokenSplat 提出了一种无需相机位姿的自监督前馈框架，通过引入令牌对齐的高斯预测模块和非对称双流解码器，实现了从多视图图像中联合进行高保真 3D 高斯重建与稳定相机位姿估计。

Yihui Li, Chengxin Lv, Zichen Tang + 2 more2026-03-03💻 cs

Towards Universal Khmer Text Recognition

该论文提出了一种能够处理多种文本模态的通用高棉语文本识别（UKTR）框架，其核心是新颖的模态感知自适应特征选择（MAFS）技术，旨在解决数据稀缺和跨模态迁移困难的问题，并首次发布了相关基准数据集与模型。

Marry Kong, Rina Buoy, Sovisal Chenda + 3 more2026-03-03💻 cs

Towards Khmer Scene Document Layout Detection

本文针对高棉语场景文档布局检测因数据稀缺和脚本结构复杂而面临的挑战，提出了首个综合研究，通过构建专用数据集、开发开源数据增强工具以及引入基于 YOLO 的定向边界框检测框架，填补了该领域的空白并开源了相关资源。

Marry Kong, Rina Buoy, Sovisal Chenda + 3 more2026-03-03💻 cs

IU: Imperceptible Universal Backdoor Attack

本文提出了一种名为 IU 的新型不可感知通用后门攻击方法，该方法利用图卷积网络建模类间关系并生成特定于类的扰动，在极低投毒率下实现了对 ImageNet-1K 上多目标类别的高成功率攻击，同时保持了视觉隐蔽性并成功规避了现有防御。

Hsin Lin, Yan-Lun Chen, Ren-Hung Hwang + 1 more2026-03-03🤖 cs.LG

A Reconstruction System for Industrial Pipeline Inner Walls Using Panoramic Image Stitching with Endoscopic Imaging

本文提出了一种基于全景图像拼接技术的工业管道内壁重建系统，通过结合极坐标变换与关键帧提取，将内窥镜视频高效转换为保留完整细节的平面全景图像，显著提升了管道缺陷检测与状态评估的效率和工程应用价值。

Rui Ma, Yifeng Wang, Ziteng Yang + 1 more2026-03-03💻 cs

Diversity over Uniformity: Rethinking Representation in Generated Image Detection

该论文提出了一种反特征坍塌学习框架，通过抑制伪造线索的过度重叠并保留多样化的判断视角，显著提升了生成图像检测模型在未见生成机制下的泛化能力与鲁棒性。

Qinghui He, Haifeng Zhang, Qiao Qin + 3 more2026-03-03💻 cs

UniHM: Unified Dexterous Hand Manipulation with Vision Language Model

UniHM 是一个首个由自由形式语言指令引导的统一灵巧手操作框架，它通过统一灵巧手标记器、基于人机交互数据训练的视觉语言动作模型以及物理引导的动态优化模块，实现了在未见物体和形态上具有强泛化能力且物理可行的灵巧手操作。

Zhenhao Zhang, Jiaxin Liu, Ye Shi + 1 more2026-03-03💻 cs

Stroke outcome and evolution prediction from CT brain using a spatiotemporal diffusion autoencoder

该研究提出了一种基于时空扩散自编码器的自监督方法，利用多中心 CT 影像数据学习脑卒中语义表征，并成功实现了对次日病情严重程度及出院功能预后的最优预测。

Adam Marcus, Paul Bentley, Daniel Rueckert2026-03-03🤖 cs.AI

Analyzing and Improving Fast Sampling of Text-to-Image Diffusion Models

本文通过系统分析扩散模型采样设计空间，提出受 Frenet-Serret 公式启发的恒定总旋转调度（TORS）策略，在无需重新训练的情况下显著提升了 Flux.1-Dev 和 Stable Diffusion 3.5 等模型在极少采样步数下的图像生成质量与泛化能力。

Zhenyu Zhou, Defang Chen, Siwei Lyu + 2 more2026-03-03💻 cs

DUCX: Decomposing Unfairness in Tool-Using Chest X-ray Agents

本文提出了 DUCX 框架，通过引入阶段式公平性分解方法，系统性地揭示了基于 MedRAX 的胸部 X 光诊断智能体中存在的端到端性能差距及工具暴露、路由转换和推理行为等特定阶段的隐性偏见，强调了针对临床智能系统开展过程级公平性审计与去偏的重要性。

Zikang Xu, Ruinan Jin, Xiaoxiao Li2026-03-03💻 cs

Neural Functional Alignment Space: Brain-Referenced Representation of Artificial Neural Networks

该论文提出了神经功能对齐空间（NFAS），这是一种通过动态模式分解建模网络深度嵌入轨迹并投影至生物锚定坐标系的脑参考表征框架，旨在揭示跨模态人工神经网络在脑功能空间中的结构化组织与模态特异性聚类。

Ruiyu Yan, Hanqi Jiang, Yi Pan + 4 more2026-03-03💻 cs

Efficient Conformal Volumetry for Template-Based Segmentation

本文提出了 ConVOLT 框架，通过利用模板配准中的形变场特征来校准体积缩放因子，从而在医学图像模板分割任务中实现了比传统输出空间方法更高效且区间更紧致的有限样本有效体积不确定性量化。

Matt Y. Cheung, Ashok Veeraraghavan, Guha Balakrishnan2026-03-03🧬 q-bio

NERFIFY: A Multi-Agent Framework for Turning NeRF Papers into Code

NERFIFY 是一个多智能体框架，它通过结合上下文无关文法约束、图式思维代码合成、引用组件自动集成及视觉反馈等六项创新，成功将复杂的 NeRF 论文转化为可训练的 Nerfstudio 插件，在无需公开代码的情况下实现了与专家手写代码相当的视觉质量，并将复现时间从数周缩短至数分钟。

Seemandhar Jain, Keshav Gupta, Kunal Gupta + 1 more2026-03-03💻 cs

COMBAT: Conditional World Models for Behavioral Agent Training

本文提出了 COMBAT，一种基于扩散 Transformer 的实时条件世界模型，它仅通过单玩家数据训练，无需对手策略的显式监督，即可在《铁拳 3》环境中生成具备智能反应能力的动态对手行为。

Anmol Agarwal, Pranay Meshram, Sumer Singh + 5 more2026-03-03💻 cs

MME: Mixture of Mesh Experts with Random Walk Transformer Gating

本文提出了一种名为 MME 的新型混合专家框架，通过结合基于随机游走和注意力机制的门控架构以及动态损失平衡策略，有效整合了不同网格分析方法的互补优势，从而在网格分类、检索和语义分割任务中实现了最先进性能。

Amir Belder, Ayellet Tal2026-03-03💻 cs