cs.CV 篇论文 | Gist.Science

NOVA3R: Non-pixel-aligned Visual Transformer for Amodal 3D Reconstruction

本文提出了 NOVA3R，这是一种基于非像素对齐视觉 Transformer 的自前馈方法，它通过场景令牌机制和解耦像素对齐的全局场景表示，能够从无序图像中重建出包含可见与不可见部分的完整且物理合理的 3D 点云。

Weirong Chen, Chuanxia Zheng, Ganlin Zhang + 2 more2026-03-06💻 cs

A Unified Framework for Joint Detection of Lacunes and Enlarged Perivascular Spaces

本文提出了一种形态解耦框架，通过零初始化门控跨任务注意力机制、混合监督策略及解剖学推理校准，在 VALDO 2021 和 EPAD 数据集上实现了对脑小血管病标志物（腔隙性脑梗死和扩大的血管周围间隙）的联合高精度检测，有效解决了特征干扰与类别不平衡难题。

Lucas He, Krinos Li, Hanyuan Zhang + 7 more2026-03-06💻 cs

Gaussian Wardrobe: Compositional 3D Gaussian Avatars for Free-Form Virtual Try-On

本文提出了名为"Gaussian Wardrobe"的新框架，通过多视图视频将人体与多层形状无关的神经服装解耦为独立的 3D 高斯表示，从而实现了具有逼真动态的复合 3D 神经 Avatar 构建及跨主体的自由虚拟试穿。

Zhiyi Chen, Hsuan-I Ho, Tianjian Jiang + 3 more2026-03-06💻 cs

Lost in Translation: How Language Re-Aligns Vision for Cross-Species Pathology

该研究提出“语义锚定”方法，利用语言作为稳定坐标系统来纠正跨物种病理模型中因物种主导对齐导致的语义崩溃，从而在无需重新训练的情况下显著提升了跨癌种和跨物种的癌症检测性能。

Ekansh Arora2026-03-06💻 cs

The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

本文提出了“双重微调”框架，通过量化对比思维链与直接回答模式在基座模型上的性能增益，确立了“思维边界”以科学界定多模态任务中推理训练的适用性，从而挑战了“全量推理”范式并为构建高效自适应的自动推理系统提供了实践指导。

Ruobing Zheng, Tianqi Li, Jianing Li + 3 more2026-03-06💻 cs

SkillNet: Create, Evaluate, and Connect AI Skills

本文提出了 SkillNet，一个旨在通过统一本体论从异构来源创建、评估和组织 AI 技能的大规模基础设施，其包含的 20 万 + 技能库及评估体系显著提升了智能体在多项任务中的表现，使其平均奖励提高 40% 并减少 30% 的执行步骤。

Yuan Liang, Ruobin Zhong, Haoming Xu + 46 more2026-03-06✓ Author reviewed ⓘ💻 cs

Recognition of Daily Activities through Multi-Modal Deep Learning: A Video, Pose, and Object-Aware Approach for Ambient Assisted Living

本文提出了一种结合 3D 卷积神经网络、图卷积网络及物体检测上下文信息的跨模态深度学习框架，利用交叉注意力机制融合视频、姿态与物体特征，以在丰田智能家居数据集上实现对老年人日常活动的高精度识别，从而提升环境辅助生活系统的安全性与独立性支持能力。

Kooshan Hashemifard, Pau Climent-Pérez, Francisco Florez-Revuelta2026-03-06💻 cs

InverseNet: Benchmarking Operator Mismatch and Calibration Across Compressive Imaging Modalities

本文提出了首个跨模态算子失配基准 InverseNet，通过涵盖 CASSI、CACTI 及单像素相机等多种成像模态的广泛实验，揭示了现有深度学习方法在算子失配下性能严重退化且与鲁棒性呈负相关，同时证明了算子条件化架构与盲校准策略能有效恢复性能并弥合仿真与真实硬件间的差距。

Chengshuai Yang, Xin Yuan2026-03-06💻 cs

Fusion and Grouping Strategies in Deep Learning for Local Climate Zone Classification of Multimodal Remote Sensing Data

该研究针对多模态遥感数据（SAR 与 MSI）下的本地气候区（LCZ）分类问题，系统分析了多种深度学习融合策略与数据分组方法，发现结合基线混合融合（FM1）、波段分组（BG）与标签合并（LM）的策略在 So2Sat LCZ42 数据集上表现最佳，整体准确率达到 76.6%，并显著提升了少数类别的预测精度。

Ancymol Thomas, Jaya Sreevalsan-Nair2026-03-06💻 cs

Structure-Guided Histopathology Synthesis via Dual-LoRA Diffusion

本文提出了一种名为 Dual-LoRA 可控扩散的统一框架，利用多类细胞核质心作为空间先验，通过双 LoRA 适配器在单一模型中同时实现局部结构补全与全局组织合成，显著提升了病理图像生成的结构保真度与形态一致性。

Xuan Xu, Prateek Prasanna2026-03-06💻 cs

Mask-aware inference with State-Space Models

本文提出了 Partial Vision Mamba (PVM)，这是一种将部分卷积的掩码感知重归一化机制引入 Mamba 骨干网络的新型架构组件，旨在解决状态空间模型在处理任意形状缺失数据时的推理难题，并在深度补全、图像修复及含无效数据分类等任务中展现了优异性能。

Ignasi Mas, Ramon Morros, Javier-Ruiz Hidalgo + 1 more2026-03-06💻 cs

PinPoint: Evaluation of Composed Image Retrieval with Explicit Negatives, Multi-Image Queries, and Paraphrase Testing

本文提出了名为 PinPoint 的综合真实世界基准，通过引入多真值答案、显式负样本、指令改写及多图像查询等特性，揭示了现有组合图像检索方法在抗干扰性、鲁棒性和多图像推理方面的显著不足，并提出了一种基于多模态大语言模型的免训练重排序方法以弥补性能差距。

Rohan Mahadev, Joyce Yuan, Patrick Poirson + 3 more2026-03-06💻 cs

SGR3 Model: Scene Graph Retrieval-Reasoning Model in 3D

本文提出了一种无需训练的 3D 场景图检索 - 推理模型（SGR3），该模型利用多模态大语言模型结合检索增强生成技术，通过引入加权补丁级相似度选择机制来增强关系推理，从而在无需显式 3D 重建的情况下实现了与专家级模型相当的性能。

Zirui Wang, Ruiping Liu, Yufan Chen + 7 more2026-03-06💻 cs

Spinverse: Differentiable Physics for Permeability-Aware Microstructure Reconstruction from Diffusion MRI

本文提出了 Spinverse，一种基于全可微 Bloch-Torrey 模拟器的可渗透性感知重建方法，通过在固定四面体网格上优化面渗透率参数并结合几何先验与多序列优化课程，实现了从扩散 MRI 信号中恢复具有明确界面的微观结构。

Prathamesh Pradeep Khole, Mario M. Brenes, Zahra Kais Petiwala + 5 more2026-03-06💻 cs

Using Vision + Language Models to Predict Item Difficulty

该研究利用 GPT-4.1-nano 模型结合视觉与文本特征，成功实现了对美国成年人数据可视化测试题目难度的预测，其中多模态方法在预测精度上显著优于单一模态方法，展示了大语言模型在心理测量分析和自动化试题开发中的潜力。

Samin Khan2026-03-06💻 cs

sFRC for assessing hallucinations in medical image restoration

本文提出了一种名为 sFRC 的新方法，即通过在深度学习医学图像恢复输出的小补丁上执行傅里叶环相关分析并扫描其与参考图像的对应关系，以有效检测并量化由欠采样数据引起的幻觉伪影，从而评估不同重建方法的鲁棒性。

Prabhat Kc, Rongping Zeng, Nirmal Soni + 1 more2026-03-06🔬 physics

Decoding the Pulse of Reasoning VLMs in Multi-Image Understanding Tasks

该论文揭示了推理型视觉语言模型在多图理解任务中存在注意力弥散和位置偏差现象，并提出了一种无需训练的推理时方法 PulseFocus，通过结构化思维链和软注意力门控机制显著提升了模型在多图基准测试中的表现。

Chenjun Li2026-03-06💻 cs

A Benchmark Study of Neural Network Compression Methods for Hyperspectral Image Classification

该研究通过两个基准数据集，系统评估了剪枝、量化和知识蒸馏三种神经网络压缩方法在高光谱图像分类任务中的性能，结果表明这些方法能在显著降低模型规模和计算成本的同时保持具有竞争力的分类精度，从而为遥感边缘设备上的深度学习部署提供了重要参考。

Sai Shi2026-03-06💻 cs

Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

本文系统评估了多模态大语言模型在零样本视频异常检测中的表现，发现其虽具备高置信度但存在严重的保守偏差导致召回率极低，而通过特定指令提示可显著提升性能，但仍面临开放世界监控场景下召回率不足的严峻挑战。

Shanle Yao, Armin Danesh Pazho, Narges Rashvand + 1 more2026-03-06💻 cs

FOZO: Forward-Only Zeroth-Order Prompt Optimization for Test-Time Adaptation

本文提出了名为 FOZO 的新型前向零阶提示优化方法，通过结合中间特征统计与预测熵的优化目标及动态衰减扰动策略，在无需反向传播的情况下实现了资源受限场景下高效且稳定的测试时适应，并在多项基准测试中超越了现有的梯度基及前向优化方法。

Xingyu Wang, Tao Wang2026-03-06💻 cs