cs.CV 篇论文 | Gist.Science

Seeking Necessary and Sufficient Information from Multimodal Medical Data

该论文提出了一种将多模态医学数据分解为模态不变和模态特定组件的方法，通过推导可计算的“必要性与充分性概率”（PNS）目标函数，有效解决了多模态场景下 PNS 估计的难题，从而提升了模型的预测性能及对缺失模态的鲁棒性。

Boyu Chen, Weiye Bao, Junjie Liu + 5 more2026-03-03💻 cs

Proof-of-Perception: Certified Tool-Using Multimodal Reasoning with Compositional Conformal Guarantees

本文提出了 Proof-of-Perception (PoP) 框架，通过将多模态推理构建为具有组合保形保证的可执行图，利用带校准不确定性的工具调用来实现可验证的证据 grounding、减少幻觉，并在文档、图表及多图像问答任务中实现了比现有基线更优的性能与计算效率。

Arya Fayyazi, Haleh Akrami2026-03-03💻 cs

Diffusion-Based Low-Light Image Enhancement with Color and Luminance Priors

该论文提出了一种结合结构化控制嵌入模块（SCEM）的扩散模型，通过将低光照图像分解为光照、阴影及颜色不变性等物理先验分量来引导增强过程，从而在无需微调的情况下实现了跨数据集的卓越低光照图像增强效果。

Xuanshuo Fu, Lei Kang, Javier Vazquez-Corral2026-03-03💻 cs

Percept-Aware Surgical Planning for Visual Cortical Prostheses with Vascular Avoidance

本文提出了一种感知感知导向的皮层视觉假体手术规划框架，通过将电极放置建模为解剖空间中的约束优化问题，并利用可微分的前向视觉模型进行端到端优化，在确保血管安全的前提下显著提升了阅读和自然图像等任务的重建保真度。

Galen Pogoncheff, Alvin Wang, Jacob Granley + 1 more2026-03-03💻 cs

Deep Learning-Based Meat Freshness Detection with Segmentation and OOD-Aware Classification

本研究提出了一种结合 U-Net 分割与多骨干网络分类的深度学习框架，用于从 RGB 图像中检测包装及非包装肉类的新鲜度，该框架在实现高精度分类（最佳模型 EfficientNet-B0 达 98.10%）的同时，通过 OOD 感知机制有效处理异常样本，并验证了其在移动设备上的实时部署潜力。

Hutama Arif Bramantyo, Mukarram Ali Faridi, Rui Chen + 2 more2026-03-03⚡ eess

Unsupervised Semantic Segmentation in Synchrotron Computed Tomography with Self-Correcting Pseudo Labels

本文提出了一种无需人工标注的无监督语义分割框架，通过聚类生成伪标签并结合“无偏教师”（Unbiased Teacher）方法进行自校正，有效解决了同步辐射计算机断层扫描（SR-CT）大数据集分析中的标注瓶颈，显著提升了分割精度。

Austin Yunker, Peter Kenesei, Hemant Sharma + 3 more2026-03-03💻 cs

DiffSOS: Acoustic Conditional Diffusion Model for Speed-of-Sound Reconstruction in Ultrasound Computed Tomography

本文提出了 DiffSOS，一种基于声学条件扩散模型的超声计算机断层成像速度重建框架，它通过结合物理约束的 ControlNet、混合损失函数及随机采样策略，在实现近实时高精度重建的同时，能够生成具有像素级不确定性评估的速度图，从而显著优于现有方法。

Yujia Wu, Shuoqi Chen, Shiru Wang + 3 more2026-03-03💻 cs

SSR: Pushing the Limit of Spatial Intelligence with Structured Scene Reasoning

本文提出了名为 SSR 的框架，通过轻量级跨模态对齐机制将 3D 几何特征与 2D 视觉语义无缝融合，并借助创新的场景图生成与增量构建算法，使 7B 参数模型在无需大规模预训练对齐的情况下实现了超越更大模型的卓越空间推理与 3D 定位性能。

Yi Zhang, Youya Xia, Yong Wang + 7 more2026-03-03💻 cs

PointAlign: Feature-Level Alignment Regularization for 3D Vision-Language Models

针对 3D 视觉语言模型因配对数据稀缺导致的几何信息退化问题，本文提出了 PointAlign 方法，通过引入特征级对齐正则化，在仅微调轻量级投影器和 LoRA 适配器的情况下，有效监督中间点云令牌以保留细粒度 3D 几何语义信息，从而显著提升了分类与描述任务的性能。

Yuanhao Su, Shaofeng Zhang, Xiaosong Jia + 1 more2026-03-03💻 cs

DiffTrans: Differentiable Geometry-Materials Decomposition for Reconstructing Transparent Objects

本文提出了名为 DiffTrans 的可微渲染框架，通过结合 FlexiCubes 几何表示、环境光辐射场以及基于 CUDA 的高效递归可微光线追踪器，实现了在复杂场景中透明物体几何与材质的端到端高精度分解与重建。

Changpu Li, Shuang Wu, Songlin Tang + 3 more2026-03-03💻 cs

Station2Radar: query conditioned gaussian splatting for precipitation field

本文提出了 Query-Conditioned Gaussian Splatting (QCGS) 框架，通过融合自动气象站观测与卫星影像，利用雷达点提案网络与隐式神经表示实现了对降水区域的选择性渲染，从而在实时生成高分辨率降水场方面显著优于传统格网产品。

Doyi Kim, Minseok Seo, Changick Kim2026-03-03💻 cs

An Interpretable Local Editing Model for Counterfactual Medical Image Generation

本文提出了名为 InstructX2X 的可解释局部编辑模型，通过区域特异性编辑和引导图技术，在防止非预期属性改变的同时生成高质量的可解释反事实医学图像，并构建了专家验证的 MIMIC-EDIT-INSTRUCTION 数据集以推动该领域发展。

Hyungi Min, Taeseung You, Hangyeul Lee + 2 more2026-03-03🤖 cs.AI

LLM-Bootstrapped Targeted Finding Guidance for Factual MLLM-based Medical Report Generation

本文提出了名为 Fact-Flow 的框架，通过利用大语言模型自动构建标注数据集来分离视觉事实识别与报告生成过程，从而显著提升了多模态大语言模型在医学报告生成中的事实准确性。

Cunyuan Yang, Dejuan Song, Xiaotao Pang + 7 more2026-03-03💬 cs.CL

Taxonomy-Aware Representation Alignment for Hierarchical Visual Recognition with Large Multimodal Models

本文提出了 Taxonomy-Aware Representation Alignment (TARA) 方法，通过利用生物基础模型中的层次化对比学习表征来对齐大型多模态模型的中间特征，从而显著提升了其在已知及未知类别上的层次化视觉识别一致性与准确性。

Hulingxiao He, Zhi Tan, Yuxin Peng2026-03-03🤖 cs.AI

TAP-SLF: Parameter-Efficient Adaptation of Vision Foundation Models for Multi-Task Ultrasound Image Analysis

本文提出了 TAP-SLF 框架，通过结合任务感知软提示与编码器顶层的 LoRA 选择性微调，实现了在冻结预训练骨干网络的前提下对视觉基础模型进行参数高效的多任务超声图像分析适应。

Hui Wan, Libin Lan2026-03-03🤖 cs.AI

Self-Correction Inside the Model: Leveraging Layer Attention to Mitigate Hallucinations in Large Vision Language Models

本文提出了一种利用层注意力机制的内部自校正（ICLA）方法，通过让模型在生成过程中直接利用隐藏状态进行自我修正，仅需极少量额外参数即可有效缓解大型视觉语言模型中日益复杂的幻觉问题。

April Fu2026-03-03💻 cs

Mamba-CAD: State Space Model For 3D Computer-Aided Design Generative Modeling

本文提出了 Mamba-CAD，一种基于状态空间模型的自监督生成框架，通过构建包含 77,078 个长序列 CAD 模型的新数据集及“预训练重建 + 对抗生成”的编码器 - 解码器架构，有效解决了工业级复杂 CAD 模型中长参数序列的生成难题。

Xueyang Li, Yunzhong Lou, Yu Song + 1 more2026-03-03🤖 cs.AI

SesaHand: Enhancing 3D Hand Reconstruction via Controllable Generation with Semantic and Structural Alignment

本文提出了 SesaHand 框架，通过结合基于思维链的语义对齐与分层结构融合技术，生成兼具语义丰富性与结构一致性的可控手部图像，从而显著提升了 3D 手部重建的性能。

Zhuoran Zhao, Xianghao Kong, Linlin Yang + 3 more2026-03-03💻 cs

Improved Adversarial Diffusion Compression for Real-World Video Super-Resolution

本文提出了一种改进的对抗扩散压缩方法，通过将具备 3D 时空注意力的大型扩散 Transformer 教师模型蒸馏为轻量化的 2D 骨干网络并引入双头对抗蒸馏机制，在显著降低参数量并实现 8 倍加速的同时，有效平衡了真实世界视频超分辨率中的空间细节与时间一致性。

Bin Chen, Weiqi Li, Shijie Zhao + 4 more2026-03-03💻 cs

Explainable Continuous-Time Mask Refinement with Local Self-Similarity Priors for Medical Image Segmentation

本文提出了一种名为 LSS-LTCNet 的可解释连续时间掩码细化框架，通过结合局部自相似先验与液态时间常数动态系统，在 MICCAI FUSeg 数据集上实现了足部溃疡分割的边界精度与效率双重突破，为移动医疗环境下的计算机辅助诊断提供了透明且鲁棒的解决方案。

Rajdeep Chatterjee, Sudip Chakrabarty, Trishaani Acharjee2026-03-03💻 cs