cs.CV 篇论文 | Gist.Science

Toward Real-world Infrared Image Super-Resolution: A Unified Autoregressive Framework and Benchmark Dataset

该论文针对真实场景下红外图像超分辨率任务中光学与传感退化耦合的挑战，提出了名为 Real-IISR 的统一自回归框架及 FLIR-IISR 真实世界数据集，通过热 - 结构引导、条件自适应码本及热序一致性损失，实现了兼顾结构清晰度与热辐射保真度的渐进式重建。

Yang Zou, Jun Ma, Zhidong Jiao + 3 more2026-03-06💻 cs

Evaluating GPT-5 as a Multimodal Clinical Reasoner: A Landscape Commentary

该评论指出，GPT-5 在文本推理及多模态临床整合能力上较前代有显著提升，但在神经放射学和乳腺 X 光摄影等高度专业化的感知任务中，其表现仍不及专用模型，表明通用基础模型虽已迈向整合式临床推理，却尚未能完全替代特定领域的专业系统。

Alexandru Florea, Shansong Wang, Mingzhe Hu + 5 more2026-03-06💻 cs

Evaluating and Correcting Human Annotation Bias in Dynamic Micro-Expression Recognition

本文提出了一种名为 GAMDSS 的新架构，通过动态关键帧重选策略优化时空建模，有效减少了跨文化微表情数据集中的人工标注偏差并提升了识别性能，同时无需增加模型参数量。

Feng Liu, Bingyu Nan, Xuezhong Qian + 1 more2026-03-06💻 cs

DSA-SRGS: Super-Resolution Gaussian Splatting for Dynamic Sparse-View DSA Reconstruction

本文提出了 DSA-SRGS，这是首个面向动态稀疏视角数字减影血管造影（DSA）重建的超分辨率高斯溅射框架，通过多保真纹理学习模块和辐射亚像素致密化策略，有效解决了传统方法在提升渲染分辨率时产生的模糊与混叠问题，显著恢复了精细血管细节。

Shiyu Zhang, Zhicong Wu, Huangxuan Zhao + 7 more2026-03-06💻 cs

MADCrowner: Margin Aware Dental Crown Design with Template Deformation and Refinement

本文提出了名为 MADCrowner 的牙冠设计框架，通过结合基于解剖上下文的多尺度模板形变与边缘感知分割网络，有效解决了现有方法在空间分辨率、噪声及表面重建过延伸方面的局限，显著提升了牙冠生成的几何精度与临床可行性。

Linda Wei, Chang Liu, Wenran Zhang + 9 more2026-03-06💻 cs

Privacy-Aware Camera 2.0 Technical Report

本文提出了一种基于 AI Flow 范式与边云协同架构的隐私感知框架，通过在边缘端利用信息瓶颈原理将原始图像实时转化为不可逆的抽象特征向量，并在云端结合“动态轮廓”视觉语言实现行为识别与语义重建，从而在彻底消除隐私泄露风险的同时解决了传统方案缺乏可视化证据的痛点。

Huan Song, Shuyu Tian, Ting Long + 5 more2026-03-06💻 cs

RMK RetinaNet: Rotated Multi-Kernel RetinaNet for Robust Oriented Object Detection in Remote Sensing Imagery

本文提出了一种名为 RMK RetinaNet 的旋转目标检测网络，通过设计多尺度核模块、多方向上下文锚点注意力机制、自底向上路径以及欧拉角编码模块，有效解决了遥感图像中感受野利用不足、多尺度特征融合不充分及角度回归不连续等瓶颈问题，显著提升了多尺度和多方向场景下的检测鲁棒性。

Huiran Sun2026-03-06💻 cs

LAW & ORDER: Adaptive Spatial Weighting for Medical Diffusion and Segmentation

本文提出了名为"LAW & ORDER"的自适应空间加权框架，通过可学习的损失调制器（LAW）优化医疗扩散模型生成质量，并利用高效区域检测适配器（ORDER）提升分割精度，从而在显著降低计算成本的同时有效解决了医学图像中病灶区域小、背景大导致的空间不平衡问题。

Anugunj Naman, Ayushman Singh, Gaibo Zhang + 1 more2026-03-06💻 cs

Comparative Evaluation of Traditional Methods and Deep Learning for Brain Glioma Imaging. Review Paper

本文综述了脑胶质瘤成像中的分割与分类技术，指出卷积神经网络架构在磁共振图像后处理任务中优于传统方法，并强调了准确分割与分类对制定个性化治疗方案及改善患者预后的重要性。

Kiranmayee Janardhan, Vinay Martin DSa Prabhu, T. Christy Bobby2026-03-06💻 cs

MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models

本文针对多模态大语言模型后训练量化中存在的平滑失配与跨模态计算不变性挑战，提出了模态感知平滑量化（MASQuant）框架，通过引入模态感知平滑和跨模态补偿机制，实现了在双模态及三模态模型中稳定且高效的量化性能。

Lulu Hu, Wenhu Xiao, Xin Chen + 4 more2026-03-06💻 cs

Guiding Diffusion-based Reconstruction with Contrastive Signals for Balanced Visual Representation

本文针对 CLIP 视觉编码器在判别能力与细节感知能力上的局限，提出了一种通过向扩散重建过程注入重构图像对比信号来平衡优化两者的扩散对比重建（DCR）方法，从而显著提升了多模态大模型的下游性能。

Boyu Han, Qianqian Xu, Shilong Bao + 4 more2026-03-06💻 cs

Meta-D: Metadata-Aware Architectures for Brain Tumor Analysis and Missing-Modality Segmentation

本文提出了 Meta-D 架构，通过显式利用 MRI 序列和平面等分类元数据来动态引导特征提取，从而在 2D 肿瘤检测中提升 F1 分数，并在 3D 缺失模态分割场景下通过基于元数据的交叉注意力机制显著提高了 Dice 评分并减少了模型参数量。

SangHyuk Kim, Daniel Haehn, Sumientra Rampersad2026-03-06💻 cs

Revisiting Shape from Polarization in the Era of Vision Foundation Models

本文提出了一种结合高质量真实 3D 扫描数据集、DINOv3 先验及传感器感知数据增强的轻量化方法，证明了仅需少量数据即可利用偏振线索在单视角表面法线估计任务中显著超越 RGB 视觉基础模型及现有偏振方法。

Chenhao Li, Taishi Ono, Takeshi Uemori + 1 more2026-03-06💻 cs

Mitigating Instance Entanglement in Instance-Dependent Partial Label Learning

针对实例依赖部分标签学习中因相似特征和候选标签重叠导致的实例纠缠问题，本文提出了一种通过类内特征增强对齐与类间模糊标签加权惩罚相结合的类特定增强解耦（CAD）框架，以增强类别边界清晰度并提升分类性能。

Rui Zhao, Bin Shi, Kai Sun + 1 more2026-03-06🤖 cs.LG

Towards Highly Transferable Vision-Language Attack via Semantic-Augmented Dynamic Contrastive Interaction

该论文针对现有视觉 - 语言模型对抗攻击跨模态破坏力弱和迁移性差的问题，提出了一种通过动态对比交互和语义增强模块来逐步破坏跨模态对齐的语义增强动态对比攻击（SADCA）方法，显著提升了攻击的迁移性能。

Yuanbo Li, Tianyang Xu, Cong Hu + 3 more2026-03-06💻 cs

Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models

该论文针对多模态大语言模型（MLLMs）中现有单范式攻击方法特征表示受限的问题，提出了一种通过多范式协同优化策略聚合图文语义表征的“多范式协同对抗攻击”（MPCAttack）框架，显著提升了跨模型对抗样本的迁移攻击效果。

Yuanbo Li, Tianyang Xu, Cong Hu + 3 more2026-03-06💻 cs

GloSplat: Joint Pose-Appearance Optimization for Faster and More Accurate 3D Reconstruction

GloSplat 提出了一种在 3D 高斯泼溅训练中联合优化位姿与外观的框架，通过保留显式 SfM 特征轨迹作为独立可优化参数，有效解决了传统纯光度优化方法易出现的位姿漂移问题，实现了比现有 COLMAP 依赖及免依赖方法更快速、更精准的 3D 重建。

Tianyu Xiong, Rui Li, Linjie Li + 1 more2026-03-06💻 cs

On Multi-Step Theorem Prediction via Non-Parametric Structural Priors

本文提出了一种无需训练的多步定理预测方法，通过构建定理前驱图引入显式拓扑约束以解决上下文学习中的结构漂移问题，在 FormalGeo7k 基准上取得了 89.29% 的准确率，性能媲美最先进的监督模型。

Junbo Zhao, Ting Zhang, Can Li + 3 more2026-03-06🤖 cs.AI

Scalable Injury-Risk Screening in Baseball Pitching From Broadcast Video

该论文提出了一种基于单目广播视频的可扩展棒球投球损伤风险筛查框架，通过改进的 3D 姿态估计与运动学优化技术，从普通视频中提取临床级生物力学指标，实现了在缺乏专业动捕设备的情况下对投手损伤风险（如汤米·约翰手术）的高精度预测。

Jerrin Bright, Justin Mende, John Zelek2026-03-06💻 cs

SURE: Semi-dense Uncertainty-REfined Feature Matching

本文提出了 SURE 框架，通过联合建模偶然与认知不确定性来预测图像对应关系及其置信度，从而有效解决现有方法在视角变化大或纹理缺失场景下因缺乏可靠性估计而产生的过置信错误问题，并在多项基准测试中实现了优于现有最先进半稠密匹配模型的精度与效率。

Sicheng Li, Zaiwang Gu, Jie Zhang + 3 more2026-03-06💻 cs