cs.CV 篇论文 | Gist.Science

SVG-EAR: Parameter-Free Linear Compensation for Sparse Video Generation via Error-aware Routing

本文提出了 SVG-EAR，一种无需训练的线性补偿方法，通过语义聚类与误差感知路由机制，在稀疏视频生成中高效恢复被跳过注意力块的信息，从而在保持生成质量的同时显著提升推理速度。

Xuanyi Zhou, Qiuyang Mang, Shuo Yang, Haocheng Xi, Jintao Zhang, Huanzhi Mao, Joseph E. Gonzalez, Kurt Keutzer, Ion Stoica, Alvin Cheung2026-03-11💻 cs

SurgCalib: Gaussian Splatting-Based Hand-Eye Calibration for Robot-Assisted Minimally Invasive Surgery

本文提出了 SurgCalib，一种基于高斯泼溅（Gaussian Splatting）的无标记手眼标定框架，旨在解决达芬奇手术机器人因线缆拉伸导致的编码器测量不准问题，并通过在 RCM 约束下的两阶段优化实现了高精度的工具位姿估计。

Zijian Wu, Shuojue Yang, Yu Chung Lee, Eitan Prisman, Yueming Jin, Septimiu E. Salcudean2026-03-11💻 cs

SkipGS: Post-Densification Backward Skipping for Efficient 3DGS Training

SkipGS 提出了一种视图自适应的后向跳过机制，通过在后稠密化阶段根据视图损失动态跳过冗余的反向传播，在保持重建质量的同时显著缩短了 3D 高斯泼溅的训练时间。

Jingxing Li, Yongjae Leeand, Deliang Fan2026-03-11💻 cs

Diffusion-Based Authentication of Copy Detection Patterns: A Multimodal Framework with Printer Signature Conditioning

本文提出了一种基于扩散模型的多模态认证框架，通过联合利用原始模板、打印图案及打印机签名特征，将认证任务转化为打印机分类问题，从而有效区分高质量伪造品与真品并提升泛化能力。

Bolutife Atoki, Iuliia Tkachenko, Bertrand Kerautret, Carlos Crispim-Junior2026-03-11💻 cs

The Coupling Within: Flow Matching via Distilled Normalizing Flows

该论文提出了一种名为“归一化流匹配”（NFM）的新方法，通过利用预训练的自回归归一化流模型来蒸馏准确定性耦合，从而训练出在性能上同时超越独立耦合、最优传输耦合流模型以及教师模型的学生流模型。

David Berthelot, Tianrong Chen, Jiatao Gu, Marco Cuturi, Laurent Dinh, Bhavik Chandna, Michal Klein, Josh Susskind, Shuangfei Zhai2026-03-11🤖 cs.LG

An accurate flatness measure to estimate the generalization performance of CNN models

本文提出了一种针对卷积神经网络（CNN）的精确且架构感知的平坦度度量方法，通过推导全局平均池化网络中交叉熵损失 Hessian 矩阵迹的闭式解，有效解决了现有方法忽略 CNN 几何结构的问题，从而能够更准确地评估和预测模型的泛化性能。

Rahman Taleghani, Maryam Mohammadi, Francesco Marchetti2026-03-11🤖 cs.LG

WS-Net: Weak-Signal Representation Learning and Gated Abundance Reconstruction for Hyperspectral Unmixing via State-Space and Weak Signal Attention Fusion

本文提出了 WS-Net，一种结合状态空间建模与弱信号注意力融合的深度学习框架，通过多分辨率小波编码、Mamba 长程依赖捕捉及自适应门控机制，有效解决了高光谱解混中弱信号被主导端元掩盖的问题，并在多种数据集上显著提升了弱端元的丰度估计精度。

Zekun Long, Ali Zia, Guanyiman Fu, Vivien Rolland, Jun Zhou2026-03-11🤖 cs.AI

Spectral-Structured Diffusion for Single-Image Rain Removal

本文提出了 SpectralDiff 框架，通过引入结构化频谱扰动引导扩散过程以抑制多方向雨纹，并设计全积 U-Net 架构利用卷积定理提升计算效率，从而在保持紧凑模型的同时实现了高效的单图像去雨效果。

Yucheng Xing, Xin Wang2026-03-11💻 cs

Intelligent Spatial Estimation for Fire Hazards in Engineering Sites: An Enhanced YOLOv8-Powered Proximity Analysis Framework

该研究提出了一种基于增强型 YOLOv8 的双模型框架，通过结合火/烟实例分割与 COCO 预训练目标检测，实现从火灾识别到基于像素距离换算的实时风险量化评估，从而在工程现场提供可部署的智能火灾预警与态势感知系统。

Ammar K. AlMhdawi, Nonso Nnamoko, Alaa Mashan Ubaid2026-03-11💻 cs

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

本文提出了 GST-VLA 模型，通过引入高斯空间分词器（GST）将视觉观测转化为具有内在几何结构的 3D 高斯原语，并结合 3D 深度感知思维链（DA-CoT）推理机制，显著提升了机器人在 LIBERO 和 SimplerEnv 等基准测试中的 3D 感知与操作精度。

Md Selim Sarowar, Omer Tariq, Sungho Kim2026-03-11🤖 cs.AI

OmniEdit: A Training-free framework for Lip Synchronization and Audio-Visual Editing

OmniEdit 是一种无需训练的框架，通过用目标序列替代 FlowEdit 中的编辑序列并消除生成过程中的随机性，实现了高效且稳定的唇形同步与音视频编辑。

Lixiang Lin, Siyuan Jin, Jinshan Zhang2026-03-11💻 cs

Chain of Event-Centric Causal Thought for Physically Plausible Video Generation

本文提出了一种名为“事件中心因果思维链”的新框架，通过物理驱动的事件链推理和过渡感知跨模态提示两个核心模块，将物理现象分解为因果相连的动态事件序列，从而显著提升了视频生成模型在物理合理性方面的表现。

Zixuan Wang, Yixin Hu, Haolan Wang, Feng Chen, Yan Liu, Wen Li, Yinjie Lei2026-03-11💻 cs

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

该论文系统诊断了多模态大语言模型在处理图像文本时存在的“模态差距”，发现其主要由渲染因素引发的阅读错误导致，并提出了一种通过自蒸馏利用纯文本推理痕迹来提升视觉文本理解能力的有效方法。

Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan Bai2026-03-11💬 cs.CL

MedKCO: Medical Vision-Language Pretraining via Knowledge-Driven Cognitive Orchestration

该论文提出了 MedKCO 方法，通过构建基于诊断敏感性和样本代表性的两级课程学习顺序，并引入自适应非对称对比损失，解决了现有医疗视觉 - 语言预训练模型因同时学习简单与复杂概念而导致的特征表示次优问题，从而在多种下游任务中显著提升了性能。

Chenran Zhang, Ruiqi Wu, Tao Zhou, Yi Zhou2026-03-11💻 cs

Training-free Motion Factorization for Compositional Video Generation

该论文提出了一种无需训练的运动分解框架，通过将复杂运动解耦为静止、刚体和非刚体三类，并采用“先规划后生成”的范式来结构化提示词并解耦生成过程，从而实现了在多种扩散模型中高质量的多实例组合视频生成。

Zixuan Wang, Ziqin Zhou, Feng Chen, Duo Peng, Yixin Hu, Changsheng Li, Yinjie Lei2026-03-11💻 cs

Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations

本文提出了一种基于 Transformer 的框架，通过联合对齐全局语义与基于空间注意力掩码的局部判别区域，实现了结合参考图像与文本描述的皮肤病变组成式检索，并在 Derm7pt 数据集上取得了优于现有方法的性能。

Yuheng Wang, Yuji Lin, Dongrun Zhu, Jiayue Cai, Sunil Kalia, Harvey Lui, Chunqi Chang, Z. Jane Wang, Tim K. Lee2026-03-11🤖 cs.AI

VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

VIVID-Med 提出了一种新颖的医疗视觉 Transformer 预训练框架，利用冻结的大语言模型作为结构化语义教师，通过统一医疗模式将临床发现转化为可验证的 JSON 字段状态对并采用结构化预测分解技术，在训练后丢弃大模型从而生成轻量级、可部署的纯视觉骨干网络，在多种医疗影像任务中实现了超越现有方法的高性能且数据高效的零样本泛化能力。

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe Qiu2026-03-11🤖 cs.AI

Progressive Representation Learning for Multimodal Sentiment Analysis with Incomplete Modalities

本文提出了 PRLF 框架，通过自适应模态可靠性估计器和渐进式交互模块，有效解决了多模态情感分析中因模态缺失导致的特征不对齐问题，并在多种缺失场景下实现了优于现有方法的鲁棒性能。

Jindi Bao, Jianjun Qian, Mengkai Yan, Jian Yang2026-03-11💻 cs

QUSR: Quality-Aware and Uncertainty-Guided Image Super-Resolution Diffusion Model

本文提出了 QUSR 模型，通过结合利用多模态大语言模型生成质量先验的 QAP 模块和根据不确定性自适应调整噪声强度的 UNG 模块，有效解决了真实场景下退化未知且非均匀导致的图像超分辨率细节丢失与伪影问题。

Junjie Yin, Jiaju Li, Hanfa Xing2026-03-11🤖 cs.AI

Transformer-Based Multi-Region Segmentation and Radiomic Analysis of HR-pQCT Imaging

该研究首次提出基于 SegFormer 变换器的全自动框架，对 HR-pQCT 图像进行多区域（包括骨骼及皮肤、肌腱、脂肪等软组织）分割并提取放射组学特征，结果表明利用软组织特征进行骨质疏松分类的效能优于传统骨参数模型，显著提升了诊断准确性。

Mohseu Rashid Subah, Mohammed Abdul Gani Zilani, Thomas L. Nickolas, Matthew R. Allen, Stuart J. Warden, Rachel K. Surowiec2026-03-11💻 cs