cs.CV 篇论文 | Gist.Science

SoundWeaver: Semantic Warm-Starting for Text-to-Audio Diffusion Serving

SoundWeaver 是首个无需训练且与模型无关的文本转音频扩散服务系统，它通过语义相似缓存音频进行热启动，在保持或提升感知质量的同时将延迟降低了 1.8 至 3.0 倍。

Ayush Barik, Sofia Stoica, Nikhil Sarda, Arnav Kethana, Abhinav Khanduja, Muchen Xu, Fan Lai2026-03-10💻 cs

Toward Unified Multimodal Representation Learning for Autonomous Driving

该论文提出了一种对比张量预训练（CTP）框架，通过将传统的成对余弦相似度扩展为多模态相似性张量并引入张量损失，实现了视觉、文本和点云等多模态数据在统一嵌入空间中的联合对齐，从而显著提升了自动驾驶场景下的端到端性能。

Ximeng Tao, Dimitar Filev, Gaurav Pandey2026-03-10🤖 cs.LG

VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?

本文提出了 VLM-SubtleBench 基准，旨在通过涵盖工业、医疗和航拍等多领域及十种细微差异类型的配对图像与问题，评估视觉语言模型在细微对比推理方面与人类水平的差距，并揭示了现有模型在复杂场景下的系统性不足。

Minkyu Kim, Sangheon Lee, Dongmin Park2026-03-10🤖 cs.LG

Structure and Progress Aware Diffusion for Medical Image Segmentation

本文提出了一种结构感知与进度感知扩散（SPAD）方法，通过语义集中扩散、边界集中扩散及进度感知调度器，构建从粗粒度形态语义到细粒度边界轮廓的渐进式学习范式，以有效解决医学图像分割中粗结构稳定但细边界模糊噪声大的难题。

Siyuan Song, Guyue Hu, Chenglong Li, Dengdi Sun, Zhe Jin, Jin Tang2026-03-10💻 cs

Visualizing Coalition Formation: From Hedonic Games to Image Segmentation

该论文提出将图像分割作为联盟形成博弈的可视化诊断测试平台，通过量化机制设计参数对均衡结构的影响，揭示了从凝聚到碎片化再到失效的演化过程。

Pedro Henrique de Paula França, Lucas Lopes Felipe, Daniel Sadoc Menasché2026-03-10💻 cs

MINT: Molecularly Informed Training with Spatial Transcriptomics Supervision for Pathology Foundation Models

本文提出了 MINT 框架，通过将空间转录组监督信号融入预训练病理基础模型，在避免灾难性遗忘的同时实现了基因表达预测与通用病理任务性能的显著提升。

Minsoo Lee, Jonghyun Kim, Juseung Yun, Sunwoo Yu, Jongseong Jang2026-03-10💻 cs

Revisiting Unknowns: Towards Effective and Efficient Open-Set Active Learning

本文提出了 E²OAL，一种无需独立检测器的统一开放集主动学习框架，它通过利用标签引导聚类挖掘未知类潜在结构并结合狄利克雷校准辅助头，有效提升了已知类判别能力与查询精度，在多个基准测试中显著优于现有最先进方法。

Chen-Chen Zong, Yu-Qi Chi, Xie-Yang Wang, Yan Cui, Sheng-Jun Huang2026-03-10🤖 cs.LG

Beyond Heuristic Prompting: A Concept-Guided Bayesian Framework for Zero-Shot Image Recognition

本文提出了一种概念引导的贝叶斯框架，通过结合大语言模型生成的多样化判别性概念、行列式点过程以及自适应软截断似然机制，有效解决了现有零样本图像识别方法中提示工程依赖启发式设计及泛化能力不足的问题，从而显著提升了分类性能。

Hui Liu, Kecheng Chen, Jialiang Wang, Xianming Liu, Wenya Wang, Haoliang Li2026-03-10💻 cs

Geometric Transformation-Embedded Mamba for Learned Video Compression

本文提出了一种基于直接变换策略的流式视频压缩框架，通过嵌入几何变换的级联 Mamba 模块和基于差分卷积的局部细化前馈网络来高效捕捉时空依赖，并结合条件熵模型，在低比特率下实现了优于现有方法的感知质量与时间一致性。

Hao Wei, Yanhui Zhou, Chenyang Ge2026-03-10💻 cs

Enhancing Unregistered Hyperspectral Image Super-Resolution via Unmixing-based Abundance Fusion Learning

该论文提出了一种基于解混的丰度融合学习框架，通过奇异值分解解耦空谱信息并结合粗到细的可变形聚合与动态门控融合模块，有效解决了未配准高光谱图像超分辨率中的配准误差问题并提升了重建性能。

Yingkai Zhang, Tao Zhang, Jing Nie, Ying Fu2026-03-10💻 cs

RLPR: Radar-to-LiDAR Place Recognition via Two-Stage Asymmetric Cross-Modal Alignment for Autonomous Driving

本文提出了 RLPR 框架，通过双流网络提取跨模态通用结构特征，并创新性地采用两阶段非对称跨模态对齐策略，有效解决了雷达与 LiDAR 间特征差异大及配对数据稀缺的难题，实现了在多种雷达类型和恶劣天气下的高精度零样本泛化定位。

Zhangshuo Qi, Jingyi Xu, Luqi Cheng, Shichen Wen, Guangming Xiong2026-03-10💻 cs

IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation

本文提出了 IMSE 方法，通过仅微调预训练视觉 Transformer 线性层的奇异值（即谱专家）并引入基于专家输入对齐的多样性最大化损失以解决特征坍塌问题，结合域感知谱码检索机制，在显著减少可训练参数量的同时实现了测试时适应及持续测试时适应任务中的最先进性能。

Sunghyun Baek (Korea Advanced Institute of Science and Technology), Jaemyung Yu (Korea Advanced Institute of Science and Technology), Seunghee Koh (Korea Advanced Institute of Science and Technology), Minsu Kim (LG Energy Solution), Hyeonseong Jeon (LG Energy Solution), Junmo Kim (Korea Advanced Institute of Science and Technology)2026-03-10💻 cs

A Hybrid Vision Transformer Approach for Mathematical Expression Recognition

本文提出了一种结合 2D 位置编码的混合视觉 Transformer 编码器与覆盖注意力解码器的数学公式识别方法，通过利用 ViT 的 [CLS] 令牌作为解码器初始嵌入，在 IM2LATEX-100K 数据集上取得了 89.94 的 BLEU 分数并超越了现有最先进水平。

Anh Duy Le, Van Linh Pham, Vinh Loi Ly, Nam Quan Nguyen, Huu Thang Nguyen, Tuan Anh Tran2026-03-10💻 cs

Text to Automata Diagrams: Comparing TikZ Code Generation with Direct Image Synthesis

该研究通过对比分析表明，虽然直接利用视觉语言模型从学生手绘自动机图生成描述存在错误，但经人工修正后的描述能显著提升大语言模型生成准确 TikZ 代码的质量，从而为计算机科学教育中的自动评分和反馈提供了可行路径。

Ethan Young, Zichun Wang, Aiden Taylor, Chance Jewell, Julian Myers, Satya Sri Rajiteswari Nimmagadda, Anthony White, Aniruddha Maiti, Ananya Jana2026-03-10💻 cs

$L^3$ :Scene-agnostic Visual Localization in the Wild

本文提出了一种名为 $L^3$ 的无地图视觉定位框架，该框架利用前馈3D重建网络的在线推理能力，通过直接对RGB图像进行在线3D重建及两阶段尺度恢复与姿态优化，在无需离线预处理或存储场景表征的情况下，实现了与最先进方法相当的高精度定位，并在稀疏场景下展现出显著更优的鲁棒性。

Yu Zhang, Muhua Zhu, Yifei Xue, Tie Ji, Yizhen Lao2026-03-10💻 cs

VisualAD: Language-Free Zero-Shot Anomaly Detection via Vision Transformer

VisualAD 提出了一种基于视觉 Transformer 的纯视觉零样本异常检测框架，通过引入可学习的正常与异常令牌及空间感知模块，在无需文本编码器的情况下实现了跨工业与医疗领域的领先性能。

Yanning Hou, Peiyuan Li, Zirui Liu, Yitong Wang, Yanran Ruan, Jianfeng Qiu, Ke Xu2026-03-10💻 cs

SGG-R $^{\rm 3}$ : From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation

本文提出了 SGG-R³ 框架，通过结合任务特定的思维链引导监督微调与基于组序列策略优化的强化学习，利用关系增强策略和双粒度奖励机制，有效解决了场景图生成中的稀疏性、长尾分布及偏差问题，实现了端到端的无偏场景图生成。

Jiaye Feng, Qixiang Yin, Yuankun Liu, Tong Mo, Weiping Li2026-03-10💻 cs

Listening with the Eyes: Benchmarking Egocentric Co-Speech Grounding across Space and Time

该论文提出了名为 EcoG-Bench 的双语基准测试，旨在评估多模态大模型在结合语音与手势进行指代消解时的时空对齐能力，并揭示了当前模型因多模态接口限制而在该任务上表现远低于人类的显著差距。

Weijie Zhou, Xuantang Xiong, Zhenlin Hu, Xiaomeng Zhu, Chaoyang Zhao, Honghui Dong, Zhengyou Zhang, Ming Tang, Jinqiao Wang2026-03-10💻 cs

Extend Your Horizon: A Device-Agnostic Surgical Tool Tracking Framework with Multi-View Optimization for Augmented Reality

该论文提出了一种基于多视图优化的设备无关手术工具跟踪框架，通过融合多种传感模态并构建动态场景图，有效解决了增强现实手术导航中因遮挡导致的视线受阻问题，显著提升了跟踪的鲁棒性与可视化一致性。

Jiaming Zhang, Mingxu Liu, Hongchao Shu, Ruixing Liang, Yihao Liu, Ojas Taskar, Amir Kheradmand, Mehran Armand, Alejandro Martin-Gomez2026-03-10💻 cs

On the Feasibility and Opportunity of Autoregressive 3D Object Detection

本文提出了 AutoReg3D，一种将 LiDAR 3D 目标检测重构为序列生成任务的自回归检测器，它通过近至远的生成顺序摒弃了传统锚框和非极大值抑制（NMS），在保持竞争力的同时为引入大语言模型等现代序列建模技术开辟了新的路径。

Zanming Huang, Jinsu Yoo, Sooyoung Jeon, Zhenzhen Liu, Mark Campbell, Kilian Q Weinberger, Bharath Hariharan, Wei-Lun Chao, Katie Z Luo2026-03-10💻 cs

cs.CV