cs.CV 篇论文 | Gist.Science

Visual Words Meet BM25: Sparse Auto-Encoder Visual Word Scoring for Image Retrieval

该论文提出了 BM25-V 方法，通过将稀疏自编码器生成的视觉词激活与 Okapi BM25 评分相结合，利用逆文档频率（IDF）加权机制在无需微调的情况下实现了高效、可解释且高精度的图像检索。

Donghoon Han, Eunhwan Park, Seunghyeon Seo2026-03-09🤖 cs.AI

Spectral Probing of Feature Upsamplers in 2D-to-3D Scene Reconstruction

该论文提出了一种包含六个指标的频谱诊断框架，揭示了在 2D 转 3D 重建中，特征上采样器的性能更取决于频谱结构的保持而非空间细节的增强，并发现结构频谱一致性是预测新视图合成质量的最强指标。

Ling Xiao, Yuliang Xiu, Yue Chen, Guoming Wang, Toshihiko Yamasaki2026-03-09💻 cs

EventGeM: Global-to-Local Feature Matching for Event-Based Visual Place Recognition

该论文提出了 EventGeM，一种基于事件相机的视觉定位方法，它通过融合预训练 ViT 提取的全局特征与 MaxViT 检测的局部特征，并结合深度估计进行重排序，在多个基准测试中实现了最先进的实时定位性能。

Adam D. Hines, Gokul B. Nair, Nicolás Marticorena, Michael Milford, Tobias Fischer2026-03-09💻 cs

Training-free Latent Inter-Frame Pruning with Attention Recovery

该论文提出了一种无需训练的 LIPAR 框架，通过利用视频潜在块的时间冗余性进行帧间剪枝，并引入注意力恢复机制以消除视觉伪影，从而在不牺牲生成质量的前提下显著提升了视频生成的推理速度。

Dennis Menn, Yuedong Yang, Bokun Wang, Xiwen Wei, Mustafa Munir, Feng Liang, Radu Marculescu, Chenfeng Xu, Diana Marculescu2026-03-09💻 cs

Margin and Consistency Supervision for Calibrated and Robust Vision Models

本文提出了名为 MaCS 的架构无关正则化框架，通过联合优化逻辑空间中的分类间隔与局部预测一致性，在无需额外数据或架构改动的情况下，显著提升了视觉模型的校准度、鲁棒性及泛化能力。

Salim Khazem2026-03-09🤖 cs.AI

Architectural Unification for Polarimetric Imaging Across Multiple Degradations

本文提出了一种统一的极化成像架构框架，通过单阶段联合图像与斯托克斯域处理，在无需针对每种退化类型重新设计网络结构的情况下，实现了去噪、去模糊和去马赛克等任务中物理一致且最先进的恢复性能。

Chu Zhou, Yufei Han, Junda Liao, Linrui Dai, Wangze Xu, Art Subpa-Asa, Heng Guo, Boxin Shi, Imari Sato2026-03-09💻 cs

Remote Sensing Image Classification Using Deep Ensemble Learning

该论文提出了一种结合卷积神经网络（CNN）与视觉 Transformer（ViT）的集成学习融合模型，通过训练四个独立模型并在预测阶段进行集成，有效克服了单一架构的局限性及冗余特征瓶颈，在 UC Merced、RSSCN7 和 MSRSI 等遥感图像数据集上取得了优于现有方法的分类精度。

Niful Islam, Md. Rayhan Ahmed, Nur Mohammad Fahad, Salekul Islam, A. K. M. Muzahidul Islam, Saddam Mukta, Swakkhar Shatabda2026-03-09🤖 cs.AI

Cog2Gen3D: Sculpturing 3D Semantic-Geometric Cognition for 3D Generation

Cog2Gen3D 提出了一种由 3D 认知引导的扩散框架，通过融合语义与绝对几何信息的认知特征嵌入、3D 潜在认知图及认知引导的潜在扩散机制，解决了现有方法在 3D 生成中缺乏空间几何约束和尺度一致性的问题，显著提升了生成结果的语义保真度与几何合理性。

Haonan Wang, Hanyu Zhou, Haoyue Liu, Tao Gu, Luxin Yan2026-03-09💻 cs

VS3R: Robust Full-frame Video Stabilization via Deep 3D Reconstruction

VS3R 提出了一种结合前馈 3D 重建与生成式视频扩散的框架，通过联合估计相机参数、深度和掩码，并引入混合稳定渲染与双流扩散模型，实现了在极端运动下兼具高鲁棒性与全帧一致性的视频稳定效果。

Muhua Zhu, Xinhao Jin, Yu Zhang, Yifei Xue, Tie Ji, Yizhen Lao2026-03-09💻 cs

Evolving Medical Imaging Agents via Experience-driven Self-skill Discovery

本文提出了 MACRO，一种通过从验证执行轨迹中自主发现并合成可复用复合工具，从而将静态工具组合转变为经验驱动式自我演进的医疗影像智能体，显著提升了多步骤任务编排的准确性与跨域泛化能力。

Lin Fan, Pengyu Dai, Zhipeng Deng, Haolin Wang, Xun Gong, Yefeng Zheng, Yafei Ou2026-03-09🤖 cs.AI

TumorChain: Interleaved Multimodal Chain-of-Thought Reasoning for Traceable Clinical Tumor Analysis

本文提出了 TumorChain 框架，通过构建包含 150 万条思维链标注的大规模多模态数据集 TumorCoT，并采用交错式多模态推理机制，实现了从医学影像发现到病理预测的可追溯、高准确率的临床肿瘤分析。

Sijing Li, Zhongwei Qiu, Jiang Liu, Wenqiao Zhang, Tianwei Lin, Yihan Xie, Jianxiang An, Boxiang Yun, Chenglin Yang, Jun Xiao, Guangyu Guo, Jiawen Yao, Wei Liu, Yuan Gao, Ke Yan, Weiwei Cao, Zhilin Zheng, Tony C. W. Mok, Kai Cao, Yu Shi, Jiuyu Zhang, Jian Zhou, Beng Chin Ooi, Yingda Xia, Ling Zhang2026-03-09💻 cs

PatchCue: Enhancing Vision-Language Model Reasoning with Patch-Based Visual Cues

该论文提出了名为 PatchCue 的新范式，通过将图像划分为补丁并利用补丁级视觉线索替代传统的像素级或纯文本推理，结合两阶段训练策略，显著提升了视觉语言模型在视觉问答、复杂推理及文档理解等任务中的表现。

Yukun Qi, Pei Fu, Hang Li, Yuhan Liu, Chao Jiang, Bin Qin, Zhenbo Luo, Jian Luan2026-03-09💻 cs

Shifting Adaptation from Weight Space to Memory Space: A Memory-Augmented Agent for Medical Image Segmentation

该论文提出了一种名为 MemSeg-Agent 的记忆增强智能体，通过将医学图像分割的适应过程从权重空间转移到记忆空间，利用静态、少样本和测试时工作记忆在无需微调的情况下实现了高效的联邦学习、少样本适应及跨域鲁棒性。

Bowen Chen, Qiaohui Gao, Shaowen Wan, Shanhui Sun, Wei Liu, Xiang Li, Tianming Liu, Lin Zhao2026-03-09💻 cs

Systematic Evaluation of Novel View Synthesis for Video Place Recognition

该论文利用五个公共视频地点识别数据库和七种图像相似度方法，系统评估了合成新视角对视频地点识别的影响，发现少量合成视角能提升识别效果，而在大规模添加时，视角变化的幅度不如添加视角的数量和数据集图像类型重要。

Muhammad Zawad Mahmud, Samiha Islam, Damian Lyons2026-03-09💻 cs

CylinderSplat: 3D Gaussian Splatting with Cylindrical Triplanes for Panoramic Novel View Synthesis

本文提出了 CylinderSplat，一种基于新型圆柱体三平面表示的双分支前馈框架，旨在解决全景图像中遮挡和稀疏视角下的几何重建难题，并在单视图及多视图全景新视图合成任务中实现了最先进的重建质量与几何精度。

Qiwei Wang, Xianghui Ze, Jingyi Yu, Yujiao Shi2026-03-09💻 cs

PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction

PixARMesh 提出了一种基于自回归机制的单视图场景重建方法，能够直接从单张 RGB 图像联合预测物体布局与几何，在无需隐式场或后期优化的情况下，一次性生成连贯且适用于下游应用的高质量 3D 室内网格。

Xiang Zhang, Sohyun Yoo, Hongrui Wu, Chuan Li, Jianwen Xie, Zhuowen Tu2026-03-09🤖 cs.LG

InnoAds-Composer: Efficient Condition Composition for E-Commerce Poster Generation

本文提出了 InnoAds-Composer，一种针对电商海报生成的单阶段框架，通过动态路由机制实现高效的主体、文字和风格三重条件控制，并配合文本特征增强模块与首个联合数据集，显著提升了生成质量与文字准确性，同时保持了较低的推理延迟。

Yuxin Qin, Ke Cao, Haowei Liu, Ao Ma, Fengheng Li, Honghe Zhu, Zheng Zhang, Run Ling, Wei Feng, Xuanhua He, Zhanjie Zhang, Zhen Guo, Haoyi Bian, Jingjing Lv, Junjie Shen, Ching Law2026-03-09💻 cs

Mitigating Bias in Concept Bottleneck Models for Fair and Interpretable Image Classification

该论文针对概念瓶颈模型（CBM）在图像分类中存在的概念信息泄露及性别偏见问题，提出了包括 Top-k 概念过滤、移除偏见概念和对抗性去偏在内的三种缓解技术，显著提升了模型在公平性与性能之间的权衡，推动了可解释且公平图像分类的发展。

Schrasing Tong, Antoine Salaun, Vincent Yuan, Annabel Adeyeri, Lalana Kagal2026-03-09🤖 cs.LG

CollabOD: Collaborative Multi-Backbone with Cross-scale Vision for UAV Small Object Detection

该论文提出了一种名为 CollabOD 的轻量级协同检测框架，通过结构细节保持、跨路径特征对齐及定位感知轻量化设计，有效解决了无人机图像中小目标检测中因尺度变化、细节退化及资源受限导致的定位不稳定和鲁棒性不足问题。

Xuecheng Bai, Yuxiang Wang, Chuanzhi Xu, Boyu Hu, Kang Han, Ruijie Pan, Xiaowei Niu, Xiaotian Guan, Liqiang Fu, Pengfei Ye2026-03-09💻 cs

Beyond Geometry: Artistic Disparity Synthesis for Immersive 2D-to-3D

该论文针对现有 2D 转 3D 技术缺乏艺术表现力的问题，提出了以“艺术视差合成”为核心的新范式及 Art3D 框架，通过解耦全局深度意图与局部艺术笔触，实现了从追求几何精确性向构建沉浸式电影级 3D 体验的转变。

Ping Chen, Zezhou Chen, Xingpeng Zhang, Yanlin Qian, Huan Hu, Xiang Liu, Zipeng Wang, Xin Wang, Zhaoxiang Liu, Kai Wang, Shiguo Lian2026-03-09💻 cs