cs.CV 篇论文 | Gist.Science

M3GCLR: Multi-View Mini-Max Infinite Skeleton-Data Game Contrastive Learning For Skeleton-Based Action Recognition

本文提出了 M3GCLR 框架，通过建立无限骨架数据博弈模型、引入多视角旋转增强与时间平均锚点、构建强对抗极小极大博弈及双损失均衡优化器，有效解决了现有自监督骨架动作识别方法在视角差异建模、对抗机制及增强扰动控制方面的局限，并在多个基准数据集上取得了优于或持平最先进水平的性能。

Yanshan Li, Ke Ma, Miaomiao Wei, Linhui Dai2026-03-11🤖 cs.AI

MIL-PF: Multiple Instance Learning on Precomputed Features for Mammography Classification

该论文提出了一种名为 MIL-PF 的可扩展框架，通过结合冻结的基础模型编码器与轻量级的注意力机制多示例学习（MIL）聚合模块，在无需重新训练大型骨干网络的情况下，利用预计算特征高效解决了高分辨率乳腺 X 光影像分类中注释稀缺和计算成本高昂的挑战，并实现了临床规模下的最佳分类性能。

Nikola Jovišic, Milica Škipina, Nicola Dall'Asen, Dubravko Culibrk2026-03-11🤖 cs.AI

SinGeo: Unlock Single Model's Potential for Robust Cross-View Geo-Localization

SinGeo 提出了一种无需额外模块或显式变换的简单框架，通过双判别学习架构和首创的课程学习策略，使单一模型能够克服现有方法在未见视角和方向上的局限性，实现了在多种条件下的鲁棒跨视角地理定位并取得了最先进性能。

Yang Chen, Xieyuanli Chen, Junxiang Li, Jie Tang, Tao Wu2026-03-11💻 cs

EventVGGT: Exploring Cross-Modal Distillation for Consistent Event-based Depth Estimation

本文提出了 EventVGGT 框架，通过将事件流建模为连贯视频序列，并首创从视觉几何基础模型（VGGT）中蒸馏时空与多视图几何先验的三级策略，有效解决了现有无监督事件深度估计方法因忽略时间连续性而导致的预测不一致问题，显著提升了深度估计精度与泛化能力。

Yinrui Ren, Jinjing Zhu, Kanghao Chen, Zhuoxiao Li, Jing Ou, Zidong Cao, Tongyan Hua, Peilun Shi, Yingchun Fu, Wufan Zhao, Hui Xiong2026-03-11💻 cs

Training-Free Coverless Multi-Image Steganography with Access Control

本文提出了一种名为 MIDAS 的免训练扩散模型框架，通过随机基机制和潜在向量融合技术，实现了具备用户特定访问控制功能的无载体多图像隐写，在保障图像质量与多样性的同时显著提升了抗隐写分析能力和访问控制安全性。

Minyeol Bae, Si-Hyeon Lee2026-03-11💻 cs

ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts

本文介绍了 ICDAR 2025 端到端文档图像机器翻译竞赛，该竞赛通过 OCR 免提与 OCR 辅助两个赛道及不同规模模型子任务，吸引了 69 支团队参与，旨在推动复杂版本文档翻译研究并展示了大模型在该领域的巨大潜力。

Yaping Zhang, Yupu Liang, Zhiyang Zhang, Zhiyuan Chen, Lu Xiang, Yang Zhao, Yu Zhou, Chengqing Zong2026-03-11🤖 cs.AI

YOLO-NAS-Bench: A Surrogate Benchmark with Self-Evolving Predictors for YOLO Architecture Search

本文提出了首个专为 YOLO 系列目标检测器设计的代理基准 YOLO-NAS-Bench，通过引入自进化机制优化预测器性能，有效解决了 YOLO 架构搜索中评估成本高昂的瓶颈问题。

Zhe Li, Xiaoyu Ding, Jiaxin Zheng, Yongtao Wang2026-03-11💻 cs

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

该论文提出了全卷积扩散模型（FCDM），通过采用类似 ConvNeXt 的骨干网络，在显著降低计算成本、训练步数和硬件需求的同时，实现了与主流 Transformer 架构相媲美的生成性能，从而证明了现代卷积设计是高效扩展扩散模型的有效替代方案。

Taesung Kwon, Lorenzo Bianchi, Lennart Wittke, Felix Watine, Fabio Carrara, Jong Chul Ye, Romann Weber, Vinicius Azevedo2026-03-11🤖 cs.AI

RiO-DETR: DETR for Real-time Oriented Object Detection

本文提出了首个面向实时旋转目标检测的 Transformer 模型 RiO-DETR，通过内容驱动角度估计、解耦周期细化及面向旋转的密集监督等创新设计，有效解决了旋转检测中的语义依赖、角度周期性及搜索空间扩大等挑战，在多个基准数据集上实现了速度与精度的新平衡。

Zhangchi Hu, Yifan Zhao, Yansong Peng, Wenzhang Sun, Xiangchen Yin, Jie Chen, Peixi Wu, Hebei Li, Xinghao Wang, Dongsheng Jiang, Xiaoyan Sun2026-03-11💻 cs

PromptDLA: A Domain-aware Prompt Document Layout Analysis Framework with Descriptive Knowledge as a Cue

该论文提出了 PromptDLA，一种利用描述性知识作为线索、通过定制化提示将领域先验融入文档布局分析（DLA）的框架，有效解决了跨域数据直接合并训练导致的性能瓶颈，并在多个主流数据集上取得了最先进（SOTA）的泛化性能。

Zirui Zhang, Yaping Zhang, Lu Xiang, Yang Zhao, Feifei Zhai, Yu Zhou, Chengqing Zong2026-03-11🤖 cs.AI

CIGPose: Causal Intervention Graph Neural Network for Whole-Body Pose Estimation

CIGPose 提出了一种基于结构因果模型的因果干预图神经网络框架，通过识别并替换受视觉上下文混淆的关节点表示，结合分层图神经网络强制解剖合理性，从而在 COCO-WholeBody 数据集上实现了超越现有方法的鲁棒性与精度。

Bohao Li, Zhicheng Cao, Huixian Li, Yangming Guo2026-03-11💻 cs

MetaDAT: Generalizable Trajectory Prediction via Meta Pre-training and Data-Adaptive Test-Time Updating

该论文提出了 MetaDAT 框架，通过元预训练优化预测器以适应快速在线更新，并结合基于在线梯度与难例选择的数据自适应机制动态调整学习率与更新频率，从而在跨数据集分布偏移场景下显著提升了轨迹预测的泛化能力与鲁棒性。

Yuning Wang, Pu Zhang, Yuan He, Ke Wang, Jianru Xue2026-03-11💻 cs

Open-World Motion Forecasting

该论文提出了“开放世界运动预测”这一新范式，通过构建首个端到端类增量运动预测框架，利用伪标签策略和基于查询特征方差的重放采样机制，在从相机图像直接预测轨迹的同时有效缓解了灾难性遗忘，实现了自动驾驶系统在动态变化环境中的持续适应与零样本迁移。

Nicolas Schischka, Nikhil Gosala, B Ravi Kiran, Senthil Yogamani, Abhinav Valada2026-03-11🤖 cs.AI

GIIM: Graph-based Learning of Inter- and Intra-view Dependencies for Multi-view Medical Image Diagnosis

本文提出了一种名为 GIIM 的基于图的学习框架，通过同时建模多视角医学图像中病灶的视图内依赖关系与跨视图动态变化，并有效处理缺失数据，显著提升了计算机辅助诊断的准确性与鲁棒性。

Tran Bao Sam, Hung Vu, Dao Trung Kien, Tran Dat Dang, Van Ha Tang, Steven Truong2026-03-11💻 cs

A Guideline-Aware AI Agent for Zero-Shot Target Volume Auto-Delineation

本文提出了一种名为 OncoAgent 的新型指南感知 AI 代理框架，它能够将文本临床指南直接转化为三维靶区轮廓，在无需重新训练的情况下实现了食管癌等病例的零-shot 自动勾画，其性能媲美全监督基线模型且更受临床医生在指南依从性和可接受性方面的青睐。

Yoon Jo Kim, Wonyoung Cho, Jongmin Lee, Han Joo Chae, Hyunki Park, Sang Hoon Seo, Noh Jae Myung, Kyungmi Yang, Dongryul Oh, Jin Sung Kim2026-03-11🤖 cs.AI

EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation

本文提出了 EvoDriveVLA，一种通过自锚点感知蒸馏和神谕引导轨迹蒸馏实现感知与规划协同优化的新型视觉 - 语言 - 动作模型，有效解决了自动驾驶中视觉编码器解冻后的感知退化及长期规划累积不稳定问题，并在开环和闭环评估中取得了最先进性能。

Jiajun Cao, Xiaoan Zhang, Xiaobao Wei, Liyuqiu Huang, Wang Zijian, Hanzhen Zhang, Zhengyu Jia, Wei Mao, Hao Wang, Xianming Liu, Shuchang Zhou Liu, Yang Wang, Shanghang Zhang2026-03-11🤖 cs.AI

TopoOR: A Unified Topological Scene Representation for the Operating Room

本文提出了 TopoOR，一种基于高阶拓扑结构的多模态手术室场景统一表示方法，通过保留实体间的成对及群组关系和流形几何特征，在无菌违规检测、机器人阶段预测及后续动作预判等任务中显著超越了传统的图神经网络和大语言模型基线。

Tony Danjun Wang, Ka Young Kim, Tolga Birdal, Nassir Navab, Lennart Bastian2026-03-11💻 cs

The Patrologia Graeca Corpus: OCR, Annotation, and Open Release of Noisy Nineteenth-Century Polytonic Greek Editions

本文介绍了 Patrologia Graeca 语料库，这是首个针对十九世纪复杂双语排版及退化多音调希腊文版《希腊教父集》的大规模开放 OCR 与语言学资源，通过专用流水线实现了极低错误率的文本识别，并提供了约六百万个标注词元，为古典希腊语研究及未来大语言模型训练确立了新的基准。

Chahan Vidal-Gorène (CJM, LIPN), Bastien Kindt2026-03-11💻 cs

OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks

该论文提出了 OmniEarth 基准，这是一个包含 28 项细粒度任务、多源遥感数据及严格盲测协议的综合评估框架，旨在系统评估视觉语言模型在感知、推理和鲁棒性方面的地学任务能力，并揭示了现有模型在复杂地理空间场景中的显著差距。

Ronghao Fu, Haoran Liu, Weijie Zhang, Zhiwen Lin, Xiao Yang, Peng Zhang, Bo Yang2026-03-11💻 cs

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

本文提出了无需训练的 PruneSID 框架，通过协同重要性分析与多样性保持的两阶段策略及动态压缩机制，在显著降低视觉语言模型计算开销的同时实现了卓越的压缩性能与跨模态泛化能力。

Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Guangming Lu, Jun Yu, Wenjie Pei2026-03-11💻 cs