M3GCLR: Multi-View Mini-Max Infinite Skeleton-Data Game Contrastive Learning For Skeleton-Based Action Recognition

本文提出了 M3GCLR 框架,通过建立无限骨架数据博弈模型、引入多视角旋转增强与时间平均锚点、构建强对抗极小极大博弈及双损失均衡优化器,有效解决了现有自监督骨架动作识别方法在视角差异建模、对抗机制及增强扰动控制方面的局限,并在多个基准数据集上取得了优于或持平最先进水平的性能。

Yanshan Li, Ke Ma, Miaomiao Wei, Linhui Dai2026-03-11🤖 cs.AI

MIL-PF: Multiple Instance Learning on Precomputed Features for Mammography Classification

该论文提出了一种名为 MIL-PF 的可扩展框架,通过结合冻结的基础模型编码器与轻量级的注意力机制多示例学习(MIL)聚合模块,在无需重新训练大型骨干网络的情况下,利用预计算特征高效解决了高分辨率乳腺 X 光影像分类中注释稀缺和计算成本高昂的挑战,并实现了临床规模下的最佳分类性能。

Nikola Jovišic, Milica Škipina, Nicola Dall'Asen, Dubravko Culibrk2026-03-11🤖 cs.AI

EventVGGT: Exploring Cross-Modal Distillation for Consistent Event-based Depth Estimation

本文提出了 EventVGGT 框架,通过将事件流建模为连贯视频序列,并首创从视觉几何基础模型(VGGT)中蒸馏时空与多视图几何先验的三级策略,有效解决了现有无监督事件深度估计方法因忽略时间连续性而导致的预测不一致问题,显著提升了深度估计精度与泛化能力。

Yinrui Ren, Jinjing Zhu, Kanghao Chen, Zhuoxiao Li, Jing Ou, Zidong Cao, Tongyan Hua, Peilun Shi, Yingchun Fu, Wufan Zhao, Hui Xiong2026-03-11💻 cs

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

该论文提出了全卷积扩散模型(FCDM),通过采用类似 ConvNeXt 的骨干网络,在显著降低计算成本、训练步数和硬件需求的同时,实现了与主流 Transformer 架构相媲美的生成性能,从而证明了现代卷积设计是高效扩展扩散模型的有效替代方案。

Taesung Kwon, Lorenzo Bianchi, Lennart Wittke, Felix Watine, Fabio Carrara, Jong Chul Ye, Romann Weber, Vinicius Azevedo2026-03-11🤖 cs.AI

RiO-DETR: DETR for Real-time Oriented Object Detection

本文提出了首个面向实时旋转目标检测的 Transformer 模型 RiO-DETR,通过内容驱动角度估计、解耦周期细化及面向旋转的密集监督等创新设计,有效解决了旋转检测中的语义依赖、角度周期性及搜索空间扩大等挑战,在多个基准数据集上实现了速度与精度的新平衡。

Zhangchi Hu, Yifan Zhao, Yansong Peng, Wenzhang Sun, Xiangchen Yin, Jie Chen, Peixi Wu, Hebei Li, Xinghao Wang, Dongsheng Jiang, Xiaoyan Sun2026-03-11💻 cs

PromptDLA: A Domain-aware Prompt Document Layout Analysis Framework with Descriptive Knowledge as a Cue

该论文提出了 PromptDLA,一种利用描述性知识作为线索、通过定制化提示将领域先验融入文档布局分析(DLA)的框架,有效解决了跨域数据直接合并训练导致的性能瓶颈,并在多个主流数据集上取得了最先进(SOTA)的泛化性能。

Zirui Zhang, Yaping Zhang, Lu Xiang, Yang Zhao, Feifei Zhai, Yu Zhou, Chengqing Zong2026-03-11🤖 cs.AI

A Guideline-Aware AI Agent for Zero-Shot Target Volume Auto-Delineation

本文提出了一种名为 OncoAgent 的新型指南感知 AI 代理框架,它能够将文本临床指南直接转化为三维靶区轮廓,在无需重新训练的情况下实现了食管癌等病例的零-shot 自动勾画,其性能媲美全监督基线模型且更受临床医生在指南依从性和可接受性方面的青睐。

Yoon Jo Kim, Wonyoung Cho, Jongmin Lee, Han Joo Chae, Hyunki Park, Sang Hoon Seo, Noh Jae Myung, Kyungmi Yang, Dongryul Oh, Jin Sung Kim2026-03-11🤖 cs.AI

EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation

本文提出了 EvoDriveVLA,一种通过自锚点感知蒸馏和神谕引导轨迹蒸馏实现感知与规划协同优化的新型视觉 - 语言 - 动作模型,有效解决了自动驾驶中视觉编码器解冻后的感知退化及长期规划累积不稳定问题,并在开环和闭环评估中取得了最先进性能。

Jiajun Cao, Xiaoan Zhang, Xiaobao Wei, Liyuqiu Huang, Wang Zijian, Hanzhen Zhang, Zhengyu Jia, Wei Mao, Hao Wang, Xianming Liu, Shuchang Zhou Liu, Yang Wang, Shanghang Zhang2026-03-11🤖 cs.AI

The Patrologia Graeca Corpus: OCR, Annotation, and Open Release of Noisy Nineteenth-Century Polytonic Greek Editions

本文介绍了 Patrologia Graeca 语料库,这是首个针对十九世纪复杂双语排版及退化多音调希腊文版《希腊教父集》的大规模开放 OCR 与语言学资源,通过专用流水线实现了极低错误率的文本识别,并提供了约六百万个标注词元,为古典希腊语研究及未来大语言模型训练确立了新的基准。

Chahan Vidal-Gorène (CJM, LIPN), Bastien Kindt2026-03-11💻 cs