AMR-CCR: Anchored Modular Retrieval for Continual Chinese Character Recognition

本文针对古汉字识别中非平稳的持续学习挑战,提出了 AMR-CCR 锚定模块化检索框架,通过共享多模态空间中的基于嵌入的字典匹配、脚本条件注入模块及多原型字典,实现了可扩展的增量学习与风格多样性建模,并构建了包含六个阶段的 EvoCON 基准数据集以支持系统评估。

Yuchuan Wu, Yinglian Zhu, Haiyang Yu, Ke Niu, Bin Li, Xiangyang Xue2026-03-10💻 cs

A Unified View of Drifting and Score-Based Models

本文通过利用 Tweedie 公式,精确揭示了漂移模型(Drifting)与基于分数的扩散模型之间的内在联系,证明了高斯核漂移等价于在平滑分布上进行分数匹配,并进一步推导了通用径向核的分解形式及拉普拉斯核在低温和高维情形下的误差界,从而为理解漂移模型与分布匹配蒸馏(DMD)提供了统一的理论视角。

Chieh-Hsin Lai, Bac Nguyen, Naoki Murata, Yuhta Takida, Toshimitsu Uesaka, Yuki Mitsufuji, Stefano Ermon, Molei Tao2026-03-10🤖 cs.LG

EvolveReason: Self-Evolving Reasoning Paradigm for Explainable Deepfake Facial Image Identification

本文提出了 EvolveReason 框架,通过构建人类审计式的思维链数据集、捕捉伪造潜在空间分布以及引入基于强化学习的自进化探索策略,有效解决了现有深度伪造人脸检测方法中缺乏可解释性、易产生幻觉及细节不足的问题,实现了兼具高精度识别与可靠细粒度解释的通用解决方案。

Binjia Zhou, Dawei Luo, Shuai Chen, Feng Xu, Seow, Haoyuan Li, Jiachi Wang, Jiawen Wang, Zunlei Feng, Yijun Bei2026-03-10💻 cs

SketchGraphNet: A Memory-Efficient Hybrid Graph Transformer for Large-Scale Sketch Corpora Recognition

该论文提出了一种名为 SketchGraphNet 的混合图神经网络架构,通过结合局部消息传递与内存高效的全局注意力机制,在无需辅助编码的情况下直接处理大规模手绘草图图结构,并构建了包含 344 万样本的 SketchGraph 基准数据集,实现了高精度识别并显著降低了显存占用与训练时间。

Shilong Chen, Mingyuan Li, Zhaoyang Wang, Zhonglin Ye, Haixing Zhao2026-03-10💻 cs

Scale-Aware UAV-to-Satellite Cross-View Geo-Localization: A Semantic Geometric Approach

该论文提出了一种利用语义锚点(小车辆)和解耦立体投影模型从单目无人机图像中恢复绝对度量尺度的几何框架,通过物理约束实现尺度自适应的卫星图像裁剪,从而显著提升了跨视角地理定位在真实场景尺度未知情况下的鲁棒性。

Yibin Ye, Shuo Chen, Kun Wang, Xiaokai Song, Jisheng Dang, Qifeng Yu, Xichao Teng, Zhang Li2026-03-10💻 cs

How Long Can Unified Multimodal Models Generate Images Reliably? Taming Long-Horizon Interleaved Image Generation via Context Curation

该论文提出了一种名为 UniLongGen 的训练-free 推理策略,通过动态筛选并丢弃干扰性视觉信号来主动“遗忘”历史图像,从而解决统一多模态模型在生成长序列图文内容时因视觉信息累积污染而导致的质量崩溃问题。

Haoyu Chen, Qing Liu, Yuqian Zhou, He Zhang, Zhaowen Wang, Mengwei Ren, Jingjing Ren, Xiang Wang, Zhe Lin, Lei Zhu2026-03-10💻 cs

CONSTANT: Towards High-Quality One-Shot Handwriting Generation with Patch Contrastive Enhancement and Style-Aware Quantization

本文提出了名为 CONSTANT 的基于扩散模型的单样本手写生成方法,通过引入风格感知量化、对比学习目标以及潜在空间补丁对比增强三大创新,有效解决了从单张参考图像中捕捉复杂手写风格特征并生成高质量、细节逼真手写图像的难题。

Anh-Duy Le, Van-Linh Pham, Thanh-Nam Vo, Xuan Toan Mai, Tuan-Anh Tran2026-03-10💻 cs

ReconDrive: Fast Feed-Forward 4D Gaussian Splatting for Autonomous Driving Scene Reconstruction

ReconDrive 提出了一种基于 VGGT 基础模型改进的快馈前向框架,通过混合高斯预测头和解耦静态动态 4D 组合策略,在 nuScenes 数据集上实现了兼具高保真度与实时性的自动驾驶场景 4D 高斯泼溅重建,有效解决了现有方法在可扩展性与图像质量之间的权衡难题。

Haibao Yu, Kuntao Xiao, Jiahang Wang, Ruiyang Hao, Yuxin Huang, Guoran Hu, Haifang Qin, Bowen Jing, Yuntian Bo, Ping Luo2026-03-10💻 cs

SiamGM: Siamese Geometry-Aware and Motion-Guided Network for Real-Time Satellite Video Object Tracking

该论文提出了 SiamGM,一种专为卫星视频设计的实时单目标跟踪网络,它通过空间上的帧间图注意力与纵横比约束标签分配模块,以及时间上的运动矢量引导在线优化策略,有效解决了小目标、背景模糊及遮挡等挑战,在保持极低计算开销的同时实现了 130 FPS 的实时跟踪性能并显著提升了精度。

Zixiao Wen, Zhen Yang, Jiawei Li, Xiantai Xiang, Guangyao Zhou, Yuxin Hu, Yuhan Liu2026-03-10💻 cs

GRD-Net: Generative-Reconstructive-Discriminative Anomaly Detection with Region of Interest Attention Module

本文提出了一种名为 GRD-Net 的新型异常检测架构,该架构结合基于残差自编码器的生成对抗网络与区域兴趣(ROI)注意力模块,通过利用正常样本及合成缺陷数据进行训练,实现了无需复杂后处理算法即可精准定位工业表面缺陷(如药瓶铝盖)的异常检测。

Niccolò Ferrari, Michele Fraccaroli, Evelina Lamma2026-03-10🤖 cs.LG