Maximizing Generalization: The Effect of Different Augmentation Techniques on Lightweight Vision Transformer for Bengali Character Classification

该研究通过评估多种图像增强技术对轻量级 EfficientViT 模型在资源受限的孟加拉语手写字符分类任务中的影响,发现随机仿射变换与颜色抖动相结合的策略在 Ekush 和 AIBangla 数据集上取得了最佳分类准确率,有效解决了小样本场景下的过拟合问题。

Rafi Hassan Chowdhury, Naimul Haque, Kaniz Fatiha2026-03-04💻 cs

Towards an Incremental Unified Multimodal Anomaly Detection: Augmenting Multimodal Denoising From an Information Bottleneck Perspective

本文针对增量统一多模态异常检测中因忽略虚假和冗余特征而导致的灾难性遗忘问题,提出了一种结合 Mamba 解码器与信息瓶颈融合模块的新型去噪框架 IB-IUMAD,通过解耦特征耦合与过滤冗余信息,有效实现了在持续学习新类别的同时保留先验知识。

Kaifang Long, Lianbo Ma, Jiaqi Liu + 2 more2026-03-04💻 cs

VisionCreator: A Native Visual-Generation Agentic Model with Understanding, Thinking, Planning and Creation

本文提出了名为 VisionCreator 的原生视觉生成智能体模型,通过构建高质量数据、采用渐进式专业化训练与虚拟强化学习策略,并建立综合基准测试,实现了理解、思考、规划与创作(UTPC)能力的端到端统一,在多项评估中展现出超越更大规模闭源模型的卓越性能。

Jinxiang Lai, Zexin Lu, Jiajun He + 11 more2026-03-04💻 cs