From Semantics to Pixels: Coarse-to-Fine Masked Autoencoders for Hierarchical Visual Understanding
Contrastive 学習とマスク画像モデルの課題を解決するため、セマンティック・インスタンス・ピクセルの 3 段階の粒度で階層的視覚表現を学習し、大規模なマルチ粒度データセットを用いた C2FMAE が、画像分類・物体検出・セマンティックセグメンテーションにおいて顕著な性能向上を実現したことを提案する論文です。