Escaping The Big Data Paradigm in Self-Supervised Representation Learning
Die Arbeit stellt SCOTT und MIM-JEPA vor, eine Architektur und Trainingsmethode, die es Vision-Transformern ermöglicht, auch mit stark begrenzten Daten und Rechenressourcen robuste Repräsentationen zu erlernen und so die Abhängigkeit von großen Datensätzen in der selbstüberwachten Bildverarbeitung überwindet.