AVGGT: Rethinking Global Attention for Accelerating VGGT
Die Arbeit stellt AVGGT vor, eine trainingsfreie Zwei-Schritt-Strategie, die durch die Umwandlung früher globaler Aufmerksamkeitsschichten in Frame-Attention und ein Subsampling von K/V-Tokens die Inferenzgeschwindigkeit von VGGT und um das 2- bis 10-fache steigert, ohne dabei die Genauigkeit in dichten Multi-View-Szenarien zu beeinträchtigen.