Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations
Das Paper stellt Concerto vor, ein minimalistisches, durch 2D-3D-Selbstüberwachtes Lernen inspiriertes Modell, das überlegene räumliche Repräsentationen lernt und damit neue State-of-the-Ergebnisse in der 3D-Szenenverständnis erreicht.