Image Captioning via Compact Bidirectional Architecture
Die vorgestellte Arbeit stellt ein kompaktes bidirektionales Transformer-Modell für die Bildbeschriftung vor, das durch die parallele Kopplung von links-rechts- und rechts-links-Flüssen sowohl implizit als auch explizit bidirektionale Kontexte nutzt und durch Satz- und Wortebene-Ensemble-Methoden neue State-of-the-Art-Ergebnisse auf dem MSCOCO-Datensatz erzielt.