Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments
Die Studie zeigt, dass aktuelle multimodale Basis-Modelle bei der Identifizierung kontextuell wichtiger Momente in Fußballvideos kaum besser als Zufall sind, da sie oft auf eine einzelne dominante Modalität angewiesen sind und keine effektive Synthese aus mehreren Quellen leisten, was den Bedarf an modularen Architekturen und ergänzenden Trainingsverfahren unterstreicht.