Modality Collapse as Mismatched Decoding: Information-Theoretic Limits of Multimodal LLMs
Diese Arbeit erklärt das Phänomen des Modality Collapse in multimodalen LLMs als Informationsverlust durch fehlende Übereinstimmung zwischen Quell- und Textdaten, wobei die zugängliche Information durch die Generalisierte Gegenseitige Information begrenzt ist und primär vom Trainingsziel des Decoders abhängt, nicht von der Encoder-Architektur.