Beyond Sequential Distance: Inter-Modal Distance Invariant Position Encoding
Die Arbeit stellt DIPE vor, eine neue Positionenkodierung, die das Problem des visuellen Verblassens in multimodalen Großsprachmodellen bei langen Kontexten löst, indem sie die durch Multimodal-RoPE verursachte Bestrafung intermodaler Aufmerksamkeit aufhebt und so eine stabile visuelle Verankerung unabhängig von der Textlänge gewährleistet.