Beyond Sequential Distance: Inter-Modal Distance Invariant Position Encoding
Il paper propone DIPE, un nuovo metodo di codifica posizionale che risolve il problema del "visual fading" nei modelli multimodali a lungo contesto, eliminando la penalità delle distanze inter-modali tipica del Multimodal RoPE e garantendo così una stabilità nel grounding visivo senza compromettere le prestazioni su contesti brevi.