Beyond Sequential Distance: Inter-Modal Distance Invariant Position Encoding
El artículo propone DIPE, un mecanismo de codificación posicional que mitiga el desvanecimiento visual en modelos de lenguaje multimodal de gran contexto al eliminar la penalización basada en la distancia entre tokens visuales y textuales, garantizando así una conexión visual estable sin sacrificar el rendimiento en tareas de contexto corto.