HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit
Das Paper stellt HiDrop vor, ein Framework für Multimodale Large Language Models, das durch späte Injektion visueller Tokens, konvexe Pyramiden-Pruning mit Early-Exit-Mechanismus und weitere Optimierungen etwa 90 % der visuellen Tokens reduziert und dabei die Leistung beibehält sowie das Training um das 1,72-fache beschleunigt.