iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models
Het paper introduceert iLLaVA, een methode die Large Multimodal Models versnelt door visuele redundantie al bij de image encoder te reduceren en nuttige informatie van verwijderde tokens te recyclen, wat leidt tot aanzienlijke snelheidswinst en hogere efficiëntie zonder in te leveren op prestaties.