Seeing the Forest and the Trees: Query-Aware Tokenizer for Long-Video Multimodal Language Models
Il paper presenta QTSplus, un modulo leggero di selezione dei token visivi che, analizzando la query testuale, riduce drasticamente i costi computazionali e la latenza nell'analisi di video lunghi mantenendo o migliorando le prestazioni di localizzazione temporale e comprensione rispetto ai modelli originali.