MSJoE: Jointly Evolving MLLM and Sampler for Efficient Long-Form Video Understanding
El artículo presenta MSJoE, un marco novedoso que optimiza conjuntamente un modelo de lenguaje multimodal y un muestreador de fotogramas clave mediante aprendizaje por refuerzo para lograr una comprensión eficiente de videos largos, logrando mejoras significativas en precisión sobre los métodos existentes.