MSJoE: Jointly Evolving MLLM and Sampler for Efficient Long-Form Video Understanding
Die Arbeit stellt MSJoE vor, ein neuartiges Framework, das durch die gemeinsame Optimierung eines Multimodal Large Language Models und eines leichten Keyframe-Samplers mittels Reinforcement Learning die effiziente Verarbeitung langer Videos ermöglicht und dabei auf einem neuen Datensatz sowie mehreren Benchmarks signifikante Genauigkeitssteigerungen erzielt.