Think, Then Verify: A Hypothesis-Verification Multi-Agent Framework for Long Video Understanding
Das Paper stellt VideoHV-Agent vor, ein Multi-Agenten-Framework für das Verständnis langer Videos, das durch einen strukturierten Hypothesen-Verifikationsprozess, bei dem ein „Denker" Antworten in testbare Hypothesen umwandelt und ein „Prüfer" diese mit detaillierten Videoinhalten verifiziert, die Genauigkeit, Interpretierbarkeit und Recheneffizienz im Vergleich zu bestehenden Methoden verbessert.