Grounding the Score: Explicit Visual Premise Verification for Reliable Vision-Language Process Reward Models
Dit paper introduceert EVPV, een lichtgewicht verificatiemethode die de betrouwbaarheid van visuele premisses expliciet koppelt aan de scoring van redeneerstappen in Vision-Language Process Reward Models, waardoor perceptuele onzekerheid wordt ontkoppeld van logische evaluatie en de prestaties bij het herschikken van kandidaten significant worden verbeterd.