Whispering to a Blackbox: Bootstrapping Frozen OCR with Visual Prompts
Diese Arbeit stellt „Whisperer" vor, ein neuartiges visuelles Prompting-Framework, das durch einen vierstufigen Curriculum-Lernansatz und Verhaltensklonierung stochastisch gefundene Verbesserungen nutzt, um eingefrorene OCR-Modelle wie EasyOCR durch pixelbasierte Eingabeoptimierung ohne Gewichtsänderung signifikant zu verbessern.