Whispering to a Blackbox: Bootstrapping Frozen OCR with Visual Prompts
Este artigo apresenta o Whisperer, um framework de prompting visual que utiliza um pré-processador baseado em difusão e um currículo de clonagem comportamental para melhorar significativamente a precisão de modelos OCR congelados ao aprender a transformar pixel a pixel imagens degradadas, reduzindo a taxa de erro de caracteres em 8% sem ajustar os pesos do modelo original.