OCR-Agent: Agentic OCR with Capability and Memory Reflection
Das Paper stellt OCR-Agent vor, einen neuartigen iterativen Selbstkorrektur-Rahmen für Large Vision-Language Models, der durch die Kombination von Capability Reflection und Memory Reflection die Fehlerbehebung verbessert und auf dem OCRBench v2-Benchmark neue State-of-the-Art-Ergebnisse erzielt, ohne zusätzliches Training zu benötigen.