OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets
Este estudio demuestra que, en la era de los Modelos de Lenguaje Multimodales (MLLM), es posible extraer información de documentos complejos sin necesidad de OCR, logrando un rendimiento comparable mediante el uso de entradas de imagen puras optimizadas con esquemas y ejemplos cuidadosamente diseñados.