MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning
Le papier présente MemOCR, un agent de mémoire multimodal qui améliore le raisonnement à long terme sous contraintes de contexte en convertissant l'historique des interactions en une image structurée qui priorise visuellement les informations cruciales tout en compressant les détails superflus.