SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models
Este artigo apresenta o SCAM, o maior e mais diversificado conjunto de dados de ataques tipográficos do mundo real, demonstrando que tais ataques comprometem significativamente o desempenho dos modelos fundacionais multimodais e fornecendo insights sobre como a arquitetura do modelo e o uso de backbones de linguagem maiores podem mitigar essa vulnerabilidade.