Measuring the Measurers: Quality Evaluation of Hallucination Benchmarks for Large Vision-Language Models
Este artigo propõe o framework HQM para avaliar a confiabilidade e validade de benchmarks existentes de alucinação em Modelos Visuais-Linguísticos de Grande Escala (LVLMs), identificando suas limitações e introduzindo o benchmark HQH, de alta qualidade, que revela graves problemas de alucinação nessas arquiteturas.