MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning
Ce papier présente MM-CondChain, un nouveau benchmark vérifiable programmatically conçu pour évaluer la capacité des modèles de langage multimodaux à effectuer un raisonnement compositionnel profond et enchaîné basé sur des preuves visuelles, révélant ainsi des lacunes significatives des modèles actuels face à cette complexité.