EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning
O artigo apresenta o EXPLORE-Bench, um novo benchmark derivado de vídeos em primeira pessoa para avaliar a capacidade de modelos de linguagem multimodal em prever cenas finais após sequências longas de ações, revelando uma lacuna significativa em relação ao desempenho humano e demonstrando que a decomposição passo a passo das ações pode melhorar o raciocínio a longo prazo, embora com custos computacionais adicionais.