Lost in Stories: Consistency Bugs in Long Story Generation by LLMs
Este artigo apresenta o ConStory-Bench, um novo benchmark e pipeline automatizado (ConStory-Checker) projetados para avaliar e detectar erros de consistência em narrativas longas geradas por Grandes Modelos de Linguagem, identificando padrões específicos de falhas factuais e temporais que ocorrem frequentemente no meio das histórias.