PresentBench: A Fine-Grained Rubric-Based Benchmark for Slide Generation

O artigo apresenta o PresentBench, um novo benchmark baseado em rubricas de verificação detalhada para avaliação de geração automatizada de slides, que supera os métodos existentes em confiabilidade e alinhamento com preferências humanas, demonstrando também o desempenho superior do NotebookLM nessa tarefa.

Xin-Sheng Chen, Jiayu Zhu, Pei-lin Li, Hanzheng Wang, Shuojin Yang, Meng-Hao Guo

Publicado 2026-03-10
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você precisa preparar uma apresentação importante para a empresa ou para a faculdade. Antigamente, você teria que ler centenas de páginas de documentos, escolher as melhores fotos, organizar os gráficos e escrever os textos, tudo isso gastando horas e muita energia mental.

Hoje, a Inteligência Artificial (IA) promete fazer isso por você em segundos. Mas surge um grande problema: como sabemos se o trabalho da IA é realmente bom?

É aqui que entra o PresentBench, o tema deste novo estudo da Universidade Tsinghua. Vamos explicar como funciona usando uma analogia simples.

O Problema: O "Chefe" que não lê os detalhes

Até agora, para avaliar se uma IA fez um bom slide, usávamos métodos parecidos com um chefe que olha a apresentação de relance e diz: "Hmm, parece bonito, nota 8" ou "Acho que faltou algo, nota 6".

O problema é que esse "chefe" (que geralmente é outra IA) não lê os detalhes. Ele não verifica se os números estão corretos, se a fonte do texto bate com o documento original ou se a estrutura faz sentido. É como avaliar um bolo apenas pelo cheiro, sem provar se o açúcar não queimou ou se o bolo está cru no meio.

A Solução: O "Checklist" Infalível

Os pesquisadores criaram o PresentBench para mudar essa regra. Em vez de dar uma nota geral e vaga, eles criaram um sistema de avaliação baseada em um checklist detalhado.

Pense no PresentBench como um inspetor de qualidade rigoroso que chega com uma prancheta gigante contendo mais de 50 perguntas específicas para cada slide gerado.

Aqui está como esse inspetor funciona, dividido em 5 áreas principais:

  1. A Estrutura da Casa (Fundamentos): O slide tem um título claro? A história faz sentido do início ao fim? É fácil de ler?
  2. A Decoração (Design Visual): As cores combinam? O texto não está "espremido" demais? As imagens são bonitas e claras?
  3. O Inventário (Completude): A IA incluiu todos os pontos que o pedido exigia? Nada foi esquecido?
  4. A Precisão (Correção): O que está escrito no slide está certo? Se o documento original diz "lucro de 10 milhões", o slide diz isso ou inventou "100 milhões"?
  5. A Origem (Fidelidade): Tudo no slide veio do material de apoio? A IA inventou fatos que não existiam no documento original (o famoso "alucinar" da IA)?

A Grande Prova: O Teste Real

Para testar isso, os pesquisadores criaram 238 cenários reais. Eles pegaram documentos complexos (como artigos científicos, relatórios financeiros de grandes bancos e livros didáticos) e pediram para várias IAs (como NotebookLM, Gamma, Doubao, Qwen, etc.) criarem apresentações completas.

Depois, o "inspetor" do PresentBench foi trabalhar. Ele comparou cada slide gerado com o documento original, item por item.

O Que Eles Descobriram?

Os resultados foram reveladores:

  • As IAs antigas estão "mentindo" para si mesmas: Os métodos antigos de avaliação davam notas altas para IAs que faziam slides bonitos, mas cheios de erros factuais. O PresentBench mostrou que a maioria das IAs ainda comete muitos erros de precisão.
  • O "Campeão" foi o NotebookLM: Dentre todas as ferramentas testadas, o NotebookLM (do Google) foi o único que conseguiu seguir o checklist com muito mais precisão, entendendo melhor os documentos longos e criando slides mais fiéis à realidade.
  • O Design ainda é o calcanhar de Aquiles: Mesmo as melhores IAs têm dificuldade em criar layouts visualmente perfeitos. Elas conseguem escrever o texto, mas muitas vezes o visual fica bagunçado ou desorganizado.

Por que isso importa para você?

O PresentBench é como um novo padrão de ouro para medir a qualidade da IA. Ele nos diz que, embora a tecnologia esteja avançando rápido, ainda precisamos de ferramentas que verifiquem os fatos com rigor, não apenas a beleza da imagem.

Em resumo: O PresentBench transformou a avaliação de slides de um "olhômetro" subjetivo em uma auditoria detalhada e justa, garantindo que, quando a IA fizer seu trabalho, ela não apenas pareça bonita, mas seja verdadeira, útil e precisa.