DesignSense: A Human Preference Dataset and Reward Modeling Framework for Graphic Layout Generation

O artigo apresenta o DesignSense, um novo framework que inclui o conjunto de dados de preferências humanas DesignSense-10k e um modelo de recompensa especializado, demonstrando melhorias significativas na avaliação e geração de layouts gráficos ao superar modelos existentes e otimizar o processo de treinamento por reforço.

Varun Gopal, Rishabh Jain, Aradhya Mathur, Nikitha SR, Sohan Patnaik, Sudhir Yarram, Mayur Hemani, Balaji Krishnamurthy, Mausoom Sarkar

Publicado 2026-03-02
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um designer gráfico tentando criar um pôster incrível para um festival de música. Você tem as fotos, o texto e as cores, mas onde colocar cada coisa é o que faz a diferença entre um pôster que as pessoas amam e um que elas ignoram.

Até hoje, os computadores (Inteligência Artificial) eram ótimos em criar imagens bonitas, mas péssimos em entender a "arte de organizar" essas imagens. Eles sabiam desenhar um rosto, mas não sabiam se o rosto deveria ficar no canto ou no centro, ou se o texto estava cobrindo a foto.

É aqui que entra o DesignSense, o projeto apresentado neste artigo. Vamos explicar como eles resolveram isso usando analogias do dia a dia.

1. O Problema: O Chef que não entende de "Arrumação"

Imagine que você tem um chef de cozinha muito talentoso (a IA atual) que sabe fazer o melhor bolo do mundo. Mas, quando você pede para ele arrumar a mesa para o jantar, ele coloca o prato de sobremesa em cima do prato principal e a garrafa de vinho de cabeça para baixo.

O problema é que os modelos de IA existentes foram treinados com milhões de fotos de paisagens e rostos (como se o chef só soubesse cozinhar, mas nunca tivesse arrumado uma mesa). Eles não entendem que, em design gráfico, a posição das coisas é tão importante quanto as coisas em si. Se você mover um botão de "Comprar" um pouco para a esquerda, o design pode ficar perfeito ou um desastre.

2. A Solução: Criando um "Ginásio de Treino" Especializado (O Dataset)

Para treinar um novo "juiz" de design, os pesquisadores do Adobe precisavam de um manual de instruções feito por humanos. Mas criar esse manual manualmente seria impossível (seria como pedir para 10.000 pessoas organizarem 10.000 mesas diferentes).

Então, eles criaram um processo de 5 etapas (o "Pipeline") que funciona como uma fábrica de designs:

  1. Agrupamento (O Organizador): Em vez de tratar cada letra e cada foto separadamente, a IA agrupa coisas que vão juntas (como "Título + Subtítulo" ou "Data + Local"). É como agrupar os talheres antes de guardar na gaveta.
  2. Previsão (O Criativo): A IA gera várias versões do mesmo pôster, mudando o tamanho e a posição das coisas, como se estivesse testando diferentes arranjos de móveis na sala.
  3. Filtragem (O Fiscal de Qualidade): A IA joga fora os designs que são claramente ruins (ex: texto sobreposto, coisas fora da página).
  4. Agrupamento por Diversidade (O Curador): Eles garantem que os designs restantes sejam diferentes uns dos outros, para não treinar o juiz com a mesma coisa repetida.
  5. Refinamento (O Polidor): Uma IA superpoderosa ajusta os detalhes finos, alinhando bordas e espaçamentos, garantindo que os designs estejam "prontos para a galeria".

O resultado? Um banco de dados gigante chamado DesignSense-10k, com mais de 10.000 pares de designs comparados.

3. A Grande Diferença: O Juiz de 4 Estrelas

Aqui está a mágica. Quando pedimos para humanos escolherem o melhor design, eles nem sempre dizem "O da esquerda é melhor". Às vezes, os dois são ótimos, ou os dois são horríveis.

Os modelos antigos de IA só conseguiam dizer "Esquerda" ou "Direita" (como um jogo de "quem ganha"). O DesignSense ensinou a IA a entender 4 cenários:

  1. Esquerda é melhor.
  2. Direita é melhor.
  3. Os dois são bons (ambos acertaram o estilo).
  4. Os dois são ruins (ambos falharam feio).

Isso é como ter um juiz de culinária que não só escolhe o prato vencedor, mas também sabe dizer: "Ambos os chefs cozinharam bem" ou "Nenhum dos dois salvou o jantar".

4. O Resultado: O "Juiz" que Entende de Design

Eles treinaram um modelo chamado DesignSense com esses dados. Quando colocaram para competir contra os gigantes da tecnologia (como o GPT-4, GPT-5 e outros modelos famosos), o DesignSense venceu de lavada.

  • A analogia: Imagine que os modelos antigos são como turistas que visitam Paris e acham que a Torre Eiffel é bonita. O DesignSense é como um arquiteto local que entende por que a Torre Eiffel é bonita e consegue julgar se uma nova construção combina com a cidade.
  • O desempenho: O DesignSense foi 54% melhor do que os melhores modelos comerciais existentes na tarefa de julgar layouts.

5. Por que isso importa no mundo real?

Não é apenas sobre ter um modelo que julga bem. É sobre usar esse juiz para melhorar a criação.

  • Treinamento: Quando a IA que cria os pôsteres (o "chef") usa o DesignSense como professor, ela aprende a fazer designs que os humanos realmente gostam. O sucesso aumentou em cerca de 3%.
  • Escolha Inteligente: Se a IA gerar 10 opções de pôsteres, o DesignSense pode olhar para todas e escolher a melhor, como um editor de revista escolhendo a foto final. Isso melhorou a qualidade em 3,6%.

Resumo em uma frase

Os pesquisadores criaram um "treinador de elite" para IAs de design, ensinando-as a não apenas criar imagens bonitas, mas a organizar essas imagens de uma forma que faça sentido para o olho humano, superando todos os modelos atuais que tentavam adivinhar o gosto humano sem entender a lógica do design.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →