Scaling Audio-Visual Quality Assessment Dataset via Crowdsourcing

Este artigo propõe uma abordagem prática para a construção de conjuntos de dados de avaliação de qualidade áudio-visual (AVQA) por meio de crowdsourcing, resultando no YT-NTU-AVQ, que é o maior e mais diversificado conjunto de dados desse tipo até a data, contendo 1.620 sequências de áudio e vídeo geradas por usuários e anotadas com informações detalhadas para superar as limitações de escala e diversidade dos datasets existentes.

Renyu Yang, Jian Jin, Lili Meng, Meiqin Liu, Yilin Wang, Balu Adsumilli, Weisi Lin

Publicado 2026-02-27
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um chef de cozinha tentando criar a receita perfeita para um prato que combina som e imagem. Para saber se o prato está bom, você precisa pedir para muitas pessoas provarem e darem notas.

O problema é que, até agora, os pesquisadores que estudam a qualidade de vídeos e áudios (como no YouTube ou TikTok) estavam cozinhando em uma cozinha muito pequena e restrita. Eles tinham poucos ingredientes (vídeos), poucos cozinheiros (pessoas avaliando) e só sabiam dizer se o prato "no geral" estava bom ou ruim. Isso não ajudava a entender por que o prato estava bom: será que foi o som da fritura? A cor do prato? A textura?

Este artigo apresenta uma nova maneira de resolver isso, criando o maior "festival de degustação" já feito para vídeos e áudios. Aqui está a explicação simples:

1. O Problema: A Cozinha de Laboratório vs. A Cozinha do Mundo Real

Antes, para testar a qualidade de um vídeo, os cientistas traziam pessoas para um laboratório silencioso, com fones de ouvido caros e telas perfeitas.

  • O problema: Isso é caro e lento. Você só consegue testar 50 ou 100 vídeos. É como tentar aprender a cozinhar para milhões de pessoas testando apenas 10 pratos em sua própria cozinha.
  • A solução: Eles decidiram fazer o teste na "rua" (usando Crowdsourcing ou "trabalho em multidão"). Eles pediram para milhares de pessoas comuns avaliarem vídeos usando seus próprios celulares e fones de ouvido em casa.

2. O Desafio: Como garantir que a nota seja séria?

Se você pede para qualquer um na internet avaliar um vídeo, algumas pessoas podem dar notas aleatórias, ficar distraídas ou mentir. É como se alguém na degustação estivesse olhando para o celular em vez de provar a comida.

Para resolver isso, os autores criaram um sistema de "filtro de qualidade" em três etapas:

  1. A Prova de Fogo (Pré-teste): Eles mostram alguns vídeos para ver quem está prestando atenção. Se a pessoa der notas aleatórias, ela é eliminada.
  2. A Qualificação: Só quem passou na prova de fogo pode entrar no teste principal.
  3. O Teste Final: Os "degustadores qualificados" avaliam os vídeos reais.
  • Analogia: É como um torneio de xadrez. Você não deixa qualquer um jogar a final; primeiro você faz uma eliminatória para garantir que apenas os jogadores sérios e atentos participem.

3. O Grande Banco de Dados (YT-NTU-AVQ)

Com esse sistema, eles conseguiram criar o maior banco de dados do mundo para esse tipo de teste:

  • 1.620 vídeos de usuários comuns (UGC - User Generated Content).
  • Vídeos de música, dança, fala, jogos, etc.
  • O diferencial: Em vez de dar apenas uma nota de 1 a 5 para o "vídeo todo", eles pediram quatro coisas diferentes:
    1. Nota geral (Vídeo + Áudio).
    2. Nota só do Vídeo.
    3. Nota só do Áudio.
    4. A "Bússola da Atenção": "O que você prestou mais atenção? O som ou a imagem?" (Ex: 50% som / 50% imagem).

4. O Que Eles Descobriram? (A Grande Surpresa)

Ao analisar os dados, eles encontraram algo muito interessante sobre como o cérebro humano funciona:

  • O Rei é o Visual: Mesmo quando o som está ruim, se o vídeo estiver bonito, as pessoas tendem a achar o vídeo "bom". O olho é o "chefe" na avaliação.
  • O Efeito do "Ponto Fraco": Se o som está muito ruim, as pessoas prestam mais atenção ao som (e a nota cai). Mas, curiosamente, elas ainda dão uma nota baseada no que está melhor. É como se dissessem: "O vídeo é lindo, mas o som é horrível. Vou dar uma nota média, mas focando no que salvou o prato".
  • Contexto Importa: Em vídeos de música ou dança, as pessoas esperam que o som seja importante, mas ainda assim, a imagem continua dominando a nota final.

5. Por que isso é importante?

Hoje, temos Inteligência Artificial (IA) tentando criar vídeos melhores. Mas para a IA aprender, ela precisa de um "professor" muito bom.

  • Antes, a IA aprendia com poucos exemplos e em ambientes artificiais.
  • Agora, com este novo banco de dados, a IA pode aprender com milhares de exemplos reais, entendendo como as pessoas de verdade (em suas casas, com seus fones ruins) percebem a qualidade.

Resumo da Ópera:
Os autores criaram um "sistema de segurança" para fazer milhares de pessoas avaliarem vídeos em casa de forma confiável. Isso gerou um mapa gigante de como humanos julgam a qualidade de vídeos e sons, revelando que, embora prestemos atenção ao som, nossos olhos são os grandes decisores. Isso vai ajudar a criar vídeos, filmes e plataformas de streaming muito melhores no futuro.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →