Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita nem endossada pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo
Each language version is independently generated for its own context, not a direct translation.
Imagine que os dados em um banco de dados são como os ingredientes de uma receita de bolo. Se você quer assinar um bolo perfeito (tomar decisões de negócios, treinar uma Inteligência Artificial, criar relatórios), você precisa de ingredientes frescos, na quantidade certa e sem erros.
Se você colocar sal no lugar do açúcar, o bolo fica estragado. Se esquecer de colocar ovos, ele não cresce. Se colocar duas xícaras de farinha quando a receita pede uma, a massa fica pesada.
Este artigo, escrito por pesquisadores da Alemanha, Holanda e EUA, é essencialmente um "Catálogo de Erros de Dados". É como um livro de receitas de "o que pode dar errado" na sua cozinha de dados, para que você saiba exatamente o que procurar e como consertar.
Aqui está a explicação simples, dividida em três grandes categorias de "desastres culinários":
1. O Que Faltou (Dados Ausentes)
Imagine que você está montando um cardápio para um restaurante, mas esqueceu de anotar o preço de alguns pratos ou o nome de alguns clientes.
- Valores Faltando (Missing Values): É como ter uma linha em branco na receita. O ingrediente existe no mundo real, mas não está escrito no papel.
- Valores Disfarçados (Disguised Missing Values): Isso é mais traiçoeiro. É como escrever "Desconhecido" ou "-99" no lugar do preço. Parece que tem um número ali, mas na verdade é apenas um "placeholder" (um lugar vazio) que está escondendo o fato de que a informação não existe. É um "fantasma" que parece real.
- Linhas ou Colunas Vazias: Imagine que você esqueceu de anotar nenhum telefone de nenhum cliente, ou que uma página inteira do cardápio está em branco.
- Dados Viciados (Biased Data): Imagine que você só perguntou a opinião sobre o bolo apenas para crianças. O resultado dirá que o bolo é ótimo (porque crianças amam açúcar), mas ignorará os adultos. Os dados existem, mas não representam a realidade completa, levando a decisões erradas.
2. O Que Está Errado (Dados Incorretos)
Aqui, os ingredientes estão lá, mas estão estragados, trocados ou escritos de forma confusa.
- Erros de Digitação e Ortografia (Typos & Misspellings): Escrever "Müller" como "Moller" ou "Manager" como "Manger". O computador vê como uma palavra diferente, mas para nós é óbvio que é um erro.
- Palavras Estranhas (Out-of-Vocabulary): Usar uma sigla que ninguém conhece, como "Mgr." em vez de "Gerente", em um sistema que só entende palavras completas.
- Troca de Posição (Word Transposition): Escrever "Bond, James" em vez de "James Bond". As palavras estão certas, mas na ordem errada.
- Dados em Campos Errados (Misfielded Values): Colocar o endereço de casa no campo de "Data de Nascimento". O dado é válido, mas está no lugar errado.
- Ruído (Noise): Imagine que a balança da cozinha está com defeito e pesa 1kg a mais em tudo. Os dados têm um "chiado" ou variação aleatória que não é real.
- Dados Fora de Padrão (Outliers): Se todos os funcionários ganham R$ 5.000 e um ganha R$ 5.000.000, esse número é um "outlier". Pode ser um erro de digitação (um zero a mais) ou um CEO real. É preciso investigar.
- Violação de Regras (Constraint Violations): É como tentar colocar um bolo quadrado em uma forma redonda. O sistema diz: "Isso não pode existir aqui". Exemplo: Um funcionário não pode ter um salário negativo.
- Dados Velhos (Outdated Data): É como usar uma receita de 1990 que pede "margarina" quando hoje usamos "manteiga". O dado existia, mas o mundo mudou e ele não serve mais.
3. O Que Está em Excesso (Dados Redundantes)
Imagine que você tem três copos de água idênticos na mesa. Você não precisa de três, um basta.
- Duplicatas (Duplicate Tuples): É ter o mesmo cliente cadastrado duas vezes, uma vez como "João Silva" e outra como "J. Silva". O sistema acha que são duas pessoas diferentes, inflando os números.
- Dados Irrelevantes: É ter um ingrediente na receita que não faz parte do bolo, como "óleo de motor". O dado está lá, é válido, mas não deveria estar naquele cardápio.
Por que isso importa?
O artigo diz que, na era da Inteligência Artificial, a qualidade dos dados é mais importante do que o próprio modelo de IA. Se você alimenta uma IA com "ingredientes estragados" (dados sujos), ela vai criar um "bolo" (decisão ou previsão) horrível, não importa quão inteligente seja a receita.
Os autores criaram este catálogo para:
- Dar nomes aos bois: Antes, as pessoas chamavam os erros de nomes diferentes ou misturavam coisas diferentes. Agora, todos falam a mesma língua.
- Criar ferramentas melhores: Se você sabe exatamente qual é o erro (ex: é um "valor disfarçado" e não apenas "falta de dado"), você pode criar um robô específico para achar e consertar esse erro.
- Evitar prejuízos: Empresas perdem bilhões de dólares por ano por causa de decisões tomadas com dados ruins.
Em resumo: Dados sujos geram decisões ruins. Este catálogo é o manual de instruções para manter sua cozinha de dados limpa, organizada e pronta para assar os melhores bolos possíveis.
Afogado em artigos na sua área?
Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.