Understanding Wikidata Qualifiers: An Analysis and Taxonomy

Este artigo apresenta uma análise detalhada e uma taxonomia refinada dos qualificadores do Wikidata, desenvolvida para orientar contribuidores, aprimorar sistemas de recomendação e melhorar o design de grafos de conhecimento ao abordar desafios semânticos e de inferência lógica.

Gilles Falquet, Sahar Aljalbout

Publicado 2026-03-13
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que o Wikidata é uma biblioteca gigantesca e caótica, onde cada livro (um "item") tem fichas de catalogação (as "afirmações"). Por exemplo, uma ficha diz: "George C. Scott foi casado com Colleen Dewhurst".

Até aqui, tudo bem. Mas a vida é complexa e as fichas precisam de detalhes extras para não mentir ou confundir. E é aqui que entram os Qualificadores.

Pense nos qualificadores como adesivos coloridos ou anotações à mão que você cola na ficha para dar contexto.

  • Sem adesivo: "George C. Scott foi casado com Colleen Dewhurst". (Será que foi para sempre? Será que foi em 1960 ou 1990?)
  • Com adesivos: "George C. Scott foi casado com Colleen Dewhurst [de 1960 a 1965, até o divórcio]".

O problema é que, com o tempo, a biblioteca ficou cheia de milhões de tipos diferentes de adesivos. Alguns dizem "ano", outros "país", outros "dúvida", outros "quem disse isso". Os bibliotecários (contribuidores) estão perdidos: "Qual adesivo eu uso aqui?" e "Como eu encontro todas as fichas que têm um adesivo específico?".

Este artigo é como um manual de organização que dois pesquisadores criaram para arrumar essa bagunça. Eles não apenas contaram quantos adesivos existem, mas criaram um sistema de classificação (uma taxonomia) para entender o que cada um realmente faz.

Aqui está a explicação simples do que eles descobriram, usando analogias do dia a dia:

1. O Problema: A "Cauda Longa" e o Caos

Os pesquisadores olharam para milhões de fichas. Eles perceberam que alguns adesivos são usados o tempo todo (como "ano de início"), enquanto outros são raros e estranhos.

  • A descoberta: Não basta contar quantas vezes um adesivo é usado. Um adesivo pode ser usado milhões de vezes, mas apenas em uma situação muito específica (como um adesivo de "filtro astronômico" usado apenas para estrelas). Outro adesivo pode ser usado menos vezes, mas em situações totalmente diferentes (como "válido em local", usado para cidades, leis e eventos).
  • A solução: Eles criaram uma fórmula matemática (baseada em como os ecologistas medem a biodiversidade de uma floresta) para medir não só a frequência, mas a diversidade de uso. Isso ajudou a escolher os 300 adesivos mais importantes para estudar.

2. A Grande Classificação (A Taxonomia)

Em vez de uma lista gigante e confusa, eles organizaram os qualificadores em 4 grandes caixas de ferramentas. Pense nelas como os diferentes tipos de "contexto" que uma história precisa:

A. A Caixa do "Onde e Quando" (Contexto/Validade)

Estes adesivos dizem: "Esta informação só é verdade nestas condições".

  • Analogia: É como dizer que um cupom de desconto só vale na França ou em janeiro.
  • Exemplos: "Válido no país", "Data de início", "Data de fim". Sem eles, a afirmação seria falsa em outros lugares ou tempos.

B. A Caixa do "Quão Certo Estamos?" (Epistêmico/Uncerteza)

Estes adesivos dizem: "Cuidado, não tenho 100% de certeza sobre isso".

  • Analogia: É como um jornalista dizendo: "Acredita-se que o suspeito estava lá" ou "A data é aproximada".
  • Exemplos: "Circunstâncias da fonte" (se é uma hipótese ou fato), "Data mais antiga possível", "Data mais recente possível". Eles não mudam o fato, mas mudam o grau de confiança nele.

C. A Caixa da "Estrutura" (Estrutural)

Estes adesivos ajudam a montar peças que não são itens normais da biblioteca.

  • Analogia: Imagine que você quer descrever a posição de um gene. Você não pode apenas colocar um número. Você precisa dizer: "Número 500 no Cromossomo 1". O "Cromossomo" é um adesivo que organiza o número.
  • Exemplos: "Cromossomo", "Filtro astronômico", "Catálogo". Eles transformam um valor solto em uma informação completa e estruturada.

D. A Caixa do "Detalhe Extra" (Informação Adicional)

Estes adesivos dizem: "Aqui está mais um dado interessante, mas não muda o fato principal".

  • Analogia: É como dizer: "Este livro foi escrito por Machado de Assis (autor)". O fato principal é o livro. O autor é um detalhe extra. Ou dizer: "Este livro é a 3ª edição".
  • Subcategorias:
    • Sequência: "É o 39º presidente" (ordem).
    • Proveniência: "Esta informação veio do censo de 2018" (quem disse).
    • Causalidade: "O motivo da morte foi X" (o que causou).
    • Papel: "Ele atuou como vilão" (o papel que o personagem fez).

3. Por que isso é útil? (O "Pulo do Gato")

O artigo explica que ter esse mapa organizado ajuda em três coisas principais:

  1. Para quem escreve (Contribuidores): Em vez de ficar adivinhando qual adesivo usar, você olha na sua caixa de ferramentas. "Ah, eu quero dizer que isso só vale na Alemanha? Vou pegar o adesivo de 'Contexto Espacial'."
  2. Para quem pesquisa (Consultas): Se você quer saber "quem foi casado com alguém", mas só quer os casamentos que terminaram em divórcio, o sistema pode usar a categoria "Causalidade" para filtrar automaticamente, sem precisar saber o nome técnico de cada adesivo.
  3. Para construir novas bibliotecas (Design de Grafos de Conhecimento): Se alguém quiser criar um novo banco de dados de conhecimento, pode usar essa classificação como um guia para não cometer os mesmos erros de confusão que o Wikidata teve.

Resumo Final

Os autores pegaram o caos de milhões de "adesivos" do Wikidata, usaram matemática para encontrar os mais importantes e os organizaram em 4 categorias lógicas (Contexto, Incerteza, Estrutura e Detalhes).

Isso transforma o Wikidata de uma pilha de papéis soltos em uma biblioteca inteligente, onde cada informação sabe exatamente onde se encaixa, quando é válida e quão confiável é. É como transformar um armário bagunçado em um sistema de arquivos perfeito, onde você sempre sabe onde procurar e o que cada etiqueta significa.