What Are They Filtering Out? An Experimental Benchmark of Filtering Strategies for Harm Reduction in Pretraining Datasets

Este artigo apresenta um estudo de benchmark que demonstra que, embora as estratégias de filtragem de dados reduzam conteúdos prejudiciais no pré-treinamento de modelos de linguagem, elas inadvertidamente aumentam a sub-representação de grupos vulneráveis à discriminação nos conjuntos de dados.

Marco Antonio Stranisci, Christian Hardmeier

Publicado 2025-02-17
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está construindo uma biblioteca gigante para ensinar um robô superinteligente (um Modelo de Linguagem, como o ChatGPT) a falar e entender o mundo. Essa biblioteca é feita de milhões de livros, sites e artigos da internet (os "dados de pré-treinamento").

O problema é que a internet é um lugar bagunçado. Ela tem informações incríveis, mas também tem muito lixo: discurso de ódio, racismo, sexismo e conteúdo violento. Se o robô ler tudo isso sem filtro, ele pode aprender a ser preconceituoso e perigoso.

Então, os cientistas criaram filtros (estratégias de filtragem) para limpar essa biblioteca antes de ensinar o robô. A ideia é: "Vamos tirar o lixo para que o robô fique seguro".

Mas, segundo este artigo, esses filtros estão criando um novo problema grave, e é aqui que a história fica interessante.

O Que os Autores Descobriram?

Os pesquisadores (Marco e Christian) fizeram dois grandes trabalhos:

  1. O Inventário (A Pesquisa): Eles olharam para 55 relatórios técnicos de diferentes IAs e perguntaram: "Como vocês estão limpando os dados?".

    • A Descoberta: A maioria das empresas não conta como faz a limpeza. É como se um cozinheiro dissesse: "Fiz um bolo delicioso", mas não dissesse quais ingredientes usou ou se tirou o veneno. Além disso, eles perceberam que as empresas estão parando de focar na limpeza antes de criar o robô e focando apenas em consertar o robô depois que ele já nasceu.
  2. O Experimento (A Prova de Fogo): Eles pegaram 7 tipos de filtros diferentes e testaram em uma amostra de textos reais. Eles queriam ver: "Ao tirar o lixo, quem está sendo removido junto com o lixo?".

A Grande Revelação: O Filtro que Cega

Aqui está a analogia principal para entender o resultado:

Imagine que você tem um peneira de areia para separar pedras grandes (o lixo) da areia fina (o conhecimento útil).

  • O objetivo é tirar as pedras.
  • Mas, o que acontece é que a peneira tem um buraco estranho: ela deixa passar as pedras, mas segura e joga fora todas as sementes de flores raras que estavam misturadas na areia.

No mundo dos dados, as "sementes de flores raras" são as pessoas vulneráveis (mulheres, minorias étnicas, pessoas de países colonizados).

O que os números mostraram:

  • Mulheres são as mais prejudicadas: Quando os filtros tentam remover palavras ofensivas ou conteúdo tóxico, eles acabam removendo muito mais menções a mulheres do que a homens.
  • O Filtro é "cegado" pelo contexto: Se uma mulher é mencionada em um contexto que o filtro considera "suspeito" (mesmo que não seja ofensivo), ela é apagada.
  • Profissões Estereotipadas: O filtro removeu desproporcionalmente mulheres que eram descritas como "atrizes pornográficas" ou "modelos", enquanto mantinha homens em profissões como "políticos" ou "atores de cinema". Isso faz com que, na biblioteca final do robô, as mulheres pareçam menos importantes ou apareçam apenas em contextos negativos.

Por Que Isso Acontece? (As Analogias)

  1. O Filtro de "Qualidade" (A Biblioteca da Elite):
    Alguns filtros tentam manter apenas textos que parecem "de alta qualidade" (como a Wikipedia).

    • O Problema: A Wikipedia e a internet em geral têm mais homens e mais pessoas do mundo ocidental. Ao escolher apenas o que parece "qualidade", o filtro acaba escolhendo mais homens e menos mulheres. É como se você só permitisse entrar na biblioteca pessoas que vestem terno, e acabasse excluindo todas as pessoas que usam roupas tradicionais de outras culturas, mesmo que elas tenham histórias incríveis para contar.
  2. O Filtro de "Palavras Proibidas" (A Lista Negra):
    Outros filtros usam listas de palavras ruins (como xingamentos).

    • O Problema: Se você tem uma lista de palavras "ruins", e uma mulher é mencionada junto a uma dessas palavras (mesmo que de forma inocente), o filtro joga o texto inteiro fora. Como as mulheres são frequentemente alvo de assédio online, elas aparecem mais perto dessas palavras "proibidas" do que os homens, e acabam sendo apagadas junto com o assédio.

A Conclusão em Português Simples

O artigo diz que, ao tentar criar IAs mais seguras e menos ofensivas, os criadores estão, sem querer, apagando a voz das mulheres e de grupos minoritários dos dados de treinamento.

É como se, para limpar a casa de um rato, você queimasse a casa inteira. O rato (o conteúdo tóxico) foi embora, mas a família (as pessoas vulneráveis) também sumiu.

O que precisamos fazer?
Os autores pedem que paremos de usar filtros "cegos". Precisamos de filtros que olhem com mais cuidado, que entendam o contexto e que garantam que, ao tirar o lixo, não estamos jogando fora as pessoas que mais precisam ser ouvidas. Se não fizermos isso, as IAs do futuro continuarão a ver o mundo através de uma lente distorcida, onde mulheres e minorias são invisíveis ou aparecem apenas de forma negativa.