What Are They Filtering Out? An Experimental Benchmark of Filtering Strategies for Harm Reduction in Pretraining Datasets

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está construindo uma biblioteca gigante para ensinar um robô superinteligente (um Modelo de Linguagem, como o ChatGPT) a falar e entender o mundo. Essa biblioteca é feita de milhões de livros, sites e artigos da internet (os "dados de pré-treinamento").

O problema é que a internet é um lugar bagunçado. Ela tem informações incríveis, mas também tem muito lixo: discurso de ódio, racismo, sexismo e conteúdo violento. Se o robô ler tudo isso sem filtro, ele pode aprender a ser preconceituoso e perigoso.

Então, os cientistas criaram filtros (estratégias de filtragem) para limpar essa biblioteca antes de ensinar o robô. A ideia é: "Vamos tirar o lixo para que o robô fique seguro".

Mas, segundo este artigo, esses filtros estão criando um novo problema grave, e é aqui que a história fica interessante.

O Que os Autores Descobriram?

Os pesquisadores (Marco e Christian) fizeram dois grandes trabalhos:

O Inventário (A Pesquisa): Eles olharam para 55 relatórios técnicos de diferentes IAs e perguntaram: "Como vocês estão limpando os dados?".
- A Descoberta: A maioria das empresas não conta como faz a limpeza. É como se um cozinheiro dissesse: "Fiz um bolo delicioso", mas não dissesse quais ingredientes usou ou se tirou o veneno. Além disso, eles perceberam que as empresas estão parando de focar na limpeza antes de criar o robô e focando apenas em consertar o robô depois que ele já nasceu.
O Experimento (A Prova de Fogo): Eles pegaram 7 tipos de filtros diferentes e testaram em uma amostra de textos reais. Eles queriam ver: "Ao tirar o lixo, quem está sendo removido junto com o lixo?".

A Grande Revelação: O Filtro que Cega

Aqui está a analogia principal para entender o resultado:

Imagine que você tem um peneira de areia para separar pedras grandes (o lixo) da areia fina (o conhecimento útil).

O objetivo é tirar as pedras.
Mas, o que acontece é que a peneira tem um buraco estranho: ela deixa passar as pedras, mas segura e joga fora todas as sementes de flores raras que estavam misturadas na areia.

No mundo dos dados, as "sementes de flores raras" são as pessoas vulneráveis (mulheres, minorias étnicas, pessoas de países colonizados).

O que os números mostraram:

Mulheres são as mais prejudicadas: Quando os filtros tentam remover palavras ofensivas ou conteúdo tóxico, eles acabam removendo muito mais menções a mulheres do que a homens.
O Filtro é "cegado" pelo contexto: Se uma mulher é mencionada em um contexto que o filtro considera "suspeito" (mesmo que não seja ofensivo), ela é apagada.
Profissões Estereotipadas: O filtro removeu desproporcionalmente mulheres que eram descritas como "atrizes pornográficas" ou "modelos", enquanto mantinha homens em profissões como "políticos" ou "atores de cinema". Isso faz com que, na biblioteca final do robô, as mulheres pareçam menos importantes ou apareçam apenas em contextos negativos.

Por Que Isso Acontece? (As Analogias)

O Filtro de "Qualidade" (A Biblioteca da Elite):
Alguns filtros tentam manter apenas textos que parecem "de alta qualidade" (como a Wikipedia).
- O Problema: A Wikipedia e a internet em geral têm mais homens e mais pessoas do mundo ocidental. Ao escolher apenas o que parece "qualidade", o filtro acaba escolhendo mais homens e menos mulheres. É como se você só permitisse entrar na biblioteca pessoas que vestem terno, e acabasse excluindo todas as pessoas que usam roupas tradicionais de outras culturas, mesmo que elas tenham histórias incríveis para contar.
O Filtro de "Palavras Proibidas" (A Lista Negra):
Outros filtros usam listas de palavras ruins (como xingamentos).
- O Problema: Se você tem uma lista de palavras "ruins", e uma mulher é mencionada junto a uma dessas palavras (mesmo que de forma inocente), o filtro joga o texto inteiro fora. Como as mulheres são frequentemente alvo de assédio online, elas aparecem mais perto dessas palavras "proibidas" do que os homens, e acabam sendo apagadas junto com o assédio.

A Conclusão em Português Simples

O artigo diz que, ao tentar criar IAs mais seguras e menos ofensivas, os criadores estão, sem querer, apagando a voz das mulheres e de grupos minoritários dos dados de treinamento.

É como se, para limpar a casa de um rato, você queimasse a casa inteira. O rato (o conteúdo tóxico) foi embora, mas a família (as pessoas vulneráveis) também sumiu.

O que precisamos fazer?
Os autores pedem que paremos de usar filtros "cegos". Precisamos de filtros que olhem com mais cuidado, que entendam o contexto e que garantam que, ao tirar o lixo, não estamos jogando fora as pessoas que mais precisam ser ouvidas. Se não fizermos isso, as IAs do futuro continuarão a ver o mundo através de uma lente distorcida, onde mulheres e minorias são invisíveis ou aparecem apenas de forma negativa.

What Are They Filtering Out? An Experimental Benchmark of Filtering Strategies for Harm Reduction in Pretraining Datasets

O Que os Autores Descobriram?

A Grande Revelação: O Filtro que Cega

Por Que Isso Acontece? (As Analogias)

A Conclusão em Português Simples

Título: O Que Eles Estão Filtrando? Um Benchmark Experimental de Estratégias de Filtragem para Redução de Danos em Conjuntos de Dados de Pré-treinamento

1. Problema e Motivação

2. Metodologia

3. Contribuições Principais

4. Resultados Chave

5. Significado e Conclusão

What Are They Filtering Out? An Experimental Benchmark of Filtering Strategies for Harm Reduction in Pretraining Datasets

O Que os Autores Descobriram?

A Grande Revelação: O Filtro que Cega

Por Que Isso Acontece? (As Analogias)

A Conclusão em Português Simples

Título: O Que Eles Estão Filtrando? Um Benchmark Experimental de Estratégias de Filtragem para Redução de Danos em Conjuntos de Dados de Pré-treinamento

1. Problema e Motivação

2. Metodologia

3. Contribuições Principais

4. Resultados Chave

5. Significado e Conclusão

Mais como este

Recursive Language Models Meet Uncertainty: The Surprising Effectiveness of Self-Reflective Program Search for Long Context

MedArena: Comparing LLMs for Medicine-in-the-Wild Clinician Preferences

MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification

Morphemes Without Borders: Evaluating Root-Pattern Morphology in Arabic Tokenizers and LLMs

COGNAC at SemEval-2026 Task 5: LLM Ensembles for Human-Level Word Sense Plausibility Rating in Challenging Narratives