Hate Speech Detection using Large Language Models with Data Augmentation and Feature Enhancement

Este artigo avalia técnicas de aumento de dados e aprimoramento de recursos para detecção de discurso de ódio, demonstrando que o modelo de linguagem aberto gpt-oss-20b alcança os melhores resultados gerais, enquanto o Delta TF-IDF se destaca em conjuntos específicos, e confirmando que a eficácia dessas estratégias depende da interação entre o conjunto de dados, a arquitetura do modelo e a técnica aplicada.

Brian Jing Hong Nge, Stefan Su, Thanh Thi Nguyen, Campbell Wilson, Alexandra Phelan, Naomi Pfitzner

Publicado 2026-03-06
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que a internet é uma enorme praça pública, cheia de pessoas conversando. Infelizmente, alguns grupos usam essa praça para espalhar ódio e ideias extremistas. O problema é que, às vezes, eles não gritam "Eu odeio você!" (o ódio explícito); às vezes, eles usam piadas, códigos ou frases sutis que só fazem sentido para quem está "por dentro" (o ódio implícito).

Este artigo é como um manual de instruções para construir guardiões digitais (inteligências artificiais) capazes de identificar esse ódio, seja ele gritado ou sussurrado.

Aqui está a explicação do que os pesquisadores fizeram, usando analogias do dia a dia:

1. O Desafio: Encontrar a Agulha no Palheiro

Os pesquisadores tinham quatro "caixas de areia" (conjuntos de dados) diferentes para treinar seus guardiões:

  • O Stormfront: Um fórum antigo onde o ódio é gritado bem alto e claro (fácil de detectar).
  • O Gab & Reddit: Conversas em redes sociais onde o ódio se mistura com discussões normais.
  • O Hate Corpus: O nível mais difícil. Aqui, o ódio é "implícito", como um código secreto ou uma piada de duplo sentido. É como tentar achar uma agulha num palheiro onde a agulha está pintada da mesma cor do palha.
  • O Merged: Uma mistura de tudo isso.

2. Os "Guardiões" (Os Modelos)

Eles testaram diferentes tipos de "cérebros" para ver quem era melhor em pegar o ódio:

  • O Velho e Sábio (Delta TF-IDF): Um método antigo e simples. Ele conta palavras. É como um professor que só olha para a frequência de palavras específicas. Não é muito inteligente, mas é rápido.
  • Os Estudantes de Pós-Graduação (DistilBERT, RoBERTa, DeBERTa): Modelos de IA modernos que entendem contexto. Eles são como alunos que leram milhões de livros e entendem a diferença entre "isso é uma piada" e "isso é um ataque".
  • Os Gêniós (Gemma-7B e gpt-oss-20b): Modelos gigantes de Inteligência Artificial (LLMs). São como detetives superpoderosos que conseguem ler entrelinhas e entender nuances complexas. O gpt-oss-20b foi o campeão absoluto, agindo como o "Sherlock Holmes" definitivo.

3. Os Truques de Treinamento (Aumentação de Dados e Melhorias)

Só dar um livro de regras para o guarda não é suficiente. Os pesquisadores usaram truques para melhorar o treinamento:

  • SMOTE (O Fotógrafo de Fake): Como há muito mais gente "boa" do que gente "mala" nas caixas de areia, o modelo tendia a ignorar o mal. O SMOTE cria "cópias falsas" (mas inteligentes) de exemplos de ódio para equilibrar a balança. É como se o professor criasse 100 exemplos extras de "agressão" para o aluno estudar, para que ele não esqueça de identificar o perigo.

    • Resultado: Funcionou bem para alguns, mas em casos de ódio sutil (implícito), às vezes confundiu os modelos, como se o aluno estivesse estudando exemplos falsos demais e começasse a achar que tudo é perigoso.
  • Rótulos Gramaticais (POS Tagging): Eles ensinaram os modelos a olhar não só para as palavras, mas para a "gramática" (quem é o verbo, quem é o adjetivo). É como ensinar o guarda a analisar a estrutura da frase, não apenas o conteúdo.

    • Resultado: Foi um truque seguro. Funcionou bem para quase todos, sem causar grandes estragos, mas não foi o "milagre" que todos esperavam.
  • Aumento de Dados (Data Augmentation): Aqui foi o mais divertido. Eles pegaram as frases de ódio e as "reescritaram" de várias formas: trocaram sinônimos, mudaram a ordem das palavras, simularam erros de digitação. É como se o professor dissesse: "Vou te mostrar 100 maneiras diferentes de dizer a mesma coisa ofensiva, para você não ser pego de surpresa".

    • Resultado: O grande vencedor para o método antigo! O "Velho e Sábio" (Delta TF-IDF) ficou incrível com esse treino, chegando a 98,2% de precisão no Stormfront. Mas, para os "Gêniós" (LLMs), às vezes esse treino extra os confundiu, como se eles estivessem estudando demais e esquecendo o essencial.

4. As Descobertas Principais

  1. O Ódio Sutil é o Vilão: Detectar ódio explícito (gritado) é fácil. Detectar ódio implícito (sussurrado/código) é muito difícil para qualquer modelo, mesmo os mais inteligentes.
  2. O Tamanho Importa (mas nem sempre): O modelo gigante gpt-oss-20b foi o melhor em quase tudo. Ele entende o contexto melhor que ninguém. Porém, o modelo RoBERTa (menor e mais leve) foi um "cavalo de batalha" muito eficiente, quase tão bom quanto o gigante, mas usando menos energia.
  3. Não existe "Tamanho Único": O que funciona para um modelo pode estragar o outro.
    • Se você tem um modelo simples, crie mais exemplos variados (Aumento de Dados).
    • Se você tem um modelo gigante, tenha cuidado para não "sobre-treinar" com dados falsos (SMOTE), pois isso pode confundir a inteligência dele.
  4. O Método Antigo ainda tem valor: O Delta TF-IDF, que parecia obsoleto, mostrou que, com os truques certos (como o aumento de dados), ele pode ser extremamente preciso em cenários específicos.

Conclusão Simples

A pesquisa nos diz que não existe uma "bala de prata" mágica para parar o ódio na internet. A solução ideal depende de quem você está tentando detectar (o ódio gritado ou o sussurrado) e qual ferramenta você está usando.

Para os sistemas do futuro, a recomendação é: use os "Gêniós" (LLMs) para entender o contexto complexo, mas não descarte os métodos mais simples se eles forem bem treinados. E, acima de tudo, lembre-se de que o ódio mais perigoso é aquele que se esconde nas entrelinhas, exigindo uma atenção muito mais cuidadosa do que apenas procurar palavras proibidas.