Hate Speech Detection using Large Language Models with Data Augmentation and Feature Enhancement

Each language version is independently generated for its own context, not a direct translation.

Imagine que a internet é uma enorme praça pública, cheia de pessoas conversando. Infelizmente, alguns grupos usam essa praça para espalhar ódio e ideias extremistas. O problema é que, às vezes, eles não gritam "Eu odeio você!" (o ódio explícito); às vezes, eles usam piadas, códigos ou frases sutis que só fazem sentido para quem está "por dentro" (o ódio implícito).

Este artigo é como um manual de instruções para construir guardiões digitais (inteligências artificiais) capazes de identificar esse ódio, seja ele gritado ou sussurrado.

Aqui está a explicação do que os pesquisadores fizeram, usando analogias do dia a dia:

1. O Desafio: Encontrar a Agulha no Palheiro

Os pesquisadores tinham quatro "caixas de areia" (conjuntos de dados) diferentes para treinar seus guardiões:

O Stormfront: Um fórum antigo onde o ódio é gritado bem alto e claro (fácil de detectar).
O Gab & Reddit: Conversas em redes sociais onde o ódio se mistura com discussões normais.
O Hate Corpus: O nível mais difícil. Aqui, o ódio é "implícito", como um código secreto ou uma piada de duplo sentido. É como tentar achar uma agulha num palheiro onde a agulha está pintada da mesma cor do palha.
O Merged: Uma mistura de tudo isso.

2. Os "Guardiões" (Os Modelos)

Eles testaram diferentes tipos de "cérebros" para ver quem era melhor em pegar o ódio:

O Velho e Sábio (Delta TF-IDF): Um método antigo e simples. Ele conta palavras. É como um professor que só olha para a frequência de palavras específicas. Não é muito inteligente, mas é rápido.
Os Estudantes de Pós-Graduação (DistilBERT, RoBERTa, DeBERTa): Modelos de IA modernos que entendem contexto. Eles são como alunos que leram milhões de livros e entendem a diferença entre "isso é uma piada" e "isso é um ataque".
Os Gêniós (Gemma-7B e gpt-oss-20b): Modelos gigantes de Inteligência Artificial (LLMs). São como detetives superpoderosos que conseguem ler entrelinhas e entender nuances complexas. O gpt-oss-20b foi o campeão absoluto, agindo como o "Sherlock Holmes" definitivo.

3. Os Truques de Treinamento (Aumentação de Dados e Melhorias)

Só dar um livro de regras para o guarda não é suficiente. Os pesquisadores usaram truques para melhorar o treinamento:

SMOTE (O Fotógrafo de Fake): Como há muito mais gente "boa" do que gente "mala" nas caixas de areia, o modelo tendia a ignorar o mal. O SMOTE cria "cópias falsas" (mas inteligentes) de exemplos de ódio para equilibrar a balança. É como se o professor criasse 100 exemplos extras de "agressão" para o aluno estudar, para que ele não esqueça de identificar o perigo.
- Resultado: Funcionou bem para alguns, mas em casos de ódio sutil (implícito), às vezes confundiu os modelos, como se o aluno estivesse estudando exemplos falsos demais e começasse a achar que tudo é perigoso.
Rótulos Gramaticais (POS Tagging): Eles ensinaram os modelos a olhar não só para as palavras, mas para a "gramática" (quem é o verbo, quem é o adjetivo). É como ensinar o guarda a analisar a estrutura da frase, não apenas o conteúdo.
- Resultado: Foi um truque seguro. Funcionou bem para quase todos, sem causar grandes estragos, mas não foi o "milagre" que todos esperavam.
Aumento de Dados (Data Augmentation): Aqui foi o mais divertido. Eles pegaram as frases de ódio e as "reescritaram" de várias formas: trocaram sinônimos, mudaram a ordem das palavras, simularam erros de digitação. É como se o professor dissesse: "Vou te mostrar 100 maneiras diferentes de dizer a mesma coisa ofensiva, para você não ser pego de surpresa".
- Resultado: O grande vencedor para o método antigo! O "Velho e Sábio" (Delta TF-IDF) ficou incrível com esse treino, chegando a 98,2% de precisão no Stormfront. Mas, para os "Gêniós" (LLMs), às vezes esse treino extra os confundiu, como se eles estivessem estudando demais e esquecendo o essencial.

4. As Descobertas Principais

O Ódio Sutil é o Vilão: Detectar ódio explícito (gritado) é fácil. Detectar ódio implícito (sussurrado/código) é muito difícil para qualquer modelo, mesmo os mais inteligentes.
O Tamanho Importa (mas nem sempre): O modelo gigante gpt-oss-20b foi o melhor em quase tudo. Ele entende o contexto melhor que ninguém. Porém, o modelo RoBERTa (menor e mais leve) foi um "cavalo de batalha" muito eficiente, quase tão bom quanto o gigante, mas usando menos energia.
Não existe "Tamanho Único": O que funciona para um modelo pode estragar o outro.
- Se você tem um modelo simples, crie mais exemplos variados (Aumento de Dados).
- Se você tem um modelo gigante, tenha cuidado para não "sobre-treinar" com dados falsos (SMOTE), pois isso pode confundir a inteligência dele.
O Método Antigo ainda tem valor: O Delta TF-IDF, que parecia obsoleto, mostrou que, com os truques certos (como o aumento de dados), ele pode ser extremamente preciso em cenários específicos.

Conclusão Simples

A pesquisa nos diz que não existe uma "bala de prata" mágica para parar o ódio na internet. A solução ideal depende de quem você está tentando detectar (o ódio gritado ou o sussurrado) e qual ferramenta você está usando.

Para os sistemas do futuro, a recomendação é: use os "Gêniós" (LLMs) para entender o contexto complexo, mas não descarte os métodos mais simples se eles forem bem treinados. E, acima de tudo, lembre-se de que o ódio mais perigoso é aquele que se esconde nas entrelinhas, exigindo uma atenção muito mais cuidadosa do que apenas procurar palavras proibidas.

Hate Speech Detection using Large Language Models with Data Augmentation and Feature Enhancement

1. O Desafio: Encontrar a Agulha no Palheiro

2. Os "Guardiões" (Os Modelos)

3. Os Truques de Treinamento (Aumentação de Dados e Melhorias)

4. As Descobertas Principais

Conclusão Simples

Resumo Técnico: Detecção de Discurso de Ódio com Grandes Modelos de Linguagem, Aumento de Dados e Aprimoramento de Recursos

1. Problema e Contexto

2. Metodologia

3. Principais Contribuições

4. Resultados Chave

5. Significado e Conclusão

Hate Speech Detection using Large Language Models with Data Augmentation and Feature Enhancement

1. O Desafio: Encontrar a Agulha no Palheiro

2. Os "Guardiões" (Os Modelos)

3. Os Truques de Treinamento (Aumentação de Dados e Melhorias)

4. As Descobertas Principais

Conclusão Simples

Resumo Técnico: Detecção de Discurso de Ódio com Grandes Modelos de Linguagem, Aumento de Dados e Aprimoramento de Recursos

1. Problema e Contexto

2. Metodologia

3. Principais Contribuições

4. Resultados Chave

5. Significado e Conclusão

Mais como este

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers