Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um robô inteligente (um modelo de linguagem) a detectar discurso de ódio nas redes sociais.

O problema é que o ódio nem sempre é gritado. Às vezes, ele é sussurrado.

O Problema: O "Ódio Sussurrado"

Existem dois tipos de ódio:

Ódio Explícito: É como alguém gritando insultos na sua cara. É óbvio, fácil de detectar. O robô aprende isso rápido.
Ódio Implícito: É como alguém dizendo: "Ah, aquele grupo de pessoas não gosta de ler livros, né?" (sem dizer que eles são "burros" ou "inferiores"). A frase parece inocente, mas carrega um preconceito profundo.

Os robôs atuais (como o BERT) são ótimos em pegar o ódio gritado, mas falham miseravelmente no ódio sussurrado. Por quê? Porque, na superfície, a frase de ódio implícito parece muito parecida com uma frase normal e inofensiva. O robô fica confuso: "Isso é ofensivo ou é só uma observação?"

A Solução: O "FiADD" (O Detetive com Lupa)

Os autores criaram um novo método chamado FiADD. Pense nele como um detetive que não olha apenas para a frase, mas entende a intenção por trás dela.

O FiADD faz três coisas mágicas para treinar o robô:

1. O "Tradutor de Intenção" (Inferential Infusion)

Imagine que o robô vê a frase: "Eles só gostam de música e esportes, não leem nada."
Sozinha, essa frase é confusa. O FiADD cria uma "versão traduzida" da intenção oculta: "Eles são burros e sem cultura."
Durante o treinamento, o robô é forçado a ver a frase original e a sua "versão traduzida" como se fossem irmãos gêmeos. Ele aprende que, embora as palavras sejam diferentes, o significado profundo é o mesmo. Isso ajuda o robô a entender que aquela frase "inocente" é, na verdade, um grito de ódio disfarçado.

2. O "Organizador de Salas" (Adaptive Density Discrimination)

Imagine que você tem três salas em uma casa:

Sala A: Pessoas Normais (Não-ódio).
Sala B: Gritadores (Ódio Explícito).
Sala C: Sussurradores (Ódio Implícito).

O problema é que a Sala C (Sussurradores) está muito perto da Sala A (Pessoas Normais). As pessoas estão se misturando na porta.
O FiADD age como um organizador de festa que pega os "Sussurradores" e os empurra para longe das "Pessoas Normais", criando uma barreira clara. Ao mesmo tempo, ele agrupa os "Sussurradores" que são parecidos entre si, criando subgrupos mais organizados dentro da Sala C.

3. O "Foco nos Casos Difíceis" (Focal Weight)

Imagine que você está corrigindo provas. Você dá a mesma atenção para todas as questões fáceis e difíceis? Não, você foca mais nas que o aluno errou.
O FiADD faz o mesmo. Ele identifica as frases que estão "na linha tênue" (aquelas que o robô quase classifica errado) e dá um "soco" extra no treinamento para garantir que o robô aprenda a diferença. Ele ignora um pouco o óbvio e foca no difícil.

O Resultado: Um Robô Mais Esperto

Os autores testaram esse método em vários datasets (conjuntos de dados) de redes sociais como Twitter e Gab.

O que aconteceu? O robô ficou muito melhor em detectar o ódio que está escondido.
Funciona só para ódio? Não! Eles testaram em sarcasmo, ironia e postura. Funcionou em tudo isso também. Por quê? Porque sarcasmo e ironia também são coisas que dizem uma coisa, mas querem dizer outra (ex: "Que dia lindo!" quando está chovendo). O FiADD ensina o robô a entender essa "dualidade".

Analogia Final: O Detetive de Mistério

Pense no modelo de linguagem antigo como um detetive que só prende quem está com a arma na mão (ódio explícito). Se o criminoso esconde a arma e usa uma frase engraçada para ofender, o detetive deixa ele ir.

O FiADD é como dar ao detetive um manual de psicologia e uma lupa. Agora, ele não olha apenas para a arma; ele olha para o comportamento, entende a intenção oculta e percebe que, mesmo sem arma, a pessoa ainda é perigosa.

Em resumo: O FiADD ensina a inteligência artificial a ler entre as linhas, transformando frases que parecem inofensivas em evidências claras de ódio, protegendo melhor as comunidades online.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: FiADD para Detecção de Discurso de Ódio Implícito

1. O Problema

A detecção automatizada de discurso de ódio enfrenta um desafio significativo com o discurso de ódio implícito. Diferente do ódio explícito, que utiliza marcadores diretos (como insultos ou palavrões), o ódio implícito depende de estereótipos, contexto cultural e inferência para ser compreendido.

Limitação dos Modelos Atuais: Modelos de Linguagem Pré-treinados (PLMs), como o BERT, tendem a performar bem em ódio explícito, mas falham em capturar nuances implícitas. Isso ocorre porque, no espaço latente, amostras de ódio implícito são semanticamente e lexicalmente muito próximas de amostras neutras (não-ódio), enquanto o ódio explícito forma clusters distintos.
Desafio de Distribuição: A distribuição de dados é enviesada; amostras implícitas são menos frequentes e mais difíceis de classificar corretamente devido à sua proximidade com o espaço de "não-ódio".
Falhas de Abordagens Existentes: Técnicas de aprendizado contrastivo (per-sample) e a injeção de conhecimento externo (como tuplas de grafos de conhecimento) muitas vezes introduzem ruído ou não conseguem alinhar adequadamente a forma superficial do texto com seu significado implícito.

2. Metodologia: Framework FiADD

Os autores propõem o FiADD (Focused Inferential Adaptive Density Discrimination), um novo framework que aprimora o pipeline de fine-tuning de PLMs. O objetivo é trazer a forma superficial do discurso de ódio implícito mais perto de sua forma inferida (significado implícito), enquanto aumenta a distância entre os clusters de diferentes classes.

O framework combina três componentes principais:

A. Injeção Inferencial (Inferential Infusion)

Para cada amostra de ódio implícito, o modelo utiliza uma anotação externa (texto descritivo) que explica o significado implícito ou o estereótipo subjacente.

O objetivo é reduzir a distância no espaço latente entre a representação do texto original ( $r_d$ ) e a representação do seu significado inferido ( $\tilde{r}_d$ ).
Isso é feito através de uma modificação na função de perda, forçando o cluster implícito a se alinhar semanticamente com sua explicação inferida.

B. Discriminação Adaptativa de Densidade (ADD)

Em vez de usar perda contrastiva padrão (que compara pares individuais), o FiADD utiliza ADD (Adaptive Density Discrimination), também conhecida como Magnet Loss.

Mecanismo: O ADD agrupa as amostras dentro de uma classe em subclusters locais (via K-means) e seleciona um "cluster semente" e "clusters impostores" (de outras classes) baseados na proximidade local.
Vantagem: Isso permite uma discriminação mais robusta baseada na densidade local e na variabilidade do espaço latente, em vez de apenas pares isolados.

C. Focal Weighting (Ponderação Focal)

Inspira-se na Focal Loss para lidar com amostras difíceis.

Amostras que estão próximas à fronteira de decisão (onde a classificação é mais difícil e o erro é maior) recebem um peso maior na função de perda.
A função de perda final combina a Perda de Entropia Cruzada (ACE) com a perda adaptativa focal com injeção inferencial ( $\ell_{ADD_{inf+foc}}$ ).

Equação de Perda Final:
$\ell(\Theta) = \beta \ell_{CE}(\Theta) + (1 - \beta) \ell_{ADD^*}(\Theta)$
Onde $\ell_{ADD^*}$ pode ser a versão com ou sem injeção inferencial, ponderada pelo termo focal $(1 - p)^{\gamma}$ .

3. Contribuições Chave

Framework FiADD: Introdução de uma nova abordagem que combina aprendizado de métricas de distância (ADD) com injeção de contexto inferencial e ponderação focal para detecção de ódio implícito.
Análise de Espaços Latentes: Demonstração empírica de que o ódio implícito está mais próximo do "não-ódio" do que do "ódio explícito" no espaço latente de modelos base, justificando a necessidade de alinhar as representações superficiais com as inferidas.
Novos Conjuntos de Dados Anotados: Criação manual de anotações de "significado implícito" para 798 amostras do conjunto AbuseEval e 404 amostras do ImpGab, enriquecendo os corpora de detecção de ódio implícito.
Generalização: Validação do framework não apenas em detecção de ódio, mas também em tarefas onde a forma superficial difere do significado (sarcasmo, ironia e postura/stance), demonstrando a versatilidade da abordagem.

4. Resultados Experimentais

Os experimentos foram conduzidos em três conjuntos de dados de ódio (LatentHatred, ImpGab, AbuseEval) e três tarefas SemEval (Sarcasmo, Ironia, Postura), utilizando modelos como BERT, HateBERT e XLM.

Classificação de Ódio (2 e 3 vias):
- O FiADD superou consistentemente a linha de base (ACE + BERT/HateBERT).
- Na classificação de 3 vias (Não-ódio, Ódio Explícito, Ódio Implícito), houve melhorias significativas na classe minoritária de Ódio Implícito (ex: aumento de 3.26% a 4.39% no F1 macro para LatentHatred e ImpGab).
- O componente de injeção inferencial foi crucial para a classificação de 3 vias, enquanto a ponderação focal ajudou em ambos os cenários.
Generalização (Sarcasmo, Ironia, Postura):
- O framework também melhorou o desempenho nessas tarefas, especialmente nas classes minoritárias (ex: +23.96% no F1 para a classe minoritária de sarcasmo).
Análise do Espaço Latente:
- Aumento da Separação: O uso do FiADD aumentou a pontuação de Silhueta (medida de qualidade de clusterização), indicando que os subclusters dentro de cada classe foram melhor segregados.
- Aproximação Semântica: A pontuação de Silhueta entre os clusters de "texto superficial" e "texto inferido" diminuiu drasticamente sob o FiADD, confirmando que o modelo aprendeu a alinhar a superfície com o significado implícito.
Impacto do Modelo de Domínio:
- Curiosamente, o modelo específico de domínio (HateBERT) não superou consistentemente o BERT padrão quando combinado com o FiADD, sugerindo que o framework de aprendizado de métricas é mais importante do que o pré-treinamento específico em dados ofensivos para esta tarefa.

5. Significância e Conclusão

O FiADD representa um avanço significativo na detecção de discurso de ódio implícito ao abordar a raiz do problema: a ambiguidade semântica e a proximidade no espaço vetorial entre ódio e neutralidade.

Inovação Técnica: Ao mover-se além da perda de entropia cruzada padrão e incorporar a densidade local e o contexto inferencial, o modelo consegue "desvendar" o ódio implícito.
Impacto Social: A detecção precoce e precisa de ódio implícito é vital para moderadores de conteúdo, ajudando a prevenir a escalada de discursos de ódio e reduzindo o impacto psicológico em grupos-alvo.
Limitações e Futuro: O método atual depende de anotações manuais para o contexto inferencial. Trabalhos futuros visam usar modelos generativos para pseudo-anotar esses significados e otimizar a eficiência computacional do clustering (K-means) durante o treinamento.

Em suma, o FiADD demonstra que alinhar a superfície do texto com seu significado inferido, através de uma discriminação de densidade adaptativa e focada, é uma estratégia eficaz para superar as limitações atuais dos PLMs na detecção de ódio sutil.

Focal Inferential Infusion Coupled with Tractable Density Discrimination for Implicit Hate Detection