Hate Speech Detection using Large Language Models with Data Augmentation and Feature Enhancement

Questo studio valuta l'impatto delle tecniche di aumento dei dati e di potenziamento delle caratteristiche sulla rilevazione dell'odio, dimostrando che il modello open-source gpt-oss-20b ottiene i risultati migliori in generale, mentre l'aumento dei dati potenzia significativamente anche i classificatori tradizionali come Delta TF-IDF, pur confermando che la rilevazione dell'odio implicito rimane più complessa di quella esplicita.

Brian Jing Hong Nge, Stefan Su, Thanh Thi Nguyen, Campbell Wilson, Alexandra Phelan, Naomi Pfitzner

Pubblicato 2026-03-06
📖 5 min di lettura🧠 Approfondimento

Each language version is independently generated for its own context, not a direct translation.

Immagina di essere un guardiano di una piazza virtuale molto affollata (come Facebook o Twitter). Il tuo compito è trovare e fermare le persone che urlano insulti, minacce o discorsi d'odio, senza però fermare chi sta solo chiacchierando o scherzando.

Questo compito è diventato molto difficile perché i "cattivi" hanno imparato a nascondersi. Non urlano più a squarciagola (odio esplicito), ma usano frasi subdole, ironiche o codici che solo chi la pensa come loro capisce (odio implicito).

Questo documento di ricerca è come una gara di addestramento per diversi tipi di "guardie" (intelligenze artificiali) per vedere quale funziona meglio e come aiutarle a fare il loro lavoro.

Ecco la spiegazione semplice, punto per punto:

1. Le "Guardie" in gara (I Modelli)

Gli autori hanno messo alla prova diverse "guardie" con livelli di intelligenza diversi:

  • Le vecchie guardie (Delta TF-IDF): Sono come poliziotti che usano un elenco di parole proibite. Se vedono una parola "cattiva" sulla lista, arrestano la persona. Sono veloci e semplici, ma spesso si confondono se il cattivo usa parole diverse.
  • Le guardie moderne (Transformer come DistilBERT, RoBERTa): Sono come detective esperti che leggono il contesto. Capiscono che la parola "cane" può essere un insulto o un animale domestico a seconda della frase.
  • Le super-guardie (LLM come gpt-oss-20b): Sono come geni poliedrici con una memoria enorme. Capiscono sfumature, ironia e sottintesi meglio di chiunque altro.

2. I Problemi che devono risolvere

Le guardie hanno due grossi ostacoli:

  • Il problema del "cane che abbaia": Nella piazza, ci sono milioni di persone che parlano bene e solo poche che urlano insulti. Se la guardia cerca solo gli insulti, rischia di non trovarne mai abbastanza per imparare bene (questo si chiama squilibrio delle classi).
  • Il problema del "camaleonte": I discorsi d'odio nascosti (impliciti) sono difficili da vedere. È come cercare di trovare un camaleonte verde su un albero verde, invece di cercare un pappagallo rosso su un albero verde.

3. I "Trucchi" per aiutare le guardie (Tecnologie di potenziamento)

Per aiutare le guardie a fare meglio, gli scienziati hanno usato quattro trucchi principali:

  • Il Trucco della "Fotocopia Intelligente" (SMOTE): Poiché ci sono pochi esempi di odio, l'AI crea delle "fotocopie" intelligenti di questi esempi per farne di più, così la guardia può esercitarsi di più.
    • Risultato: A volte funziona, a volte crea "rumore" e confonde le guardie più intelligenti.
  • Il Trucco della "Grammatica" (POS Tagging): Insegnano alla guardia a guardare non solo le parole, ma la loro "forma grammaticale" (sostantivo, verbo, aggettivo). È come insegnare a un detective a guardare la struttura della frase, non solo le parole.
    • Risultato: È un trucco sicuro. Funziona quasi sempre un po' meglio, senza rischiare di confondere troppo la guardia.
  • Il Trucco del "Travestimento" (Data Augmentation): Prendono una frase d'odio e la riscrivono in mille modi diversi (cambiando i sinonimi, facendo errori di battitura, cambiando l'ordine delle parole) per creare nuovi esempi di allenamento.
    • Risultato: Qui c'è la sorpresa! Le vecchie guardie (quelle con l'elenco di parole) sono diventate super-veloci con questo trucco, raggiungendo quasi il 100% di precisione su testi espliciti. Le super-guardie, invece, a volte si sono confuse con troppe variazioni.
  • Il Trucco della "Pena Differenziata" (Weighted Loss): Si dice alla guardia: "Se sbagli a non vedere un insulto, la punizione è doppia rispetto a se sbagli a fermare un innocente". Questo la spinge a non perdere nessun insulto.

4. Chi ha vinto la gara?

  • La Super-Guardia (gpt-oss-20b): È stata la vincitrice assoluta. Ha capito meglio di tutte le sfumature, specialmente quelle nascoste (odio implicito). È come avere un detective che legge il pensiero.
  • La Vecchia Guardia (Delta TF-IDF): Ha fatto una sorpresa incredibile. Con il trucco del "Travestimento" (Data Augmentation), è diventata bravissima a catturare gli insulti chiari e diretti, arrivando al 98,2% di precisione su certi testi.
  • La Guardia Equilibrata (RoBERTa): È stata una grande seconda. È quasi potente quanto la super-guardia, ma è molto più leggera e veloce, come una moto veloce invece di un camioncino pesante.

5. Le Conclusioni in parole povere

  1. Nascondersi è difficile: Riuscire a capire l'odio nascosto (implicito) è molto più difficile che capire l'odio urlato (esplicito).
  2. Non esiste una bacchetta magica: Non puoi usare lo stesso trucco per tutte le guardie.
    • Se hai una guardia semplice, dille di leggere più varianti del testo (Data Augmentation).
    • Se hai una guardia intelligente, non esagerare con i trucchi, altrimenti si confonde.
  3. Il futuro: Per fare ancora meglio, avremo bisogno di più dati in diverse lingue e di insegnare alle intelligenze artificiali a "ragionare" passo dopo passo (come fanno i bambini) per capire meglio il contesto.

In sintesi: Per pulire la piazza virtuale, non basta avere un'arma potente (un modello AI gigante). Bisogna scegliere l'arma giusta per il tipo di nemico e addestrarla con i trucchi giusti. A volte, una vecchia guardia con un buon addestramento può battere un gigante, ma per i casi più difficili, serve sempre il genio.