MALicious INTent Dataset and Inoculating LLMs for Enhanced Disinformation Detection

Each language version is independently generated for its own context, not a direct translation.

Imagine que a internet é uma grande praça pública onde todos podem falar. Infelizmente, algumas pessoas usam essa praça não para conversar, mas para espalhar mentiras com um objetivo específico: enganar, assustar ou manipular a todos. Isso é a desinformação.

A maioria das pesquisas tenta apenas identificar o que é mentira. Mas este artigo, chamado MALINT, pergunta algo mais profundo: "Por que eles estão mentindo?" e "Como podemos 'vacinar' os computadores contra isso?".

Aqui está a explicação do trabalho, traduzida para uma linguagem simples e cheia de analogias:

1. O Problema: O "Porquê" da Mentira

Até agora, os computadores (Inteligência Artificial) eram treinados para dizer "Isso é falso" ou "Isso é verdade". Mas eles não entendiam a intenção maliciosa por trás da mentira.

A Analogia: Imagine que você vê um homem correndo na rua. Um detector simples diz: "Ele está correndo". Mas um detetive experiente pergunta: "Ele está correndo para pegar um ônibus ou está fugindo de um ladrão?".
A Solução: Os autores criaram o MALINT, o primeiro "dicionário" em inglês que não apenas marca mentiras, mas classifica a intenção do mentiroso. Eles definiram 5 tipos de "motivos malignos":
1. Destruir a confiança: Fazer as pessoas desconfiarem do governo ou de hospitais.
2. Mudar opiniões políticas: Tentar fazer você odiar um candidato ou amar um extremista.
3. Atacar aliados: Fazer os países amigos (como a OTAN ou a UE) parecerem inimigos.
4. Semear ódio: Criar brigas entre grupos de pessoas (xenofobia, racismo).
5. Atacar a ciência: Fazer as pessoas acharem que vacinas ou a ciência são inimigas.

Eles reuniram 1.600 artigos e pediram para especialistas em verificação de fatos (os "detetives" da internet) rotularem cada um desses motivos.

2. O Teste: Quem é o Melhor Detetive?

Os autores testaram 12 "cérebros" de computador (desde modelos pequenos e rápidos até os gigantes como o Llama 3 e o GPT-4) para ver quem conseguia identificar melhor essas intenções.

O Resultado: Os modelos pequenos e treinados especificamente para isso (como o DeBERTa) foram ótimos em encontrar várias intenções ao mesmo tempo. Já os modelos gigantes (LLMs), quando usados sem treino prévio, foram bons, mas às vezes se confundiam com a complexidade de várias mentiras numa só notícia.

3. A Grande Inovação: A "Vacina" contra Mentiras

A parte mais criativa do artigo usa uma ideia da psicologia chamada Teoria da Inoculação.

A Analogia: Na medicina, para não ficar doente de uma gripe forte, você toma uma vacina com uma versão fraca do vírus. Seu corpo aprende a lutar contra ele antes de o vírus real chegar.
A Aplicação: Os autores perguntaram: "E se ensinarmos a Inteligência Artificial a reconhecer a intenção de mentir antes de ela tentar detectar a mentira?"

Eles criaram um método chamado Inoculação Baseada em Intenção (IBI). Funciona assim:

O Alerta (A Ameaça): Eles dizem ao computador: "Cuidado! Este texto pode estar tentando manipular você."
O Anticorpo (A Refutação): Antes de pedir para o computador decidir se é mentira ou não, eles pedem: "Analise primeiro: qual é a intenção maligna aqui? É para destruir a confiança? É para mudar votos?".
A Decisão: Com essa "vacina" (a análise da intenção) em mente, o computador decide se o texto é desinformação.

O Resultado Milagroso:
Ao usar essa "vacina", os computadores ficaram muito melhores em detectar mentiras, mesmo em textos que eles nunca viram antes.

Em inglês, a precisão subiu cerca de 9%.
Em outros idiomas (como estoniano e polonês), a melhoria foi ainda maior, chegando a 20% ou 25%.

4. Por que isso importa?

Imagine que você está tentando pegar um ladrão. Se você só olhar para o rosto dele, pode errar. Mas se você souber como ele pensa, qual é o seu plano e onde ele quer chegar, você consegue pegá-lo muito mais fácil.

Este trabalho mostra que, para combater a desinformação, não basta apenas olhar para as palavras. Precisamos entender a estratégia por trás delas. Ao "vacinar" a Inteligência Artificial com o conhecimento sobre essas estratégias, conseguimos criar um sistema de defesa muito mais forte para proteger a nossa democracia e a verdade.

Resumo em uma frase:
Os autores criaram um novo mapa das intenções das mentiras e usaram esse mapa para "treinar" os computadores a se defenderem de desinformação como se tivessem tomado uma vacina, tornando-os muito mais inteligentes e rápidos para identificar o perigo.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: MALINT e Inoculação de LLMs para Detecção de Desinformação

1. Problema e Motivação

A criação e disseminação intencional de desinformação representam uma ameaça crítica ao discurso público. Embora existam diversos conjuntos de dados e pesquisas em inglês sobre detecção de desinformação, a maioria ignora a intencionalidade (a motivação maliciosa por trás do conteúdo). A definição oficial da União Europeia de desinformação enfatiza que o conteúdo deve ser "projetado, apresentado e promovido para causar intencionalmente dano público ou lucro".

A lacuna identificada pelos autores é a falta de recursos em inglês que não apenas classifiquem o conteúdo como falso, mas que também anotem os tipos de intenções maliciosas dos agentes de desinformação. Sem compreender a intenção, os modelos de IA podem falhar em detectar nuances persuasivas ou em generalizar para novos contextos.

2. Metodologia

O trabalho propõe uma abordagem em duas frentes principais: a criação de um novo dataset e a aplicação de uma técnica de "inoculação" baseada em teoria psicológica.

A. O Dataset MALINT (MALicious INTent)

Descrição: É o primeiro corpus em inglês anotado por humanos que captura tanto a desinformação quanto as intenções maliciosas subjacentes.
Colaboração: Desenvolvido em parceria com especialistas em fact-checking de organizações acreditadas pela International Fact-Checking Network (IFCN).
Estrutura de Anotação:
1. Credibilidade: Classificação binária (Credível vs. Desinformação) baseada em técnicas de desmascaramento (debunking).
2. Intenção Maliciosa: Para textos classificados como desinformação, são anotadas cinco categorias de intenção (multirrotulagem):
  - UCPI: Minar a credibilidade de instituições públicas.
  - CPV: Mudar visões políticas.
  - UIOA: Minar organizações e alianças internacionais.
  - PSSA: Promover estereótipos sociais/antagonismos.
  - PASV: Promover visões anti-científicas.
Estatísticas: O dataset contém 1.600 artigos de notícias com anotações passo a passo para garantir transparência e reprodutibilidade.

B. Inoculação Baseada em Intenção (IBI - Intent-Based Inoculation)

Fundamento Teórico: Baseia-se na Teoria da Inoculação da psicologia e comunicação. Assim como vacinas expõem o corpo a uma versão enfraquecida de um vírus para criar imunidade, a IBI expõe o modelo de linguagem a uma análise da intenção maliciosa para "vaciná-lo" contra a persuasão da desinformação.
Mecanismo:
1. Ameaça ( $\theta$ ): Um aviso textual de que o texto pode conter intenção maliciosa oculta.
2. Preempção Refutatória ($AI(T)$): Uma análise estruturada gerada pelo próprio LLM sobre quais tipos de intenção maliciosa estão presentes no texto (usando a taxonomia do MALINT).
3. Prompt de Detecção: O texto original, o aviso de ameaça e a análise de intenção são combinados para que o modelo realize a detecção final de desinformação.

C. Avaliação Experimental

Modelos: 12 modelos de linguagem foram avaliados:
- SLMs (Small Language Models): BERT, RoBERTa, DeBERTa, DistilBERT (fine-tuned).
- LLMs (Large Language Models): GPT-4o Mini, GPT-4.1 Mini, Gemini 2.0 Flash, Gemma 3, Llama 3.3 (zero-shot).
Tarefas:
1. Classificação de Intenção: Detecção binária e multirrotulada das 5 categorias de intenção.
2. Detecção de Desinformação: Comparação entre métodos de baseline (VaN, Z-CoT, DeF-SpeC) e o método proposto IBI.
Conjuntos de Dados de Teste: MALINT e 5 outros datasets (ISOT, CoAID, EUDisinfo, ECTF, EUvsDisinfo) cobrindo diferentes gêneros (artigos vs. posts), períodos temporais (antes/depois do cutoff de conhecimento do modelo) e 6 idiomas (Inglês, Alemão, Espanhol, Polonês, Estoniano, Russo).

3. Principais Contribuições

MALINT Dataset: O primeiro corpus em inglês com anotações humanas detalhadas de intenção maliciosa, desenvolvido com especialistas, incluindo anotações de cada etapa do processo.
Benchmark de Classificação de Intenção: Avaliação sistemática de 12 modelos (SLMs e LLMs) na tarefa de identificar intenções maliciosas, estabelecendo baselines para o campo.
Método IBI (Inoculação Baseada em Intenção): Proposta e validação de uma técnica que integra a análise de intenção como um mecanismo de raciocínio aumentado para melhorar a detecção de desinformação em configuração zero-shot.
Validação Multilíngue e Temporal: Demonstração de que a abordagem funciona não apenas em inglês, mas também em idiomas de baixa recursos (como Estoniano) e em dados não vistos durante o treinamento (pós-cutoff).

4. Resultados Chave

Classificação de Intenção:
- Nos modelos SLMs (fine-tuned), o DeBERTa V3 Large e RoBERTa alcançaram os melhores resultados (F1 ponderado de ~82% na tarefa multirrotulada).
- Nos LLMs (zero-shot), o desempenho variou, com o Llama 3.3 70B superando SLMs em algumas categorias binárias, mas ficando atrás dos SLMs fine-tuned na tarefa multirrotulada complexa.
Detecção de Desinformação com IBI:
- A técnica IBI superou consistentemente os métodos de baseline competitivos.
- Ganhos de Desempenho: Média de 9% de melhoria no F1 em datasets de inglês.
- Generalização: A melhoria foi ainda mais significativa em outros idiomas, com ganhos médios de 20% (chegando a 25% em Estoniano).
- Robustez Temporal: O IBI melhorou a detecção tanto em dados conhecidos quanto em dados publicados após a data de cutoff de conhecimento dos modelos, embora os ganhos tenham sido maiores em artigos longos (que oferecem mais contexto para o raciocínio de intenção).
- Significância Estatística: O teste de McNemar confirmou que a melhoria é estatisticamente significativa (p < 0.01) na maioria dos cenários.

5. Significância e Impacto

Este trabalho é fundamental porque:

Muda o Paradigma de Detecção: Move o foco da simples verificação de fatos para a compreensão da intenção estratégica do agente malicioso.
Valida a Teoria da Inoculação em IA: Demonstra empiricamente que princípios psicológicos de resistência à persuasão podem ser aplicados para melhorar a robustez de Grandes Modelos de Linguagem (LLMs) contra desinformação.
Recursos Abertos: A liberação do dataset MALINT, dos prompts e do código permite que a comunidade de pesquisa avance na criação de sistemas de detecção mais sofisticados e éticos.
Aplicabilidade Global: A eficácia em múltiplos idiomas e gêneros sugere que a abordagem é escalável para combater a desinformação em um contexto global, incluindo regiões com menos recursos linguísticos.

Em suma, o estudo prova que "vacinar" modelos de IA com conhecimento sobre as motivações maliciosas dos criadores de desinformação é uma estratégia eficaz para aumentar sua capacidade de detectar conteúdo enganoso, superando métodos tradicionais de prompting.

MALicious INTent Dataset and Inoculating LLMs for Enhanced Disinformation Detection

1. O Problema: O "Porquê" da Mentira

2. O Teste: Quem é o Melhor Detetive?

3. A Grande Inovação: A "Vacina" contra Mentiras

4. Por que isso importa?

Resumo Técnico: MALINT e Inoculação de LLMs para Detecção de Desinformação

1. Problema e Motivação

2. Metodologia

3. Principais Contribuições

4. Resultados Chave

5. Significância e Impacto

Mais como este

Self-Calibrating Language Models via Test-Time Discriminative Distillation

Toward Generalized Cross-Lingual Hateful Language Detection with Web-Scale Data and Ensemble LLM Annotations

HumorGen: Cognitive Synergy for Humor Generation in Large Language Models via Persona-Based Distillation

Generating High Quality Synthetic Data for Dutch Medical Conversations

GIANTS: Generative Insight Anticipation from Scientific Literature