MALicious INTent Dataset and Inoculating LLMs for Enhanced Disinformation Detection

Este trabalho apresenta o MALINT, o primeiro corpus em inglês anotado por humanos para capturar a intenção maliciosa na desinformação, e propõe uma "inoculação baseada em intenção" que integra a análise de intenção para melhorar a detecção de desinformação em modelos de linguagem.

Arkadiusz Modzelewski, Witold Sosnowski, Eleni Papadopulos, Elisa Sartori, Tiziano Labruna, Giovanni Da San Martino, Adam Wierzbicki

Publicado 2026-03-17
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que a internet é uma grande praça pública onde todos podem falar. Infelizmente, algumas pessoas usam essa praça não para conversar, mas para espalhar mentiras com um objetivo específico: enganar, assustar ou manipular a todos. Isso é a desinformação.

A maioria das pesquisas tenta apenas identificar o que é mentira. Mas este artigo, chamado MALINT, pergunta algo mais profundo: "Por que eles estão mentindo?" e "Como podemos 'vacinar' os computadores contra isso?".

Aqui está a explicação do trabalho, traduzida para uma linguagem simples e cheia de analogias:

1. O Problema: O "Porquê" da Mentira

Até agora, os computadores (Inteligência Artificial) eram treinados para dizer "Isso é falso" ou "Isso é verdade". Mas eles não entendiam a intenção maliciosa por trás da mentira.

  • A Analogia: Imagine que você vê um homem correndo na rua. Um detector simples diz: "Ele está correndo". Mas um detetive experiente pergunta: "Ele está correndo para pegar um ônibus ou está fugindo de um ladrão?".
  • A Solução: Os autores criaram o MALINT, o primeiro "dicionário" em inglês que não apenas marca mentiras, mas classifica a intenção do mentiroso. Eles definiram 5 tipos de "motivos malignos":
    1. Destruir a confiança: Fazer as pessoas desconfiarem do governo ou de hospitais.
    2. Mudar opiniões políticas: Tentar fazer você odiar um candidato ou amar um extremista.
    3. Atacar aliados: Fazer os países amigos (como a OTAN ou a UE) parecerem inimigos.
    4. Semear ódio: Criar brigas entre grupos de pessoas (xenofobia, racismo).
    5. Atacar a ciência: Fazer as pessoas acharem que vacinas ou a ciência são inimigas.

Eles reuniram 1.600 artigos e pediram para especialistas em verificação de fatos (os "detetives" da internet) rotularem cada um desses motivos.

2. O Teste: Quem é o Melhor Detetive?

Os autores testaram 12 "cérebros" de computador (desde modelos pequenos e rápidos até os gigantes como o Llama 3 e o GPT-4) para ver quem conseguia identificar melhor essas intenções.

  • O Resultado: Os modelos pequenos e treinados especificamente para isso (como o DeBERTa) foram ótimos em encontrar várias intenções ao mesmo tempo. Já os modelos gigantes (LLMs), quando usados sem treino prévio, foram bons, mas às vezes se confundiam com a complexidade de várias mentiras numa só notícia.

3. A Grande Inovação: A "Vacina" contra Mentiras

A parte mais criativa do artigo usa uma ideia da psicologia chamada Teoria da Inoculação.

  • A Analogia: Na medicina, para não ficar doente de uma gripe forte, você toma uma vacina com uma versão fraca do vírus. Seu corpo aprende a lutar contra ele antes de o vírus real chegar.
  • A Aplicação: Os autores perguntaram: "E se ensinarmos a Inteligência Artificial a reconhecer a intenção de mentir antes de ela tentar detectar a mentira?"

Eles criaram um método chamado Inoculação Baseada em Intenção (IBI). Funciona assim:

  1. O Alerta (A Ameaça): Eles dizem ao computador: "Cuidado! Este texto pode estar tentando manipular você."
  2. O Anticorpo (A Refutação): Antes de pedir para o computador decidir se é mentira ou não, eles pedem: "Analise primeiro: qual é a intenção maligna aqui? É para destruir a confiança? É para mudar votos?".
  3. A Decisão: Com essa "vacina" (a análise da intenção) em mente, o computador decide se o texto é desinformação.

O Resultado Milagroso:
Ao usar essa "vacina", os computadores ficaram muito melhores em detectar mentiras, mesmo em textos que eles nunca viram antes.

  • Em inglês, a precisão subiu cerca de 9%.
  • Em outros idiomas (como estoniano e polonês), a melhoria foi ainda maior, chegando a 20% ou 25%.

4. Por que isso importa?

Imagine que você está tentando pegar um ladrão. Se você só olhar para o rosto dele, pode errar. Mas se você souber como ele pensa, qual é o seu plano e onde ele quer chegar, você consegue pegá-lo muito mais fácil.

Este trabalho mostra que, para combater a desinformação, não basta apenas olhar para as palavras. Precisamos entender a estratégia por trás delas. Ao "vacinar" a Inteligência Artificial com o conhecimento sobre essas estratégias, conseguimos criar um sistema de defesa muito mais forte para proteger a nossa democracia e a verdade.

Resumo em uma frase:
Os autores criaram um novo mapa das intenções das mentiras e usaram esse mapa para "treinar" os computadores a se defenderem de desinformação como se tivessem tomado uma vacina, tornando-os muito mais inteligentes e rápidos para identificar o perigo.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →