Each language version is independently generated for its own context, not a direct translation.
Imagine que você está em uma grande festa (o Twitter, o Reddit, o Facebook) onde as pessoas estão discutindo sobre política, carros ou criptomoedas. Algumas pessoas só falam, outras mostram fotos engraçadas ou memes, e todas têm personalidades muito diferentes.
O objetivo deste artigo é ensinar um computador a entender o que as pessoas realmente pensam nessas conversas, mesmo quando elas estão usando imagens, sarcasmo ou referências pessoais.
Aqui está a explicação simples, dividida em partes:
1. O Problema: A "Festa" estava sendo mal interpretada
Os pesquisadores dizem que os computadores atuais estão cometendo dois erros graves ao tentar entender essas conversas:
- Erro 1: A "Falsa Multimídia" (Pseudo-multimodality): Imagine que você está lendo uma conversa. O primeiro post tem uma foto engraçada, mas todos os comentários seguintes são apenas texto. Os computadores antigos tratavam a foto como se fosse apenas um cenário de fundo e ignoravam que os comentários também poderiam ter imagens ou que a foto inicial mudava o tom de tudo. É como tentar entender uma piada visual ignorando a reação das pessoas que estão rindo.
- Erro 2: A "Homogeneidade" (Tratar todos iguais): Os modelos antigos tratam todos os usuários como se fossem a mesma pessoa. Eles não percebem que o "João" é sempre otimista e usa ironia, enquanto a "Maria" é séria e direta. Se o computador não conhece a personalidade de quem está falando, ele pode interpretar mal uma crítica sarcástica como um elogio.
2. A Solução: O Novo Mapa (U-MStance)
Para consertar isso, os autores criaram um novo "mapa" (um conjunto de dados chamado U-MStance).
- É como um diário gigante de 40.000 conversas reais.
- A grande novidade? Eles anotaram quem disse o quê, incluindo fotos e comentários, e guardaram o histórico de cada pessoa. Agora, o computador sabe que "quem" está falando é tão importante quanto "o que" está sendo dito.
3. O Herói: PRISM (O Detetive de Personalidades)
Eles criaram um novo sistema chamado PRISM. Pense nele como um detetive superinteligente que usa três truques para entender a conversa:
Truque 1: O Perfil Psicológico (Persona):
Antes de analisar o comentário atual, o PRISM olha para o histórico da pessoa. Ele usa uma teoria famosa (os 5 grandes traços de personalidade) para criar um "perfil" do usuário.- Analogia: É como se o detetive dissesse: "Ah, este usuário é muito 'neurotico' (emocional) e 'aberto' a novas ideias. Quando ele posta uma foto de um carro com um sorriso torto, ele provavelmente está sendo irônico, não feliz."
Truque 2: O Tradutor de Imagens (Grounding Racional):
O PRISM não apenas "vê" a foto; ele pensa sobre ela. Ele usa uma técnica chamada "Cadeia de Pensamento" (Chain-of-Thought) para perguntar: "Por que essa foto foi postada aqui? O que ela quer dizer com o texto?"- Analogia: Em vez de apenas descrever "há um cachorro na foto", o PRISM diz: "O cachorro está olhando para o relógio porque a pessoa está reclamando que o tempo está passando rápido". Ele conecta a imagem ao contexto da conversa.
Truque 3: O Treinamento Duplo (Reforço Mútuo):
O PRISM é treinado para fazer duas coisas ao mesmo tempo:- Adivinhar a opinião (Está a favor ou contra?).
- Escrever uma resposta que faria sentido para aquela pessoa.
- Analogia: É como um ator que, para entender o papel, não apenas lê o roteiro, mas também ensaia a resposta do outro personagem. Ao tentar "falar como o usuário", o modelo entende melhor o que o usuário está sentindo.
4. O Resultado: Quem Ganhou?
Eles testaram o PRISM contra outros modelos famosos (como o GPT-4 e outros sistemas de IA).
- O Veredito: O PRISM venceu! Ele foi muito melhor em entender sarcasmo, ironia e opiniões complexas, especialmente quando havia fotos envolvidas.
- A Lição: Para entender o que as pessoas pensam na internet, você não pode olhar apenas para as palavras. Você precisa olhar para quem está falando (sua personalidade) e como as imagens e textos se misturam na conversa.
Resumo em uma frase
O PRISM é um novo sistema de IA que, em vez de tratar todos os usuários como robôs iguais, cria perfis de personalidade e analisa o contexto das fotos para entender de verdade se alguém está zangado, feliz ou apenas fazendo uma piada na internet.