RPM: Reasoning-Level Personalization for Black-Box Large Language Models

Este trabalho apresenta o RPM, um novo framework que supera as limitações da personalização em nível de resposta ao introduzir a personalização em nível de raciocínio, permitindo que modelos de linguagem de caixa-preta descubram automaticamente estruturas de raciocínio específicas do usuário a partir de dados comportamentais brutos para guiar inferências personalizadas e interpretáveis.

Jieyong Kim, Tongyoung Kim, Soojin Yoon, Jaehyung Kim, Dongha Lee

Publicado 2026-03-03
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está pedindo uma recomendação de filme para um amigo que conhece seus gostos há anos. Ele sabe que você adora comédias românticas dos anos 90 e odeia filmes de terror.

Agora, imagine que você pede a mesma recomendação para um robô superinteligente (um Modelo de Linguagem Grande, ou LLM), mas que é uma "caixa preta". Você não pode mexer no cérebro dele, nem ensinar novos fatos. Ele só responde com base no que já sabe.

O problema é que, até agora, esses robôs eram como um garçom genérico: ele olha para o que você pediu ("quero um filme") e traz o prato mais popular da casa, ignorando se você prefere salgado ou doce. Os métodos antigos de personalização tentavam consertar isso apenas mostrando ao robô o que você pediu no passado e dizendo: "Olha, ele gosta disso aqui, então faça igual". Mas isso é superficial; o robô apenas imita o prato, sem entender por que você gosta dele.

A Solução: RPM (Personalização no Nível do Raciocínio)

Os autores deste paper, da Universidade Yonsei, criaram algo chamado RPM. Em vez de apenas mostrar o prato final, o RPM ensina ao robô como pensar como você.

Vamos usar uma analogia para entender como o RPM funciona:

1. A Metáfora do "Detetive de Gostos"

Imagine que o RPM é um detetive particular que trabalha para você.

  • O que os outros fazem (Personalização de Resposta): O detetive olha para a sua lista de compras passada e diz: "Ah, você comprou leite, então vou sugerir café". É uma correlação simples e burra.
  • O que o RPM faz (Personalização de Raciocínio): O detetive não olha apenas para o leite. Ele investiga por que você comprou leite.
    • Ele descobre que você compra leite orgânico quando está preocupado com saúde.
    • Ele nota que você compra leite desnatado quando está fazendo dieta.
    • Ele percebe que você compra leite de amêndoas quando está com amigos veganos.

O RPM transforma esses dados brutos em padrões de raciocínio. Ele cria um "mapa mental" seu.

2. Como o RPM Constrói esse Mapa (Os 3 Passos Mágicos)

O paper descreve três etapas principais que o sistema faz automaticamente:

  • Passo 1: Encontrar os "Ingredientes" (Extração de Características)
    Quando você dá um feedback (ex: "Adorei este filme porque o final foi surpreendente"), o RPM não apenas anota "final surpreendente". Ele quebra isso em ingredientes: "surpresa", "final", "emoção". Ele separa o que é importante do que é ruído.

  • Passo 2: Criar as "Regras de Ouro" (Construção de Fatores)
    O RPM agrupa esses ingredientes em categorias maiores, que ele chama de Fatores.

    • Exemplo: Se você sempre elogia filmes com "final surpreendente" e "trilha sonora emocionante", o RPM cria um fator chamado "Drama Emocionante".
    • Ele também calcula estatísticas: "Quando o fator 'Drama Emocionante' aparece, o usuário dá nota 5 em 90% das vezes". Isso é como dizer ao robô: "Se você vir esse ingrediente, lembre-se que eu gosto muito disso".
  • Passo 3: O "Treinamento com Exemplos" (Construção de Raciocínio)
    Aqui está a mágica. O RPM pega um exemplo antigo seu (ex: "Gostei do filme X") e escreve um diário de raciocínio explicando como você chegou àquela conclusão.

    • Exemplo de Raciocínio: "O usuário gostou do filme X porque ele tinha um final surpreendente (Fator: Drama Emocionante), e o usuário historicamente dá notas altas para finais surpreendentes."
    • Quando você faz uma nova pergunta, o RPM procura exemplos antigos onde você usou esse mesmo raciocínio e mostra para o robô: "Veja como você pensou da última vez que viu algo parecido. Pense assim agora."

Por que isso é tão importante?

  1. Não é apenas "Copiar e Colar": Os métodos antigos tentavam fazer o robô imitar sua resposta final. O RPM faz o robô entender a lógica por trás da sua resposta. É a diferença entre alguém que decora a resposta de uma prova e alguém que entende a matéria.
  2. Transparência (Interpretabilidade): Como o RPM usa esses "diários de raciocínio", você pode ver exatamente por que o robô sugeriu algo. Ele não diz apenas "Recomendo este filme". Ele diz: "Recomendo este filme porque você costuma gostar de finais surpreendentes, e este filme tem um final surpreendente". Isso gera confiança.
  3. Funciona sem mexer no cérebro do robô: Como o robô é uma "caixa preta" (você não pode reprogramá-lo), o RPM não precisa de treinamento pesado. Ele apenas organiza seus dados e os entrega de uma forma que o robô consegue entender e seguir.

Resumo em uma frase

O RPM é como dar ao robô um manual de instruções personalizado escrito na sua própria lógica, ensinando-o não apenas o que você gosta, mas como você pensa sobre o que gosta, resultando em respostas muito mais precisas e que parecem realmente feitas para você.

É como se, em vez de um garçom que apenas repete seu pedido, você tivesse um chef de cozinha que entende seus paladares e cria pratos personalizados baseados na sua história culinária.