Give Users the Wheel: Towards Promptable Recommendation Paradigm

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está dirigindo um carro (o sistema de recomendação) e o GPS (o algoritmo) decide sozinho para onde você deve ir, baseado apenas no seu histórico de viagens passadas. Se você sempre foi para a praia, o GPS continuará mandando você para a praia, mesmo que hoje você queira ir para a montanha ou para um parque de diversões.

É exatamente esse o problema que o artigo "Dê o Volante aos Usuários" (Give Users the Wheel) tenta resolver.

Aqui está uma explicação simples do que os autores propuseram, usando analogias do dia a dia:

1. O Problema: O Carro que Ignora o Motorista

Os sistemas de recomendação atuais (como os da Netflix ou YouTube) são muito bons em olhar para o que você fez no passado. Eles são como um motorista automático muito teimoso.

O Cenário: Você sempre assiste filmes de ação. Um dia, você chega em casa com seus filhos e diz: "Quero assistir a um desenho animado".
A Falha: O sistema ignora seu pedido e continua sugerindo filmes de explosões e perseguições, porque "é isso que você gosta". Ele não entende que, às vezes, você quer mudar de ideia.

2. A Solução: O DPR (Recomendação Desacoplada e Promptável)

Os autores criaram um novo sistema chamado DPR. Pense nele como instalar um volante inteligente no carro. Agora, você pode falar com o GPS e ele muda a rota instantaneamente, sem precisar trocar o motor do carro.

O sistema funciona em três partes principais, que podemos comparar a uma equipe de chefs em uma cozinha:

A. O Chef de Base (O Modelo Sequencial)

Este é o "chefe de cozinha" tradicional. Ele conhece seus gostos históricos. Se você sempre come pizza, ele sabe que você gosta de queijo e molho. Ele é rápido e eficiente, mas não entende pedidos estranhos.

B. O Especialista em Pedidos (O Embedder de Prompt)

Este é o "garçom" que ouve o que você diz. Se você diz "Quero algo leve e sem carne", ele traduz essa frase para a linguagem da cozinha.

C. O Maestro da Cozinha (O Módulo de Fusão e MoE)

Aqui está a mágica. Em vez de apenas adicionar um tempero por cima, o DPR usa uma técnica chamada Mixture-of-Experts (MoE), que funciona como ter dois chefs especializados trabalhando em paralelo:

Chef "Quero" (Positivo): Se você diz "Quero comédia", este chef pega os ingredientes que você gosta (histórico) e mistura com o pedido de comédia, criando algo novo.
Chef "Não Quero" (Negativo): Se você diz "Sem filmes de terror", este chef pega a lista de sugestões e remove imediatamente qualquer ingrediente que cheire a terror, sem estragar o resto do prato.

O sistema decide qual chef usar dependendo se você está pedindo algo (positivo) ou proibindo algo (negativo). Isso evita que as ordens se confundam.

3. Como eles ensinaram o sistema? (O Treinamento em 3 Etapas)

Para que o sistema não ficasse confuso, eles o treinaram em três fases, como se fosse uma escola de direção:

Fase 1 (Aula Teórica): O sistema aprende o básico: "Se o usuário gostou de X, provavelmente vai gostar de Y".
Fase 2 (Aula Prática com Categorias): O sistema aprende a entender categorias grandes, como "Comédia" ou "Ação". É como aprender a virar o volante para a esquerda ou para a direita.
Fase 3 (Aula Avançada de Sentimento): Aqui, o sistema aprende a entender a nuance. Em vez de apenas "Comédia", ele aprende a diferença entre "algo engraçado e caótico" e "algo engraçado e fofo". Eles usaram Inteligência Artificial para criar descrições ricas dos filmes para ajudar o sistema a entender o "vibe" (a atmosfera) do pedido, e não apenas palavras-chave.

4. Por que isso é melhor que usar um "Gênio" (LLM) inteiro?

Muitas pessoas pensam: "Por que não usamos apenas uma Inteligência Artificial gigante (como o ChatGPT) para fazer tudo?"

O Problema do Gênio: Um modelo gigante é lento, caro e, às vezes, esquece o que você gostou no passado porque está focado apenas no que você disse agora. É como ter um motorista que é um ótimo conversador, mas não conhece a cidade.
A Vantagem do DPR: O DPR mantém o "motorista experiente" (o modelo rápido e barato que conhece sua história) e apenas adiciona o "GPS falante" (o comando de linguagem). O resultado é um sistema que é rápido, preciso e obedece suas ordens sem perder a memória do que você gosta.

Resumo Final

O artigo "Dê o Volante aos Usuários" propõe um sistema onde você não é mais um passageiro passivo. Você pode dizer:

"Quero ver algo que me faça rir hoje." (O sistema busca comédias que combinem com seu histórico).
"Não quero ver nada de terror." (O sistema remove terror da lista, mesmo que você assista muito a terror normalmente).

O sistema aprende a equilibrar o que você fez no passado com o que você quer agora, garantindo que você tenha o controle total sobre o que vai assistir, ouvir ou comprar.

Each language version is independently generated for its own context, not a direct translation.

Título: Dê o Controle aos Usuários: Rumo a um Paradigma de Recomendação Promptável

1. O Problema

Os sistemas de recomendação sequencial convencionais (como SASRec e GRU4Rec) são altamente eficazes na mineração de padrões comportamentais implícitos baseados no histórico do usuário. No entanto, eles sofrem de uma cegueira estrutural em relação à intenção explícita do usuário.

Limitação Atual: Se um usuário com histórico de filmes de ação pedir explicitamente "filmes infantis para assistir com meus filhos", os modelos tradicionais tendem a ignorar esse comando e continuar recomendando filmes de ação devido à inércia dos dados históricos.
O Dilema das Soluções Atuais:
- LLM como Recomendador: Substituir o modelo de recomendação por um Modelo de Linguagem Grande (LLM) puro. Isso perde a precisão e eficiência da filtragem colaborativa baseada em IDs e sofre de alta latência de inferência.
- Reordenamento (Reranking): Usar LLMs apenas para reordenar uma lista pré-selecionada. Isso é limitado pela capacidade de "recall" (recuperação) do modelo base; se o item relevante não estiver na lista inicial, o LLM não pode recuperá-lo.

O artigo propõe a necessidade de um sistema que integre nativamente instruções em linguagem natural ao processo de recuperação, sem abandonar os sinais colaborativos.

2. Metodologia: DPR (Decoupled Promptable Sequential Recommendation)

Os autores propõem o DPR, um framework agnóstico ao modelo que capacita backbones sequenciais convencionais a suportar "Recomendação Promptável". O objetivo é modular a representação latente do usuário diretamente no espaço de recuperação usando linguagem natural.

A arquitetura do DPR consiste em três componentes principais:

Codificador Sequencial (Sequential Encoder):
- Um modelo base (ex: SASRec, GRU4Rec) que extrai a representação de interesse intrínseco do usuário ( $h_u$ ) baseada puramente no histórico de interações.
Codificador de Prompt (Prompt Embedder):
- Utiliza um encoder pré-treinado (ex: Sentence-BERT) para transformar a instrução de texto do usuário ( $p$ ) em um vetor semântico ( $c_p$ ).
- Inclui um indicador semântico ( $c \in \{+, -\}$ ) que classifica se o prompt é um desejo positivo ("Quero ver...") ou uma restrição negativa ("Não quero ver...").
Módulo de Fusão de Sinais (Signal Fusion Module) com MoE:
- Arquitetura Mixture-of-Experts (MoE): Para lidar com a complexidade de otimizar direções opostas (ampliar características desejadas vs. suprimir características indesejadas), o DPR utiliza duas torres de fusão independentes:
  - Bloco de Fusão Positiva ( $f^+$ ): Para prompts de "querer".
  - Bloco de Fusão Negativa ( $f^-$ ): Para prompts de "não querer".
- Mecanismo: Usa atenção cruzada multi-cabeça (MHCA) onde a representação do usuário é a Query e o vetor do prompt é a Key/Value.
- Resíduo: A informação do prompt é adicionada à representação original do usuário via conexão residual, preservando a estabilidade do histórico enquanto aplica a modulação.

3. Estratégia de Treinamento (3 Estágios)

Para garantir robustez e alinhamento semântico, o DPR utiliza uma estratégia de treinamento progressiva:

Estágio 1 (Pré-treinamento): Treinamento padrão do encoder sequencial para prever o próximo item (tarefa clássica de recomendação).
Estágio 2 (Ajuste Fino de Categoria): Alinhamento das representações do usuário com embeddings de categorias amplas (gêneros), servindo como uma base semântica.
Estágio 3 (Alinhamento Semântico Profundo):
- Uso de Aumento Semântico: LLMs geram tags descritivas detalhadas (Narração, Atmosfera, Apelo) para os itens, substituindo rótulos de gênero grosseiros.
- Decuplagem Léxica: Para evitar memorização, os prompts de teste são reescritos com sinônimos, forçando o modelo a aprender a semântica latente e não apenas correspondência de palavras-chave.
- Função de Perda Unificada: Otimiza simultaneamente a maximização da probabilidade de itens alvo (para prompts positivos) e a supressão de itens indesejados (para prompts negativos) dentro de um conjunto de alvos contextual.

4. Principais Contribuições

Definição do Paradigma: Formalização da "Recomendação Promptável", que combina a eficiência da filtragem colaborativa com a controlabilidade da linguagem natural.
Arquitetura DPR: Uma solução agnóstica que utiliza um design desacoplado (MoE) para separar gradientes conflitantes de prompts positivos e negativos, evitando conflitos de otimização.
Estratégia de Treinamento: Uma abordagem de 3 estágios com aumento de dados semânticos que permite ao modelo funcionar robustamente tanto com quanto sem prompts.
Desempenho Superior: Evidência empírica de que o DPR supera tanto modelos baseados em LLMs quanto métodos de reordenamento tradicionais.

5. Resultados Experimentais

Os experimentos foram realizados em conjuntos de dados reais (MovieLens-1M e MIND).

Comparação com Baselines Tradicionais:
- No ML-1M, o DPR superou a melhor linha de base de filtragem (Filter) em 71,84% na métrica NDCG@10 para tarefas de direcionamento positivo.
- O DPR demonstrou capacidade de reclassificação (re-ranking) baseada em intenção, "puxando" itens relevantes para o topo da lista, algo que a filtragem heurística simples não consegue fazer eficientemente.
Comparação com LLMs:
- O DPR superou significativamente modelos generativos (como Qwen2.5, Llama-2, RecGPT) em tarefas de recomendação, mantendo alta eficiência e precisão.
- Em tarefas de reordenamento com LLMs, o DPR foi superior, especialmente em tarefas de supressão negativa, onde LLMs tendem a falhar devido à sensibilidade ao ruído em grandes conjuntos de candidatos.
Entendimento de Intenção Implícita:
- Em avaliações usando "LLM como Juiz" para prompts complexos e implícitos (ex: "quero algo caótico para me distrair"), o DPR obteve a maior pontuação geral, equilibrando bem o histórico do usuário com a intenção imediata.
Estudos de Ablação:
- Confirmaram que a arquitetura de Duas Torres (separando positivos e negativos) é crucial; uma torre única causou quedas drásticas de desempenho (até 45% em algumas métricas).
- O treinamento de 3 estágios foi provado superior ao treinamento direto, servindo como uma "andaime" para o alinhamento semântico.

6. Significado e Impacto

O trabalho representa um avanço significativo ao resolver o dilema entre a precisão da filtragem colaborativa e a flexibilidade da linguagem natural.

Eficiência: Ao contrário de usar LLMs pesados para toda a recuperação, o DPR mantém o backbone leve e rápido, usando o LLM apenas para interpretar a intenção e modular a representação latente.
Controle do Usuário: Permite que os usuários assumam o controle ativo das recomendações em tempo real, ajustando o sistema a contextos específicos (ex: assistir com crianças, evitar um gênero específico) sem perder a relevância baseada no histórico.
Futuro: Estabelece um novo padrão para sistemas de recomendação interativos, onde a instrução em linguagem natural é um sinal nativo e não um adendo pós-processamento.

Em resumo, o DPR demonstra que é possível "promptar" modelos de recomendação tradicionais diretamente, criando sistemas que são ao mesmo tempo eficientes, precisos e altamente controláveis pelo usuário.

Give Users the Wheel: Towards Promptable Recommendation Paradigm

1. O Problema: O Carro que Ignora o Motorista

2. A Solução: O DPR (Recomendação Desacoplada e Promptável)

A. O Chef de Base (O Modelo Sequencial)

B. O Especialista em Pedidos (O Embedder de Prompt)

C. O Maestro da Cozinha (O Módulo de Fusão e MoE)

3. Como eles ensinaram o sistema? (O Treinamento em 3 Etapas)

4. Por que isso é melhor que usar um "Gênio" (LLM) inteiro?

Resumo Final

Título: Dê o Controle aos Usuários: Rumo a um Paradigma de Recomendação Promptável

1. O Problema

2. Metodologia: DPR (Decoupled Promptable Sequential Recommendation)

3. Estratégia de Treinamento (3 Estágios)

4. Principais Contribuições

5. Resultados Experimentais

6. Significado e Impacto

Mais como este

Keep Ballots Secret: On the Futility of Social Learning in Decision Making by Voting

Social Teaching: Being Informative vs. Being Right in Sequential Decision Making

Beyond Binomial and Negative Binomial: Adaptation in Bernoulli Parameter Estimation

Homotopy type theory as a language for diagrams of ∞\infty∞-logoses

One is all you need: Second-order Unification without First-order Variables

Homotopy type theory as a language for diagrams of $\infty$ -logoses