Debiasing Sequential Recommendation with Time-aware Inverse Propensity Scoring

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um chef de cozinha tentando adivinhar qual prato o seu cliente vai pedir amanhã. Para fazer isso, você olha para o que ele pediu nos últimos dias.

O problema é que você só tem acesso ao prato que o cliente pediu, mas não sabe quais pratos o garçom esqueceu de mostrar na mesa, ou quais pratos o cliente viu na lista mas decidiu não pedir porque não estava com fome naquele momento.

Se você ignorar essa "lista invisível" (o que foi mostrado mas não pedido), você vai achar que o cliente odeia aquele prato, quando na verdade ele só não teve a chance de prová-lo. Isso é o que os pesquisadores chamam de viés (ou "bias").

Aqui está a explicação simples do que o artigo "Debiasing Sequential Recommendation with Time-aware Inverse Propensity Scoring" propõe, usando analogias do dia a dia:

1. O Problema: O Chef Cego

Os sistemas de recomendação atuais (como o do Netflix, Spotify ou Amazon) são como esse chef. Eles olham apenas para o que você clicou ou comprou.

O erro: Se o sistema mostra 10 filmes, você clica em 1 e ignora os outros 9. O sistema pensa: "Ah, ele não gosta dos outros 9".
A realidade: Talvez você não tenha clicado nos outros 9 porque eles eram filmes de terror e você só queria comédia, ou porque eles apareceram na lista de forma desorganizada. O sistema não sabe a diferença entre "não gostei" e "não vi com atenção".

Isso cria dois tipos de problemas:

Viés de Exposição: O sistema só recomenda coisas que ele acha que você vai clicar, criando uma bolha.
Viés de Seleção: O sistema acha que você não gosta de coisas que ele nem mostrou direito.

2. A Solução Antiga: A "Ponte" Estática

Antes, os cientistas usavam uma técnica chamada IPS (Pontuação Inversa de Propensão).

A analogia: Imagine que você tenta corrigir o erro do chef dando um "bônus" para os pratos que foram pouco mostrados.
O defeito: A técnica antiga era estática. Ela tratava cada pedido como se fosse um evento isolado, sem considerar que o gosto do cliente muda com o tempo. Era como se o chef dissesse: "Você pediu pizza ontem, então hoje vou te dar um bônus para pizza", ignorando que você pode estar cansado de pizza e querendo sushi hoje.

3. A Inovação: O "Chef com Memória de Tempo" (TIPS/HyperG)

Os autores criaram um novo método chamado TIPS (Pontuação Inversa de Propensão Consciente do Tempo). Eles chamam o sistema de HyperG.

Aqui está como ele funciona, passo a passo:

A. O "E se...?" (Raciocínio Contrafactual)

Como o sistema não tem a lista de tudo o que foi mostrado (os dados de "exposição" são perdidos), ele precisa inventar cenários hipotéticos para aprender.

Analogia: O sistema pergunta a si mesmo: "E se, ao invés de mostrar esse filme de ação, eu tivesse mostrado um filme de comédia parecido na mesma hora? O cliente teria clicado?"
Eles criam três tipos de cenários imaginários para cada interação real:
1. Itens Similares: "E se eu tivesse mostrado um item parecido?"
2. Itens Populares: "E se eu tivesse mostrado o item mais famoso do momento?"
3. Mesmo Item, Hora Diferente: "E se eu tivesse mostrado o mesmo item 10 minutos depois?"

Ao simular esses cenários, o sistema aprende a distinguir o que é popular/exposto do que é realmente gosto do usuário.

B. A Memória do Tempo (O Fator "Cronômetro")

O grande diferencial do HyperG é que ele entende que o tempo importa.

Analogia: Imagine que você gosta de um filme de terror. Se você viu um filme de terror ontem, é provável que você queira ver outro hoje. Mas se você viu um filme de terror há 6 meses, talvez seu gosto tenha mudado.
O método antigo ignorava isso. O HyperG dá um "peso" diferente para o que aconteceu ontem versus o que aconteceu há um ano. Ele sabe que o gosto do usuário é um rio que flui e muda, não uma foto parada.

C. A Recompensa Inteligente

No final, o sistema usa essas simulações para corrigir a "nota" que ele dá para cada item.

Se um item foi pouco mostrado, mas o sistema, através de suas simulações, acha que o usuário teria gostado, ele aumenta a pontuação desse item, dando a ele uma segunda chance de aparecer na sua lista.
Isso quebra o ciclo vicioso onde o sistema só recomenda o óbvio.

Resumo da Ópera

O artigo apresenta uma ferramenta que pode ser "plugada" em qualquer sistema de recomendação existente (seja ele baseado em redes neurais simples ou em modelos generativos avançados).

Em suma:
O sistema antigo era como um vendedor teimoso que só te vende o que você já comprou antes.
O novo sistema (HyperG/TIPS) é como um vendedor esperto que:

Pensa: "E se eu tivesse mostrado isso para ele?"
Lembra: "Ele gostava disso há 3 meses, mas hoje ele mudou de ideia."
Ajusta a recomendação para mostrar coisas novas e relevantes, em vez de apenas repetir o passado.

O resultado? Recomendações mais justas, menos repetitivas e que realmente entendem o que você quer, mesmo que você nunca tenha clicado nelas antes.

Each language version is independently generated for its own context, not a direct translation.

1. Problema: Viés em Recomendação Sequencial (SR)

A Recomendação Sequencial (SR) visa prever a próxima interação de um usuário modelando a ordem temporal de seus comportamentos históricos. No entanto, os modelos existentes (tanto tradicionais quanto generativos) sofrem de dois vieses principais devido à falta de dados de exposição (registros de quais itens foram mostrados ao usuário, mas não clicados):

Viés de Exposição (Exposure Bias): Itens que nunca foram expostos ao usuário são tratados implicitamente como "não interessantes". O modelo não consegue distinguir entre "não exposto" e "não de interesse".
Viés de Seleção (Selection Bias): Itens que foram expostos, mas não interagidos (ex: clicados), são frequentemente interpretados como desinteresse, ignorando que a falta de interação pode ter sido devido à estratégia de exibição ou contexto, e não à preferência do usuário.

Limitação dos Métodos Atuais:
As abordagens tradicionais de Inverse Propensity Scoring (IPS) tentam corrigir esses vieses reponderando as interações observadas pelo inverso da probabilidade de exposição. Contudo, o IPS convencional é estático:

Ignora dependências sequenciais (a próxima interação depende das anteriores).
Ignora dinâmicas temporais (as preferências e a probabilidade de exposição mudam com o tempo, ex: lançamentos novos, promoções).
Falha em capturar a evolução causal das preferências do usuário ao longo do tempo.

2. Metodologia: Time-aware Inverse Propensity Scoring (TIPS)

O artigo propõe o HyperG, um framework plug-and-play que integra a Pontuação de Propensão Inversa Consciente do Tempo (TIPS) aos modelos de recomendação existentes. A metodologia baseia-se em raciocínio contrafactual e causalidade.

A. Modelo Causal Estrutural (SCM)

O modelo define as relações causais entre:

U: Preferências do usuário.
E: Exposição do item (se foi mostrado).
C: Interação/Clique (se foi clicado).
O objetivo é estimar a distribuição de exposição $P(E=1|u)$ sem logs de exposição, distinguindo o caminho causal $E \to C$ (viés de exposição) e $E \to U$ (viés de seleção).

B. Estratégia de Codificação Dupla (Dual Encoding)

Para evitar que a estimativa de propensão dependa das previsões de recomendação (criando viés), o modelo mantém duas matrizes de embeddings separadas:

Embedding de Interação ( $H(C)$ ): Aprende semântica baseada em feedback explícito (cliques).
Embedding de Exposição ( $H(E)$ ): Aprende a distribuição de exposição (popularidade, campanhas), independente da interação.
Além disso, utiliza Embeddings Temporais para capturar intervalos entre interações, reconhecendo que interações recentes refletem melhor as preferências atuais.

C. Construção de Amostras Contrafactuais

Como não há logs de exposição, o sistema gera amostras contrafactuais para estimar a distribuição de exposição. Para cada interação factual $(u, v, t)$ , são criados três pares item-tempo contrafactuais onde o item foi exposto ( $E=1$ ) mas não clicado ( $C=0$ ):

Itens Similares ( $v_{sim}$ ): Itens com embeddings de exposição similares ao item original (assumindo que algoritmos mostram alternativas juntas).
Itens Populares ( $v_{pop}$ ): Itens com alta frequência histórica de exposição (tendências).
Mesmo Item, Tempo Diferente ( $t^*$ ): O mesmo item em um momento ligeiramente diferente (perturbação temporal), simulando reclassificação de curto prazo.

D. Mecanismo de Atenção Cruzada e Propensão

O modelo usa um mecanismo de atenção cruzada onde o embedding do item (factual ou contrafactual) atua como Query, e a sequência histórica de interações do usuário atua como Key e Value.
Isso gera uma pontuação de propensão temporal ( $s_{v,t}$ ), que estima a probabilidade de um item ser exposto em um momento específico, considerando o contexto sequencial.

E. Função de Objetivo de Treinamento

O treinamento otimiza dois objetivos simultaneamente:

Perda de Estimativa de Exposição ( $L_{EP}$ ): Classifica pares item-tempo como expostos (factual + contrafactuais) ou não expostos (amostras aleatórias).
Perda de Recomendação Ajustada ( $L_{BPR-TIPS}$ ): Utiliza a pontuação de propensão temporal para reponderar as interações no Bayesian Personalized Ranking (BPR). A fórmula de ponderação incorpora um decaimento temporal, dando mais peso a interações recentes e corrigindo itens menos expostos.

3. Principais Contribuições

Framework TIPS (HyperG): Propõe uma abordagem agnóstica ao modelo que integra dinâmicas temporais e sequenciais ao IPS, superando a limitação estática dos métodos anteriores.
Estimativa de Exposição sem Logs: Desenvolve um método inovador para estimar a distribuição de exposição de itens utilizando amostras contrafactuais (similares, populares e variações temporais) quando dados de exposição não estão disponíveis.
Correção de Viés Dinâmica: Demonstra como corrigir simultaneamente o viés de exposição e seleção, distinguindo entre "não exposto" e "não de interesse" através de raciocínio contrafactual temporal.
Validação Abrangente: O framework foi testado como um plug-in em três arquiteturas base (Modelos Sequenciais Tradicionais baseados em Atenção, CVAE e Modelos de Difusão) e em quatro conjuntos de dados públicos.

4. Resultados Experimentais

Os experimentos foram conduzidos em quatro datasets: ML-1M, ML-10M, Music4All e GoodReads.

Desempenho Geral: O HyperG superou consistentemente os baselines de última geração (SASRec, TiSASRec, GRU, DiffuRec, CVAE, etc.) em métricas como HR@K e NDCG@K.
- Em modelos sequenciais tradicionais, houve uma melhoria média de ~6% no HR@10 e ~5% no NDCG@10.
- Em modelos generativos (Difusão), o ganho foi de aproximadamente 5% no HR@10.
Impacto da Escala: A melhoria foi mais pronunciada em datasets grandes e com alta atividade de usuários (ex: Music4All e ML-10M), onde a correção do viés de seleção via IPS é mais eficaz devido à maior quantidade de dados de interação.
Estudo de Ablação:
- Remover a informação temporal (HyperG ¬time) causou queda de desempenho, confirmando a importância da dinâmica temporal.
- Remover o módulo de estimativa de exposição (HyperG ¬EP&time) resultou na maior queda de desempenho, provando que a estimativa contrafactual é crucial.
Análise de Propensão: O HyperG gerou pontuações de propensão mais discriminativas entre itens positivos e negativos em comparação ao IPS tradicional, indicando uma melhor identificação de itens expostos mas não interagidos.

5. Significância e Conclusão

O trabalho apresenta um avanço significativo na área de Recomendação Sequencial ao resolver o problema fundamental da falta de logs de exposição.

Viabilidade Prática: Como o HyperG atua como um plug-in, ele pode ser aplicado a qualquer sistema de recomendação existente sem necessidade de reestruturação completa, tornando-o altamente prático para cenários do mundo real onde dados de exposição são escassos ou inexistentes.
Avanço Teórico: A integração de raciocínio contrafactual com dependências temporais e sequenciais oferece uma nova perspectiva para modelagem causal em recomendações, indo além das correlações estáticas.
Impacto: Ao mitigar vieses de exposição e seleção de forma dinâmica, o sistema aprende preferências mais verdadeiras dos usuários, resultando em recomendações mais justas, diversificadas e precisas, especialmente para itens de nicho ou novos lançamentos que sofrem com viés de popularidade.

Em resumo, o HyperG estabelece um novo estado da arte ao demonstrar que a consideração explícita da temporalidade na estimativa de propensão é essencial para desvendar as verdadeiras preferências do usuário em ambientes de recomendação sequencial.