Not All Candidates are Created Equal: A Heterogeneity-Aware Approach to Pre-ranking in Recommender Systems

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é o dono de um grande shopping center (o sistema de recomendação) e recebe milhões de visitantes todos os dias. O seu objetivo é mostrar a cada pessoa as lojas e produtos que eles mais vão gostar. Mas, como você não tem tempo de mostrar tudo para todos, você precisa de um processo em etapas.

O artigo que você leu descreve uma nova inteligência artificial chamada HAP, criada pela ByteDance (dona do TikTok e do app de notícias Toutiao), para otimizar essa etapa intermediária chamada "pré-classificação".

Aqui está a explicação simplificada, usando analogias do dia a dia:

1. O Problema: A "Salada de Frutas" Confusa

Antes do HAP, o sistema tratava todos os produtos que apareciam na tela de forma igual. Imagine que você tem uma caixa misturando:

Pedras: Coisas óbvias que ninguém quer (ex: um anúncio de sapato para quem só gosta de livros).
Pedras preciosas: Coisas que o usuário vai amar.
Pedras quase preciosas: Coisas que são muito parecidas com o que o usuário gosta, mas não são perfeitas.

O problema é que, ao treinar o "cérebro" da IA com essa caixa misturada, as pedras preciosas difíceis (as que são quase perfeitas) gritam tão alto que o cérebro ignora as pedras comuns (que são fáceis de identificar).

A metáfora: É como tentar estudar para uma prova com um professor que grita apenas sobre as questões mais difíceis. Você acaba esquecendo as questões fáceis e gastando tempo demais tentando resolver o impossível, enquanto as fáceis ficam sem atenção. Isso gera um "conflito" no aprendizado.

Além disso, o sistema antigo usava um "supercomputador" gigante para analisar tudo, desde uma pedra comum até uma joia rara. Isso é um desperdício de energia e dinheiro, como usar um helicóptero para ir à padaria.

2. A Solução: O HAP (O Gerente Inteligente)

O HAP resolve isso com duas estratégias principais:

A. O Treinamento Equilibrado (A "Sala de Aula Dividida")

Em vez de misturar tudo, o HAP separa os alunos (os dados) por dificuldade:

Ele cria grupos de estudo separados para os "fáceis" e os "difíceis".
A analogia: Imagine que o professor dá uma prova separada para quem tem dificuldade em matemática e outra para quem é avançado. Assim, o professor pode focar em ajudar quem precisa sem que os avançados fiquem entediados ou atrapalhados.
Tecnicamente, isso se chama Aprendizado Contrastivo Harmonizado de Gradiente. Em português simples: é uma regra matemática que garante que o "grito" das pedras difíceis não abafe o aprendizado das pedras fáceis.

B. O Roteamento Inteligente (O "Filtro de Segurança")

O HAP não usa o "supercomputador" para tudo. Ele usa um sistema de dois andares:

O Filtro Rápido (Modelo Leve): Um funcionário rápido e barato olha para todos os produtos. Ele diz: "Isso aqui é óbvio que não serve, jogue fora". Ele descarta 90% das coisas ruins rapidamente.
O Especialista (Modelo Complexo): Só os produtos que o funcionário rápido não conseguiu decidir (os "difíceis" ou "quase perfeitos") são enviados para o especialista. O especialista usa todo o seu poder de processamento apenas nesses casos difíceis.

A analogia: É como um aeroporto. O funcionário de entrada (leve) verifica passaportes de turistas comuns rapidamente. Só quem tem um visto especial ou uma situação complicada é enviado para o supervisor (especialista) para uma análise detalhada. Isso economiza tempo e dinheiro.

3. O Resultado na Vida Real

Quando essa ideia foi colocada em prática no app de notícias Toutiao (um gigante chinês de notícias):

Mais tempo de uso: As pessoas ficaram 0,4% mais tempo no app (o que, para milhões de usuários, é um número gigantesco).
Mais dias ativos: As pessoas voltaram ao app em 0,05% mais dias.
Sem gastar mais: O sistema ficou mais inteligente, mas não gastou mais energia de computador. Na verdade, ficou mais eficiente.

Resumo Final

O HAP é como ter um gerente de equipe que sabe exatamente quem é bom em tarefas simples e quem é um gênio para tarefas complexas. Em vez de jogar todos os funcionários em todas as tarefas, ele divide o trabalho:

Separa o que é fácil do que é difícil.
Ensina a equipe de forma que ninguém fique confuso.
Usa o "superpoder" da equipe apenas quando realmente necessário.

O resultado? Um sistema de recomendação que entende melhor o que você quer, sem custar mais caro para a empresa.

Each language version is independently generated for its own context, not a direct translation.

Título: Nem Todos os Candidatos são Iguais: Uma Abordagem Consciente da Heterogeneidade para Pré-Ordenação em Sistemas de Recomendação

Autores: Pengfei Tong, Siyuan Chen, Chenwei Zhang, Bo Wang, Qi Pi, Pixun Li, Zuotao Liu (ByteDance).
Evento: WWW '26 (Dubai, 2026).

1. O Problema: Heterogeneidade e Conflitos de Gradiente

Os sistemas de recomendação em larga escala utilizam um pipeline em cascata (Recuperação $\rightarrow$ Pré-ordenamento $\rightarrow$ Ordenação $\rightarrow$ Re-ordenamento). O estágio de pré-ordenamento é crítico, pois deve filtrar milhares de itens recuperados para algumas centenas em milissegundos.

O artigo identifica dois desafios fundamentais não resolvidos pelas abordagens atuais:

Conflitos de Gradiente (Gradient Conflicts):
- Os dados de treinamento no pré-ordenamento são altamente heterogêneos, misturando amostras "fáceis" (itens claramente irrelevantes) e "difíceis" (itens quase positivos, difíceis de distinguir).
- A prática comum de misturar indiscriminadamente essas amostras leva a um dominância de amostras difíceis. Em funções de perda como BCE (Binary Cross-Entropy) e InfoNCE, as amostras difíceis geram gradientes desproporcionalmente grandes.
- Isso causa conflitos de otimização: o modelo é forçado a focar excessivamente nos casos difíceis (ruído), negligenciando as amostras fáceis e levando a mínimos locais subótimos e instabilidade no treinamento.
Ineficiência Computacional (Blind Model Scaling):
- A prática industrial comum é aumentar o tamanho do modelo para capturar padrões complexos.
- No entanto, modelos grandes oferecem retornos assimétricos: melhoram significativamente a precisão em candidatos difíceis, mas desperdiçam recursos computacionais em candidatos fáceis, que poderiam ser resolvidos por modelos leves. Isso resulta em um custo computacional alto sem ganhos proporcionais de desempenho global.

2. Metodologia: Framework HAP

Os autores propõem o HAP (Heterogeneity-Aware Adaptive Pre-ranking), um framework unificado que aborda tanto a otimização quanto a alocação de recursos. O HAP consiste em dois componentes principais:

A. Aprendizado Contrastivo com Harmonização de Gradientes (GHCL)

Para resolver os conflitos de gradiente, o HAP introduz uma nova função de perda que desacopla o cálculo dos gradientes entre grupos de dificuldade.

Separação de Amostras: Os negativos são divididos em conjuntos de "Difíceis" (Expostos não clicados e Negativos de Ordenação) e "Fáceis" (Negativos de Pré-ordenamento e Aleatórios Globais).
Mecanismo: Em vez de calcular uma única perda InfoNCE sobre todos os negativos (o que cria um acoplamento onde os difíceis dominam o denominador), o GHCL calcula perdas independentes para cada subgrupo e as soma.
Resultado: Isso atua como um fator de correção, reduzindo a razão entre os gradientes das amostras difíceis e fáceis, equilibrando a contribuição de cada grupo e estabilizando a convergência.

B. Roteamento de Modelos Consciente da Dificuldade (DAMR)

Para resolver a ineficiência computacional, o HAP adota uma arquitetura de duas etapas (Cascata):

Filtro de Baixo Custo (Modelo Leve): Um modelo leve processa todos os candidatos recuperados. Ele é treinado com todos os tipos de negativos (usando GHCL) para garantir cobertura ampla e filtrar rapidamente os itens "fáceis" e irrelevantes.
Ordenação Fina (Modelo Expressivo): Apenas os candidatos restantes (que são predominantemente "difíceis" e ambíguos) são encaminhados para um modelo mais complexo e expressivo. Este modelo é treinado exclusivamente nos negativos mais difíceis.

Benefício: Aloca recursos computacionais pesados apenas onde são necessários, mantendo a precisão em casos complexos enquanto reduz drasticamente o custo total de inferência.

C. Implementação e Engenharia de Dados

Pipeline de Dados: Foi desenvolvido um pipeline de amostragem em lista (list-wise) que captura feedback de múltiplos estágios (exposição, pré-ordenamento, ordenação).
Dataset: Os autores lançaram o ToutiaoRec, um dataset industrial de grande escala com cobertura de múltiplos estágios, anotações de nível de ranking e feedback diversificado (cliques, curtidas, comentários), projetado para pesquisa reprodutível.

3. Principais Contribuições

Framework Unificado com Fundamentação Teórica: O HAP é o primeiro framework a tratar simultaneamente os conflitos de gradiente e a ineficiência de alocação de recursos no pré-ordenamento, com análise teórica sobre a dominância de gradientes em BCE e InfoNCE.
Novo Dataset Industrial (ToutiaoRec): Disponibilização de um dataset massivo e totalmente anotado que cobre todo o pipeline de recomendação, permitindo o estudo sistemático da heterogeneidade de candidatos.
Ganhos Práticos Significativos: Implementação bem-sucedida em escala industrial no sistema de recomendação do Toutiao (uma das maiores plataformas de notícias da China).

4. Resultados Experimentais

Desempenho Offline (AUC)

O HAP superou consistentemente os modelos State-of-the-Art (SOTA) como DSSM, COLD, COPR e HCCP.
Aumento de AUC: Melhorias notáveis foram observadas tanto em conjuntos de negativos difíceis (THard) quanto fáceis (TEasy). O modelo demonstrou maior robustez na distinção de candidatos ambíguos.
Estabilidade: A ablação do módulo GHCL resultou em quedas significativas de desempenho, confirmando sua importância para a estabilidade do treinamento.

Desempenho Online (Implantação no Toutiao)

O HAP foi implantado por 9 meses no ambiente de produção, resultando em:

+0.05% no número de dias ativos dos usuários.
+0.4% na duração total de uso do aplicativo.
+3.0% na Taxa de Clique (CTR).
Eficiência: Apesar de usar um modelo expressivo, o custo computacional total (FLOPs e latência) foi reduzido em 6% em comparação com o modelo SOTA anterior, pois o modelo pesado só processa uma fração dos candidatos.

Análise de Compromisso (Trade-off)

Estudos de ablação mostraram que o roteamento adaptativo (DAMR) permite encontrar o ponto ótimo entre custo e precisão. Ajustar o limiar de roteamento (quantos candidatos passam para o modelo pesado) permite controlar a latência sem sacrificar significativamente a qualidade.

5. Significado e Impacto

Este trabalho é significativo por mudar o paradigma de como os sistemas de recomendação lidam com a diversidade de dados de treinamento:

Mudança de Paradigma: Em vez de tratar todos os candidatos da mesma forma (mistura cega) ou apenas aumentar o tamanho do modelo, o HAP propõe uma abordagem adaptativa e consciente da dificuldade.
Solução Industrial Viável: Demonstra que é possível melhorar a precisão e reduzir custos simultaneamente, um desafio raro em sistemas de produção de larga escala.
Reprodutibilidade: A liberação do dataset ToutiaoRec preenche uma lacuna crítica na pesquisa, permitindo que a comunidade científica estude problemas de heterogeneidade e viés de seleção de amostras com dados reais e completos.

Em resumo, o HAP prova que a heterogeneidade dos candidatos não é apenas um ruído a ser ignorado, mas uma característica estrutural que, se explorada corretamente através de harmonização de gradientes e roteamento inteligente, pode levar a sistemas de recomendação mais eficientes e eficazes.