Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments

Este artigo descreve como o uso de um modelo de linguagem grande (LLM) especializado e ajustado para gerar milhões de rótulos de relevância textual permitiu aprimorar o sistema de classificação da App Store, resultando em ganhos simultâneos na relevância comportamental e textual e em um aumento estatisticamente significativo na taxa de conversão, especialmente para consultas de cauda longa.

Evangelia Christakopoulou, Vivekkumar Patel, Hemanth Velaga, Sandip Gaikwad, Sean Suchter, Venkat Sundaranatha

Publicado Tue, 10 Ma
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que a App Store é uma biblioteca gigante com milhões de livros (aplicativos). O trabalho do "bibliotecário" (o algoritmo de busca) é adivinhar qual livro você quer ler quando você diz apenas uma palavra-chave, como "receita de bolo".

O grande desafio que os cientistas da Apple enfrentaram é o seguinte: eles têm dois tipos de feedback para saber se o bibliotecário está fazendo um bom trabalho, mas um deles é muito mais raro que o outro:

  1. O Feedback dos Usuários (Comportamento): É fácil. Se você clica no livro ou o baixa, o sistema sabe: "Ok, esse foi bom!". Isso acontece milhões de vezes por dia.
  2. O Feedback do Especialista (Texto/Semântica): É difícil. Um humano precisa ler o título, a descrição e a sua pergunta e dizer: "Esse livro combina perfeitamente com o que você pediu, mesmo que ninguém tenha baixado ainda". Isso é caro, demorado e eles têm poucos desses especialistas.

O Problema: O sistema estava muito bom em adivinhar o que as pessoas clicavam, mas ruim em entender o que elas realmente queriam quando não havia muitos cliques (como em perguntas estranhas ou muito específicas).

A Solução: O "Estagiário Inteligente" (LLM)

Para resolver a falta de especialistas, a equipe criou um Estagiário Inteligente (um Modelo de Linguagem Grande, ou LLM). A ideia era treinar esse estagiário para agir como um especialista humano, mas em velocidade de computador.

Eles testaram três versões desse estagiário:

  • Um estagiário gigante, mas que nunca estudou as regras da biblioteca (Modelo Pré-treinado Grande).
  • Um estagiário médio, que também não estudou as regras (Modelo Pré-treinado Médio).
  • Um estagiário médio, mas que leu todos os manuais e fez um curso intensivo com os especialistas humanos (Modelo Ajustado/Fine-tuned).

A Grande Surpresa: O estagiário médio que fez o curso (o modelo ajustado) ficou muito melhor do que o gigante que não estudou. Ele aprendeu a "falar a língua" da Apple e a julgar a relevância dos aplicativos com a mesma precisão de um humano, mas gerando milhões de avaliações em segundos.

O Resultado: Um Mapa Mais Preciso

Com esse estagiário gerando milhões de novas "avaliações de especialista", eles puderam ensinar o bibliotecário principal (o algoritmo de busca) de uma forma nova.

Imagine que o bibliotecário estava tentando equilibrar dois pratos:

  • Prato A: O que as pessoas clicam.
  • Prato B: O que faz sentido semanticamente (o que o especialista diz).

Antes, o Prato B estava vazio porque faltavam avaliações. Agora, com o estagiário enchendo o Prato B, o bibliotecário conseguiu encontrar o equilíbrio perfeito.

O que aconteceu na prática?

  1. Melhoria Geral: O sistema ficou melhor em tudo. As pessoas encontraram o que queriam mais rápido.
  2. O Milagre da "Cauda": O maior ganho aconteceu nas perguntas raras (as "caudas" da distribuição).
    • Analogia: Se você pergunta "como consertar um relógio de bolso de 1890", quase ninguém clica em nada porque é algo muito específico. O sistema antigo ficava perdido. Mas o novo sistema, com a ajuda do estagiário, sabia que o aplicativo de "relojoeiro" era a resposta perfeita, mesmo sem ninguém ter baixado antes. Ele preencheu as lacunas onde os dados de usuários não chegavam.

O Teste Final (A/B Test)

Eles colocaram esse novo sistema para funcionar no mundo real, para milhões de usuários ao redor do globo.

  • Resultado: A taxa de conversão (pessoas que baixaram um app após pesquisar) aumentou em 0,24%.
  • Parece pouco? Em uma empresa gigante como a Apple, isso significa milhões de aplicativos baixados a mais e usuários muito mais felizes.

Resumo em uma frase

A Apple usou uma Inteligência Artificial treinada para agir como um "juiz especialista" e gerar milhões de avaliações de qualidade, permitindo que o sistema de busca entendesse melhor o que os usuários querem, especialmente nas perguntas difíceis e raras onde os dados de cliques não ajudam.