Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments

Each language version is independently generated for its own context, not a direct translation.

Imagine que a App Store é uma biblioteca gigante com milhões de livros (aplicativos). O trabalho do "bibliotecário" (o algoritmo de busca) é adivinhar qual livro você quer ler quando você diz apenas uma palavra-chave, como "receita de bolo".

O grande desafio que os cientistas da Apple enfrentaram é o seguinte: eles têm dois tipos de feedback para saber se o bibliotecário está fazendo um bom trabalho, mas um deles é muito mais raro que o outro:

O Feedback dos Usuários (Comportamento): É fácil. Se você clica no livro ou o baixa, o sistema sabe: "Ok, esse foi bom!". Isso acontece milhões de vezes por dia.
O Feedback do Especialista (Texto/Semântica): É difícil. Um humano precisa ler o título, a descrição e a sua pergunta e dizer: "Esse livro combina perfeitamente com o que você pediu, mesmo que ninguém tenha baixado ainda". Isso é caro, demorado e eles têm poucos desses especialistas.

O Problema: O sistema estava muito bom em adivinhar o que as pessoas clicavam, mas ruim em entender o que elas realmente queriam quando não havia muitos cliques (como em perguntas estranhas ou muito específicas).

A Solução: O "Estagiário Inteligente" (LLM)

Para resolver a falta de especialistas, a equipe criou um Estagiário Inteligente (um Modelo de Linguagem Grande, ou LLM). A ideia era treinar esse estagiário para agir como um especialista humano, mas em velocidade de computador.

Eles testaram três versões desse estagiário:

Um estagiário gigante, mas que nunca estudou as regras da biblioteca (Modelo Pré-treinado Grande).
Um estagiário médio, que também não estudou as regras (Modelo Pré-treinado Médio).
Um estagiário médio, mas que leu todos os manuais e fez um curso intensivo com os especialistas humanos (Modelo Ajustado/Fine-tuned).

A Grande Surpresa: O estagiário médio que fez o curso (o modelo ajustado) ficou muito melhor do que o gigante que não estudou. Ele aprendeu a "falar a língua" da Apple e a julgar a relevância dos aplicativos com a mesma precisão de um humano, mas gerando milhões de avaliações em segundos.

O Resultado: Um Mapa Mais Preciso

Com esse estagiário gerando milhões de novas "avaliações de especialista", eles puderam ensinar o bibliotecário principal (o algoritmo de busca) de uma forma nova.

Imagine que o bibliotecário estava tentando equilibrar dois pratos:

Prato A: O que as pessoas clicam.
Prato B: O que faz sentido semanticamente (o que o especialista diz).

Antes, o Prato B estava vazio porque faltavam avaliações. Agora, com o estagiário enchendo o Prato B, o bibliotecário conseguiu encontrar o equilíbrio perfeito.

O que aconteceu na prática?

Melhoria Geral: O sistema ficou melhor em tudo. As pessoas encontraram o que queriam mais rápido.
O Milagre da "Cauda": O maior ganho aconteceu nas perguntas raras (as "caudas" da distribuição).
- Analogia: Se você pergunta "como consertar um relógio de bolso de 1890", quase ninguém clica em nada porque é algo muito específico. O sistema antigo ficava perdido. Mas o novo sistema, com a ajuda do estagiário, sabia que o aplicativo de "relojoeiro" era a resposta perfeita, mesmo sem ninguém ter baixado antes. Ele preencheu as lacunas onde os dados de usuários não chegavam.

O Teste Final (A/B Test)

Eles colocaram esse novo sistema para funcionar no mundo real, para milhões de usuários ao redor do globo.

Resultado: A taxa de conversão (pessoas que baixaram um app após pesquisar) aumentou em 0,24%.
Parece pouco? Em uma empresa gigante como a Apple, isso significa milhões de aplicativos baixados a mais e usuários muito mais felizes.

Resumo em uma frase

A Apple usou uma Inteligência Artificial treinada para agir como um "juiz especialista" e gerar milhões de avaliações de qualidade, permitindo que o sistema de busca entendesse melhor o que os usuários querem, especialmente nas perguntas difíceis e raras onde os dados de cliques não ajudam.

Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments

A Solução: O "Estagiário Inteligente" (LLM)

O Resultado: Um Mapa Mais Preciso

O Teste Final (A/B Test)

Resumo em uma frase

Resumo Técnico: Escalando a Relevância de Pesquisa com Julgamentos Gerados por LLMs na App Store

1. O Problema

2. Metodologia

3. Contribuições Principais

4. Resultados

5. Significado e Conclusão

Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments

A Solução: O "Estagiário Inteligente" (LLM)

O Resultado: Um Mapa Mais Preciso

O Teste Final (A/B Test)

Resumo em uma frase

Resumo Técnico: Escalando a Relevância de Pesquisa com Julgamentos Gerados por LLMs na App Store

1. O Problema

2. Metodologia

3. Contribuições Principais

4. Resultados

5. Significado e Conclusão

Mais como este

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models