Scaling Multilingual Semantic Search in Uber Eats Delivery

Each language version is independently generated for its own context, not a direct translation.

Imagine que o Uber Eats é uma cidade gigante, cheia de milhões de restaurantes, pratos deliciosos e itens de supermercado. Antigamente, quando você digitava "pizza" na busca, o sistema funcionava como um bibliotecário um pouco desatualizado: ele só olhava para as palavras exatas que você escreveu. Se você digitasse "pizza de pepperoni" e o restaurante estivesse cadastrado como "pizza com pepperoni", o sistema podia não te encontrar. Era como tentar achar uma agulha num palheiro usando apenas uma lupa de palavras-chave.

Os autores deste artigo (da equipe do Uber Eats) decidiram construir um bibliotecário superinteligente que entende o que você realmente quer, não apenas o que você escreveu. Eles chamam isso de "Busca Semântica".

Aqui está a história de como eles fizeram isso, explicada de forma simples:

1. O Grande "Cérebro" Único (O Modelo Unificado)

Antes, o Uber Eats tinha "cérebros" separados: um para restaurantes, outro para pratos e outro para mercado. Era como ter três bibliotecários diferentes que não conversavam entre si.

A Solução: Eles criaram um único "cérebro" (um modelo de Inteligência Artificial baseado no Qwen2, um tipo de LLM muito poderoso) que entende tudo ao mesmo tempo.
A Analogia: Imagine um tradutor universal que, ao ouvir "quero algo rápido para o jantar", sabe que pode sugerir um restaurante de fast-food, um prato específico de macarrão ou até uma pizza pronta do mercado, dependendo do que você costuma fazer. Ele unificou tudo em um só lugar.

2. A Técnica do "Boneco Russa" (MRL)

Um dos maiores desafios é que a internet é rápida, mas o cérebro da IA é grande. Se a IA for muito detalhada, ela demora para responder. Se for muito simples, ela erra.

A Solução: Eles usaram uma técnica chamada MRL (Matryoshka Representation Learning).
A Analogia: Pense em um boneco russa (Matryoshka). Você pode ter o boneco inteiro (1536 dimensões de detalhes), que é perfeito para encontrar a resposta exata, mas é pesado. Mas, se você estiver com pressa, pode usar apenas o "cabeça" do boneco (128 dimensões), que é leve e rápido, mas ainda guarda a ideia principal.
O Resultado: O mesmo modelo serve para situações onde você precisa de velocidade (como em celulares antigos) e para situações onde você quer a máxima precisão, sem precisar carregar vários modelos diferentes.

3. O Treinamento: De "Leitura de Livro" a "Estágio na Cozinha"

Como ensinar essa IA a entender o Uber Eats?

Fase 1 (A Base): Eles pegaram o modelo Qwen2, que já lia milhões de livros e sabia de tudo (conhecimento geral), e o colocaram para "ler" milhões de buscas reais de usuários do Uber Eats. Eles viram o que as pessoas clicavam e o que colocavam no carrinho.
Fase 2 (O Refinamento): Depois, usaram uma IA ainda mais inteligente (um "professor") para criar um teste de "casos difíceis". Por exemplo: "Se o usuário digita 'chocolate', ele quer chocolate em pó ou um bolo de chocolate?". O modelo foi treinado especificamente para não errar nessas pegadinhas.
A Analogia: É como pegar um estudante universitário brilhante (o modelo base) e dar a ele um estágio de 6 meses na cozinha do Uber Eats, onde ele aprende os segredos do negócio, e depois faz um exame final com as perguntas mais difíceis que os clientes já fizeram.

4. A Entrada de Dados: O "Formulário" vs. O "Bloco de Texto"

Para a IA entender melhor, eles não jogaram o texto de forma bagunçada.

A Solução: Eles organizaram os dados como um formulário estruturado (JSON). Em vez de apenas "Pizza, pepperoni, saborosa", a IA vê: Nome: Pizza, Ingrediente: Pepperoni, Categoria: Italiana.
A Analogia: É a diferença entre ler uma carta escrita à mão, rabiscada, e ler um formulário preenchido com campos claros. A IA entende muito melhor quando as informações estão organizadas em caixinhas separadas.

5. O Resultado na Vida Real

O que aconteceu quando eles ligaram isso no app?

Mais Acertos: O sistema encontrou muito mais coisas que os usuários queriam (a taxa de "recall" aumentou drasticamente).
Menos "Nada Encontrado": A quantidade de vezes que o usuário buscava algo e o sistema dizia "não temos nada" caiu quase 70%.
Mais Vendas: Como as pessoas encontraram o que queriam mais rápido, elas compraram mais.
Custo: Graças à técnica do "Boneco Russa" e à compressão dos dados (quantização), eles conseguiram fazer tudo isso sem gastar uma fortuna em servidores.

Resumo Final

Os autores criaram um sistema de busca inteligente que:

Entende o contexto (não só palavras-chave).
Funciona em vários idiomas e para vários tipos de produtos (comida, mercado) ao mesmo tempo.
É flexível: pode ser rápido ou detalhado dependendo da necessidade.
Foi treinado com dados reais de milhões de usuários para aprender o que as pessoas realmente querem.

É como substituir um bibliotecário que só sabe ler etiquetas por um concierge pessoal que conhece seus gostos, entende o que você diz (mesmo que você erre a palavra) e te leva direto para o que você precisa, seja um hambúrguer ou um pacote de arroz.

Scaling Multilingual Semantic Search in Uber Eats Delivery

1. O Grande "Cérebro" Único (O Modelo Unificado)

2. A Técnica do "Boneco Russa" (MRL)

3. O Treinamento: De "Leitura de Livro" a "Estágio na Cozinha"

4. A Entrada de Dados: O "Formulário" vs. O "Bloco de Texto"

5. O Resultado na Vida Real

Resumo Final

Resumo Técnico: Escalonamento da Busca Semântica Multilíngue no Uber Eats

1. O Problema

2. Metodologia

3. Principais Contribuições

4. Resultados

5. Significado e Conclusão

Scaling Multilingual Semantic Search in Uber Eats Delivery

1. O Grande "Cérebro" Único (O Modelo Unificado)

2. A Técnica do "Boneco Russa" (MRL)

3. O Treinamento: De "Leitura de Livro" a "Estágio na Cozinha"

4. A Entrada de Dados: O "Formulário" vs. O "Bloco de Texto"

5. O Resultado na Vida Real

Resumo Final

Resumo Técnico: Escalonamento da Busca Semântica Multilíngue no Uber Eats

1. O Problema

2. Metodologia

3. Principais Contribuições

4. Resultados

5. Significado e Conclusão

Mais como este

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities