TaoSR1: The Thinking Model for E-commerce Relevance Search

O artigo apresenta o TaoSR1, um novo paradigma que adapta Grandes Modelos de Linguagem (LLMs) para a previsão de relevância em buscas de e-commerce, utilizando um processo de três etapas com raciocínio passo a passo (Chain-of-Thought) e otimização de preferências para superar limitações de modelos anteriores e alcançar desempenho superior tanto em testes offline quanto em avaliações online.

Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang, Bo Zheng

Publicado Wed, 11 Ma
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que o Taobao (o "Amazon" da China) é uma biblioteca gigantesca com bilhões de livros (produtos). Quando você entra e pede "um casaco quente para o inverno", o bibliotecário (o sistema de busca) precisa encontrar exatamente o que você quer.

Antigamente, o bibliotecário era como um robô muito rápido, mas um pouco "burro". Ele lia o que você escreveu e procurava palavras-chave. Se você digitasse "casaco quente", ele pegava qualquer coisa que tivesse a palavra "casaco" e "quente". Isso funcionava bem para 90% dos casos, mas falhava miseravelmente nas situações difíceis.

Por exemplo: Se você pedisse "uma alternativa ao casaco da marca X", o robô antigo ficava confuso e te mostrava o próprio casaco da marca X, porque ele só lia as palavras, não entendia a intenção de que você queria algo diferente.

Aqui entra o TaoSR1, o novo "Bibliotecário Pensante" criado pelos pesquisadores do Alibaba.

O Problema: O Robô que Pensou Demais

Os pesquisadores tentaram usar uma Inteligência Artificial muito avançada (um Modelo de Linguagem Grande, ou LLM) que é capaz de raciocinar como um humano. Eles ensinaram a IA a pensar passo a passo antes de dar a resposta, como se ela dissesse: "Hmm, o usuário quer uma alternativa. A marca X é cara. Vou procurar algo similar, mas de outra marca...".

Isso é chamado de Cadeia de Pensamento (CoT).

O problema? Quando a IA tenta pensar muito antes de responder, ela pode cometer um erro no meio do raciocínio (como um aluno que erra a conta de multiplicar na primeira linha e, por isso, erra todo o resto). Além disso, pensar demora muito. Em uma loja online, você não pode esperar 10 segundos para ver os resultados; tem que ser instantâneo.

A Solução: O Método TaoSR1 (3 Passos Mágicos)

Os autores criaram um sistema de três etapas para treinar esse novo bibliotecário, transformando-o em um especialista:

1. O Treinamento com "Pensamento Reverso" (SFT)

Em vez de deixar a IA pensar e depois responder (o que gera erros e demora), eles ensinaram um truque: "Responda primeiro, explique depois".

  • A Analogia: Imagine um jogador de xadrez. Em vez de calcular todas as jogadas possíveis antes de mover a peça (o que pode levar a um erro de cálculo), ele faz o movimento correto baseado na intuição e depois explica por que foi uma boa jogada.
  • Isso permite que a IA seja rápida (dá a resposta certa na hora) mas ainda tenha a capacidade de raciocinar (explica o porquê).

2. O Treinamento de "Escolha e Rejeição" (DPO)

A IA ainda comete erros em casos muito difíceis. Então, eles usaram uma técnica chamada DPO.

  • A Analogia: Imagine que a IA é um estudante fazendo uma prova.
    • Passo A: Eles deixam a IA tentar a prova várias vezes. Se ela acertar pelo menos uma vez entre 5 tentativas, eles pegam essa resposta certa e dizem: "Isso é o que você deve fazer".
    • Passo B: Para as perguntas que a IA nunca acerta (os casos difíceis), eles chamam um "Professor Mestre" (um modelo de IA ainda mais inteligente) para resolver. Eles mostram a resposta do Professor para a IA e dizem: "Olha, veja como um expert faria. Aprenda com isso".
  • Isso ensina a IA a corrigir seus próprios erros e a aprender com mestres quando ela está perdida.

3. O Treinamento com "Foco nos Difíceis" (GRPO)

Agora, a IA está boa, mas ainda alucina (cria justificativas falsas para respostas erradas). Para consertar isso, eles usaram o GRPO.

  • A Analogia: É como um treinador de esportes que ignora os exercícios fáceis. Se o atleta acerta tudo ou erra tudo, o treinador não perde tempo. Ele foca apenas nos exercícios onde o atleta está "na corda bamba" (nem acertou tudo, nem errou tudo).
  • Eles ensinaram a IA a focar apenas nos casos onde ela tem uma chance real de aprender, ignorando os que são impossíveis ou fáceis demais. Isso evita que ela "alucine" justificativas para tentar parecer inteligente.

O Resultado Final: A Classificação Inteligente

No final, o sistema precisa decidir se o produto é "Ótimo", "Médio" ou "Ruim".

  • O Problema Antigo: Era como tentar ajustar um rádio com 4 botões diferentes para encontrar a frequência perfeita. Era chato e difícil de acertar.
  • A Solução TaoSR1 (CumPT): Eles criaram um método onde a IA apenas precisa de um botão. Ela calcula a probabilidade de ser "Ótimo", se não for, soma a chance de ser "Médio", e assim por diante. É como subir uma escada: se você já passou do degrau 3, você é "Ótimo". Se não, você desce um degrau. É simples, rápido e não precisa de ajustes manuais complexos.

Por que isso importa para você?

Quando você usa o Taobao (ou qualquer busca moderna) e digita algo complexo como "um vestido que não marque a barriga" ou "um presente para quem não gosta de chocolate", o TaoSR1 é o cérebro por trás da cortina.

  • Ele entende que você não quer chocolate (e não mostra doces).
  • Ele entende que "não marcar a barriga" é uma característica de conforto, não de cor.
  • Ele faz isso em milissegundos, sem travar o site.

Resumo da Ópera:
O TaoSR1 é como transformar um assistente robótico que apenas lê palavras em um consultor de compras humano. Ele aprendeu a pensar de forma inteligente, a corrigir seus próprios erros, a aprender com mestres e a focar no que realmente importa, tudo isso sem deixar o site lento. O resultado? Você encontra exatamente o que quer, mesmo quando não sabe explicar direito.