LLM-Enhanced Multimodal Fusion for Cross-Domain Sequential Recommendation

O artigo propõe o LLM-EMF, uma abordagem inovadora para recomendação sequencial multodomínio que integra conhecimento de Grandes Modelos de Linguagem e dados multimodais (texto e imagem) por meio de um mecanismo de atenção múltipla, demonstrando superioridade em quatro conjuntos de dados de comércio eletrônico ao capturar preferências complexas de usuários.

Wangyu Wu, Zhenhong Chen, Wenqiao Zhang, Xianglin Qiu, Siqi Song, Xiaowei Huang, Fei Ma, Jimin Xiao

Publicado 2026-03-02
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um detetive de gostos pessoais. O seu trabalho é adivinhar qual será o próximo filme que você vai assistir ou qual livro vai comprar, baseando-se no que você já consumiu no passado.

A maioria dos sistemas de recomendação atuais funciona como um detetive cego de uma só área. Se você só assistiu a filmes de ação, ele só sugere mais filmes de ação. Se você só comprou livros de culinária, ele só sugere receitas. O problema é que a vida real é mista: você pode gostar de cozinhar (Domínio A) e também de assistir a filmes de terror (Domínio B), e essas duas coisas podem ter uma conexão secreta que o sistema não consegue ver.

Além disso, os sistemas atuais muitas vezes olham apenas para o "código de barras" do produto (o ID), ignorando a foto do prato ou a sinopse do livro. É como tentar descrever um filme apenas pelo seu número de registro, sem nunca ter visto o pôster ou lido o resumo.

A Solução: O "Super Detetive" (LLM-EMF)

Os autores deste artigo criaram um novo sistema chamado LLM-EMF. Pense nele como um detetive superpoderoso que usa três ferramentas mágicas para entender melhor o que você quer:

1. O "Tradutor Inteligente" (LLM - Modelo de Linguagem)

Imagine que cada produto tem um cartão de visita muito curto e chato. O LLM é como um escritor criativo que pega esse cartão curto e escreve uma história completa sobre ele.

  • Como funciona: Se o produto é um "Forno Elétrico", o LLM não vê apenas "Forno". Ele gera um texto rico dizendo: "Ideal para quem ama fazer pães caseiros, tem um design moderno e é perfeito para festas de fim de semana".
  • O Truque: Ele faz isso para produtos de diferentes lojas (como livros e eletrônicos) de forma que o significado se conecte. Assim, o sistema entende que quem gosta de "pães caseiros" (livros de culinária) pode gostar de "fornos elétricos" (eletrodomésticos), mesmo que sejam categorias diferentes.

2. Os "Olhos e Ouvidos" (Fusão Multimodal)

O sistema não lê apenas o texto. Ele também olha para as fotos e ouve o que está escrito.

  • A Analogia: Imagine que você está em uma loja. O sistema tradicional só vê o código de barras. O LLM-EMF, no entanto, olha para a foto do produto (para ver se é bonito ou colorido) e lê o título (para entender o conceito). Ele junta tudo isso em uma "identidade" completa do produto.

3. O "Maestro da Orquestra" (Atenção Hierárquica)

Aqui está o grande problema que eles resolveram: O Desequilíbrio.

  • O Cenário: Imagine que você compra 100 livros por mês, mas só compra 1 eletrodoméstico por ano. Um sistema comum ficaria obcecado pelos livros e ignoraria completamente o eletrodoméstico, achando que você só gosta de ler.
  • A Solução: O LLM-EMF tem um Maestro. Ele garante que a orquestra (seus gostos) toque todos os instrumentos, não apenas o mais barulhento. Ele equilibra a atenção entre o que você compra muito (livros) e o que você compra pouco (eletrodomésticos), garantindo que a recomendação final seja justa para todas as suas áreas de interesse.

Como tudo funciona junto?

  1. Coleta de Dados: O sistema pega seu histórico de compras e visualizações.
  2. Enriquecimento: Ele usa o "Escritor Criativo" (LLM) para criar descrições ricas e o "Olho Mágico" (CLIP) para entender as imagens.
  3. Fusão: Ele mistura tudo: o código do produto, a foto e o texto rico.
  4. Equilíbrio: O "Maestro" ajusta o volume de cada categoria para que nenhuma domine as outras injustamente.
  5. Previsão: O sistema compara tudo isso com milhões de outros produtos e diz: "Com base no seu histórico misto de livros e filmes, e considerando que você gosta de cozinhar, você provavelmente vai adorar este novo forno!"

O Resultado?

Os autores testaram esse "Super Detetive" em dados reais de lojas online (como Amazon). Eles compararam com os melhores sistemas existentes e descobriram que o LLM-EMF acertou muito mais.

Em resumo: Enquanto os sistemas antigos eram como um funcionário de loja que só conhecia uma seção, o LLM-EMF é como um consultor de estilo pessoal que conhece seus gostos em todas as áreas, lê as descrições completas dos produtos, olha as fotos e sabe exatamente como equilibrar suas preferências para te dar a recomendação perfeita.