Give Users the Wheel: Towards Promptable Recommendation Paradigm

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que los sistemas de recomendación actuales (como los de Netflix, Spotify o Amazon) son como un chofer muy estricto y un poco terco.

El Problema: El Chofer que no te escucha

Este chofer ha estudiado tu historial de conducción durante años. Si siempre has pedido "música rock", él seguirá poniéndote rock, aunque hoy estés deprimido y quieras escuchar algo suave, o aunque tengas invitados niños y necesites música infantil.

El chofer dice: "Pero tú siempre escuchas rock, así que te voy a poner rock". Ignora tu petición inmediata: "Oye, hoy quiero algo diferente".

Los modelos actuales son muy buenos adivinando lo que te gustará basado en tu pasado, pero son cegados por él. No entienden cuando cambias de opinión al instante.

La Solución: DPR (Darle el Volante al Usuario)

Los autores de este paper proponen un nuevo sistema llamado DPR (Recomendación Secuencial Desacoplada y Promptable). En lugar de cambiar al chofer (que es caro y lento) o ponerle un copiloto que solo corrige al final (que es ineficiente), DPR le da el volante al usuario directamente.

Aquí te explico cómo funciona con una analogía sencilla:

1. El "Traductor Mágico" (El Módulo de Fusión)

Imagina que el sistema tiene dos cerebros:

Cerebro A (El Historial): Sabe lo que te gusta por costumbre (ej. "Me encantan las películas de acción").
Cerebro B (La Petición): Escucha lo que dices ahora mismo (ej. "Quiero ver una comedia romántica").

Antes, estos dos cerebros peleaban. Si decías "comedia", el sistema se confundía porque tu historial decía "acción".
DPR introduce un traductor mágico que toma tu frase ("Quiero comedia") y la convierte en una señal que el Cerebro A entiende perfectamente, ajustando tu "perfil" en tiempo real sin borrar tu historia.

2. Los "Mecánicos Especializados" (La Torre de Expertos)

El sistema tiene un problema: a veces quieres añadir algo ("Quiero más acción") y a veces quieres quitar algo ("¡Nada de terror!").

Añadir es como poner gasolina.
Quitar es como frenar o desactivar un motor.

Si usas el mismo mecánico para ambas cosas, se confunde. Por eso, DPR tiene dos talleres separados:

Un taller para potenciar lo que quieres (el "Sí, quiero").
Un taller para suprimir lo que no quieres (el "No, gracias").
Esto evita que las instrucciones se peleen entre sí y el sistema funciona mucho más rápido y preciso.

3. El "Entrenamiento en Tres Etapas"

Para que este sistema funcione, no se puede lanzar de golpe. Se entrena como un atleta:

Fase 1 (La base): Aprende a ser un buen recomendador normal (basado en tu historial).
Fase 2 (Las categorías): Aprende a entender conceptos generales (ej. "Comedia", "Acción").
Fase 3 (El matiz): Aquí es donde la magia ocurre. Aprende a entender matices. No solo "Comedia", sino "Una comedia triste pero divertida" o "Algo que me haga reír sin violencia". Usa Inteligencia Artificial para crear descripciones ricas que conecten lo que dices con lo que el sistema sabe.

¿Por qué es mejor que usar un Chatbot gigante?

Muchos piensan: "¿Por qué no usamos una Inteligencia Artificial gigante (como un LLM) que lea todo y recomiende?".

El problema de los gigantes: Son lentos (como un camión pesado) y a veces alucinan o pierden el contexto de tus gustos reales.
La ventaja de DPR: Es como un coche deportivo ágil. Usa la IA solo para entender tu frase, pero luego usa un sistema rápido y probado para buscar los mejores resultados. Es rápido, preciso y entiende tanto tu pasado como tu presente.

En Resumen

DPR es como tener un chofer que:

Conoce tu historial de conducción a la perfección.
Te escucha atentamente cuando cambias de destino.
Ajusta la ruta al instante sin perder tiempo ni confundirse.
Sabe exactamente qué poner en el mapa si pides "nada de tráfico" o "vamos a la playa".

El resultado: Ya no tienes que conformarte con lo que el sistema cree que quieres. Ahora tú tienes el control y puedes decir: "Hoy quiero algo diferente" y el sistema te dará exactamente eso, sin olvidar quién eres.

Each language version is independently generated for its own context, not a direct translation.

1. El Problema: La Ceguera Estructural de la Intención Explícita

Los sistemas de recomendación secuenciales convencionales (como SASRec o GRU4Rec) han tenido un gran éxito al extraer patrones de comportamiento implícitos de las interacciones históricas del usuario. Sin embargo, presentan una limitación fundamental: son estructuralmente ciegos a la intención explícita del usuario en tiempo real.

La desconexión: Si un usuario tiene un historial de películas de acción pero solicita explícitamente "películas infantiles para ver con mis hijos", los modelos tradicionales, atados a la inercia de los datos históricos, seguirán recomendando thrillers, ignorando la instrucción inmediata.
El dilema de las soluciones actuales:
- LLM como Recomendador: Reemplazar el modelo tradicional por un Modelo de Lenguaje Grande (LLM) permite entender el lenguaje natural, pero sacrifica la eficiencia y la precisión de la filtración colaborativa basada en IDs, además de sufrir de alta latencia.
- Reordenamiento (Reranking): Usar un LLM para reordenar una lista preexistente está limitado por la capacidad de recuperación (recall) del modelo base. Si el modelo base no recuperó los elementos relevantes debido al cambio de intención, el LLM no tiene candidatos válidos para optimizar.

El objetivo del trabajo es superar esta disyuntiva creando un sistema que mantenga la eficiencia de los modelos basados en IDs pero que pueda ser dirigido dinámicamente mediante lenguaje natural sin abandonar las señales colaborativas.

2. Metodología: DPR (Recomendación Secuencial Promptable Desacoplada)

Los autores proponen DPR, un marco de trabajo agnóstico al modelo que permite a las columnas vertebrales (backbones) de recomendación secuenciales nativamente soportar "Recomendación Promptable".

Definición de Recomendación Promptable

Un sistema que integra nativamente prompts de lenguaje natural en el proceso de recuperación colaborativa, utilizando la intención explícita para redirigir dinámicamente todo el espacio de búsqueda, alineando los candidatos recuperados tanto con las instrucciones en tiempo real como con los hábitos históricos.

Arquitectura del Modelo

DPR se compone de tres módulos principales que trabajan en conjunto:

Codificador Secuencial (Sequential Encoder):
- Extrae la representación de interés intrínseco del usuario ( $h_u$ ) basada estrictamente en el historial de comportamiento.
- Es agnóstico al modelo (puede usar SASRec, BERT4Rec, GRU4Rec, etc.).
Codificador de Prompt (Prompt Embedder):
- Convierte la instrucción de texto natural ( $p$ ) en un vector semántico ( $c_p$ ) utilizando un codificador preentrenado (ej. Sentence-BERT) y un proyector MLP para alinear las dimensiones con el espacio latente del usuario.
Módulo de Fusión de Señales (Signal Fusion Module) - El Núcleo:
- Arquitectura MoE (Mixture-of-Experts): Reconociendo que las instrucciones positivas ("Quiero X") y las negativas ("No quiero Y") son operaciones semánticas opuestas, el modelo utiliza dos bloques de fusión independientes en paralelo:
  - Bloque de Fusión Positiva ( $f^+$ ): Para amplificar características deseadas.
  - Bloque de Fusión Negativa ( $f^-$ ): Para suprimir o "desaprender" atributos restringidos.
- Mecanismo de Atención: Utiliza la representación del usuario como Query y el vector del prompt como Key y Value mediante Atención Cruzada Multi-Cabeza (MHCA).
- Conexión Residual: La información del prompt se añade a la representación original del usuario ( $h_{res} = h_u + z_c$ ) para preservar la estabilidad de las preferencias históricas mientras se modulan.

Estrategia de Entrenamiento (3 Etapas)

Para garantizar robustez y alineación semántica, se propone una estrategia de entrenamiento progresiva:

Pre-entrenamiento: Entrenar el codificador secuencial base en la predicción del siguiente ítem (tarea estándar).
Alineación de Grano Grueso: Ajuste fino para alinear las representaciones del usuario con etiquetas de categorías amplias (géneros).
Alineación Semántica Profunda: Entrenamiento con prompts semánticos detallados (generados por LLMs que describen tramas, atmósferas y apelaciones, no solo géneros). Incluye una aumentación semántica donde los LLMs generan etiquetas descriptivas y variantes léxicas para evitar el sobreajuste a palabras clave superficiales.

La función de pérdida unificada maneja tanto la maximización de probabilidad para objetivos positivos como la supresión de probabilidad sobre conjuntos de ítems no deseados para objetivos negativos.

3. Contribuciones Clave

Nuevo Paradigma: Definición formal de la "Recomendación Promptable", que combina la eficiencia de la filtración colaborativa con la controlabilidad del lenguaje natural.
Marco DPR: Una solución agnóstica al modelo que desacopla la codificación de la intención de la extracción de historial, utilizando una arquitectura MoE para manejar conflictos de gradientes entre instrucciones positivas y negativas.
Estrategia de Entrenamiento: Un enfoque de tres etapas que asegura que el modelo funcione tanto con como sin prompts, manteniendo el rendimiento en escenarios secuenciales estándar.
Validación Empírica: Demostración de que es posible instruir modelos de recomendación tradicionales directamente mediante lenguaje natural sin sacrificar la precisión ni la latencia.

4. Resultados Experimentales

Los experimentos se realizaron en conjuntos de datos reales (MovieLens-1M y MIND) comparando DPR contra:

Modelos secuenciales base (SASRec, GRU4Rec).
Líneas base de filtrado heurístico.
Modelos basados en LLMs (Qwen, Llama, RecGPT) y pipelines de reordenamiento con LLM.

Hallazgos Principales:

Superioridad en Tareas Controlables: DPR supera significativamente a las líneas base en tareas de dirección positiva y supresión negativa.
- En ML-1M, DPR logró una mejora relativa del 71.84% en NDCG@10 para tareas de dirección positiva frente a la mejor línea base de filtrado.
- En tareas de supresión negativa, DPR superó consistentemente a los métodos de filtrado basados en reglas, especialmente con el backbone GRU4Rec.
Comparación con LLMs:
- Los LLMs genéricos (zero-shot) tienen un rendimiento muy bajo en la clasificación de ítems.
- Los LLMs especializados (fine-tuned) mejoran, pero DPR sigue superándolos sustancialmente (ej. Recall@10 de 0.7300 para DPR vs 0.3626 para RecLM-gen en tareas positivas).
- Eficiencia: DPR logra este control en un solo paso de inferencia end-to-end, evitando la alta latencia y la sensibilidad al ruido de los pipelines de reordenamiento con LLMs.
Comprensión de Intención Implícita: En evaluaciones con "LLM-as-a-Judge" sobre solicitudes semánticas complejas (ej. "quiero algo caótico para distraerme"), DPR obtuvo las puntuaciones más altas, demostrando capacidad para entender matices más allá de las etiquetas de género.

5. Significado e Impacto

Este trabajo es significativo porque cierra la brecha entre la precisión de la filtración colaborativa tradicional y la flexibilidad de los modelos de lenguaje.

Cambio de Paradigma: Demuestra que no es necesario reemplazar los sistemas de recomendación eficientes por LLMs masivos para lograr controlabilidad. En su lugar, se puede "inyectar" la intención semántica directamente en el espacio latente de recuperación.
Escalabilidad: Al mantener la arquitectura de recuperación basada en IDs y vectorización, DPR es viable para sistemas de alto rendimiento (high-throughput) donde la latencia de los LLMs sería prohibitiva.
Control de Usuario: Empodera a los usuarios para tomar el control de sus experiencias de recomendación en tiempo real, permitiendo ajustes dinámicos (ej. cambiar de humor, evitar géneros específicos) sin perder la relevancia basada en su historial a largo plazo.

En resumen, DPR ofrece una arquitectura robusta y eficiente para la próxima generación de sistemas de recomendación interactivos y controlables por el usuario.

Give Users the Wheel: Towards Promptable Recommendation Paradigm

El Problema: El Chofer que no te escucha

La Solución: DPR (Darle el Volante al Usuario)

1. El "Traductor Mágico" (El Módulo de Fusión)

2. Los "Mecánicos Especializados" (La Torre de Expertos)

3. El "Entrenamiento en Tres Etapas"

¿Por qué es mejor que usar un Chatbot gigante?

En Resumen

1. El Problema: La Ceguera Estructural de la Intención Explícita

2. Metodología: DPR (Recomendación Secuencial Promptable Desacoplada)

Definición de Recomendación Promptable

Arquitectura del Modelo

Estrategia de Entrenamiento (3 Etapas)

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

Keep Ballots Secret: On the Futility of Social Learning in Decision Making by Voting

Social Teaching: Being Informative vs. Being Right in Sequential Decision Making

Beyond Binomial and Negative Binomial: Adaptation in Bernoulli Parameter Estimation

Homotopy type theory as a language for diagrams of ∞\infty∞-logoses

One is all you need: Second-order Unification without First-order Variables

Homotopy type theory as a language for diagrams of $\infty$ -logoses