Towards Realistic Personalization: Evaluating Long-Horizon Preference Following in Personalized User-LLM Interactions

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, digitale assistent hebt die je al jaren kent. Je hebt met hem gepraat over je werk, je hobby's, je favoriete eten en zelfs je geheimen. Nu, jaren later, vraag je hem: "Wat voor soort vakantie zou ik leuk vinden?"

Een echte vriend zou direct weten dat je niet van drukke stranden houdt omdat je dat een keer vertelde, of dat je van kleine, gezellige hotels houdt in plaats van grote ketens. Maar wat als die digitale assistent zijn geheugen verliest? Of wat als hij je voorkeur niet duidelijk hoorde, omdat je het niet direct zei, maar eromheen praatte?

Dit is precies het probleem dat het onderzoek RealPref aanpakt. Hier is een uitleg in gewone taal, met een paar creatieve vergelijkingen.

1. Het Probleem: De "Goudvis" vs. De "Oude Vriend"

Tot nu toe zijn grote taalmodellen (LLMs) getest op korte vragen, alsof je ze net hebt ontmoet. Ze moeten een opdracht uitvoeren en dan is het klaar. Maar in het echte leven praten we met onze assistenten over lange tijd. We onthullen onze voorkeuren in stukjes en brokjes, soms heel duidelijk, maar vaak heel subtiel.

De auteurs zeggen: "De meeste tests zijn alsof we een goudvis testen op zijn geheugen door hem elke seconde een nieuwe opdracht te geven. Maar een echte assistent moet een oude vriend zijn die onthoudt wat je gisteren, vorige maand en twee jaar geleden zei."

2. De Oplossing: RealPref (De "Proefkeuken")

De onderzoekers hebben een nieuwe testomgeving gemaakt, genaamd RealPref.

De Opzet: Ze hebben 100 virtuele mensen bedacht met unieke levensverhalen.
Het Scenario: Deze virtuele mensen hebben honderden gesprekken met een AI gehad. In die gesprekken hebben ze hun voorkeuren uitgedrukt op vier manieren:
1. Helder: "Ik haat groene paprika's."
2. Met context: "Ik heb gisteren een pizza gegeten, maar de groene paprika's waren echt niet lekker."
3. Stijlvol: "Mijn maag draait zich om bij het idee van groene paprika's." (Geen woord "hater" gebruikt, maar de boodschap is duidelijk).
4. Via ervaring: In de ene sessie probeerde de gebruiker groene paprika's, in de volgende sessie zei hij dat hij er ziek van werd, en in de derde sessie gaf hij aan dat hij ze nooit meer wil.

De AI moet nu, na al die gesprekken, een vraag beantwoorden die niets over paprika's zegt, maar waarbij het antwoord wel rekening moet houden met die paprika-afkeer.

3. Wat Vonden Ze? (De "Grote Verassingen")

Toen ze de slimste AI's van nu op deze test lieten, kwamen ze op enkele verrassende resultaten:

Het Geheugen is een zwakke plek: Hoe langer het gesprek wordt (hoe meer "bladzijdes" in het boek van de conversatie), hoe slechter de AI wordt. Het is alsof je iemand een heel dik boek laat lezen en daarna vraagt wat er op pagina 50 stond. De AI begint te vergeten wat er eerder gebeurde.
Subtiele hints zijn lastig: Als iemand zijn voorkeur duidelijk zegt, doet de AI het goed. Maar als de voorkeur verstop zit in een metafoor of een verhaal over een slechte ervaring, raakt de AI in de war. Het is alsof je vraagt of de AI een raadsel kan oplossen in plaats van een simpele vraag kan beantwoorden.
De "Kies de juiste optie" valstrik: Als je de AI een meerkeuzevraag geeft, doet hij het vaak goed. Maar dat is een valstrik! De AI kijkt niet naar het geheugen, maar naar de opties zelf. "Welk antwoord ziet er anders uit dan de andere drie?" is vaak de strategie die de AI gebruikt, in plaats van echt te denken. De onderzoekers bedachten daarom een nieuwe test (Waar of Niet Waar) die dit voorkomt.
Nieuwe situaties: Als je de AI vraagt om een voorkeur toe te passen op een situatie die hij nog nooit heeft gezien (bijvoorbeeld: "Je houdt van kleine, lokale winkels" -> "Wat voor cadeau moet ik geven?"), faalt de AI vaak. Hij kan de logica niet overbrengen naar een nieuwe context.

4. De Hulpmiddelen: Hoe maken we het beter?

De onderzoekers probeerden verschillende trucs om de AI te helpen:

Aandachtsteken: Een simpele zinnetje toevoegen: "Vergeet niet wat de gebruiker eerder zei." Dit hielp een beetje.
Voorbeelden: Het geven van voorbeelden van goede antwoorden. Dit hielp ook.
Het "Zoekmachine"-effect (RAG): Dit was de winnaar. In plaats van dat de AI alles uit zijn hoofd moet halen, mochten we een zoekmachine gebruiken die de meest relevante stukjes uit het oude gesprek eruit haalde en aan de AI gaf. Dit is alsof je de AI een samenvatting geeft van de relevante hoofdstukken uit het dikke boek, zodat hij niet alles zelf hoeft te onthouden.

Conclusie: Waarom is dit belangrijk?

Dit onderzoek is een wake-up call. We bouwen steeds slimmere assistenten, maar ze zijn nog niet klaar voor het echte leven. Ze zijn goed in het uitvoeren van een opdracht, maar slecht in het onthouden van wie jij bent over een lange periode.

RealPref is als een strenge leraar die zegt: "Je bent slim, maar je luistert niet goed genoeg naar je vrienden. Als je een echte persoonlijke assistent wilt worden, moet je leren luisteren naar de subtiele signalen en je geheugen scherper maken."

De hoop is dat deze test helpt ontwikkelaars om AI's te bouwen die zich echt aanpassen aan jou, en niet alleen een robot zijn die antwoorden geeft op basis van wat er nu op het scherm staat.

Towards Realistic Personalization: Evaluating Long-Horizon Preference Following in Personalized User-LLM Interactions

1. Het Probleem: De "Goudvis" vs. De "Oude Vriend"

2. De Oplossing: RealPref (De "Proefkeuken")

3. Wat Vonden Ze? (De "Grote Verassingen")

4. De Hulpmiddelen: Hoe maken we het beter?

Conclusie: Waarom is dit belangrijk?

Probleemstelling

Methodologie: RealPref Benchmark

Belangrijkste Resultaten

Bijdragen

Betekenis en Toekomstperspectief

Towards Realistic Personalization: Evaluating Long-Horizon Preference Following in Personalized User-LLM Interactions

1. Het Probleem: De "Goudvis" vs. De "Oude Vriend"

2. De Oplossing: RealPref (De "Proefkeuken")

3. Wat Vonden Ze? (De "Grote Verassingen")

4. De Hulpmiddelen: Hoe maken we het beter?

Conclusie: Waarom is dit belangrijk?

Probleemstelling

Methodologie: RealPref Benchmark

Belangrijkste Resultaten

Bijdragen

Betekenis en Toekomstperspectief

Meer zoals dit

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks