Towards Realistic Personalization: Evaluating Long-Horizon Preference Following in Personalized User-LLM Interactions

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr intelligenten, aber manchmal etwas vergesslichen persönlichen Assistenten. Du kennst ihn schon seit Jahren. Ihr habt über deine Lieblingsmusik, deine seltsame Angewohnheit, nur bei Regenwetter Pizza zu essen, und deine Abneigung gegen laute Partys gesprochen.

Das Problem ist: Wenn du ihn heute fragst: „Was soll ich heute Abend essen?", vergisst er oft all diese kleinen Details, die du ihm in den letzten Monaten erzählt hast. Er gibt dir eine generische Antwort wie „Pizza ist toll", obwohl du genau das nicht magst.

Genau dieses Problem untersucht die neue Studie „RealPref" von den Forschern um Qianyun Guo und Bryan Hooi. Sie haben einen neuen Test entwickelt, um zu prüfen, wie gut moderne KI-Assistenten (Large Language Models) wirklich lernen, dich als Individuum zu verstehen und sich daran zu erinnern.

Hier ist die Erklärung in einfachen Worten, mit ein paar bildhaften Vergleichen:

1. Das Problem: Der vergessliche Bibliothekar

Bisherige Tests für KIs waren wie ein Einzelgespräch in einer Bibliothek. Der Bibliothekar (die KI) liest dir eine einzige Regel vor: „Ich mag keine roten Äpfel." Dann fragt man ihn sofort: „Welchen Apfel soll ich kaufen?" Das ist einfach.

Aber im echten Leben ist es anders. Du hast die KI über Monate hinweg kennengelernt. Du hast in einem Gespräch erwähnt, dass du „rote Äpfel" hasst, in einem anderen, dass du „grüne Birnen" liebst, und in einem dritten, dass du „nur bei Vollmond" Obst isst. Diese Informationen sind wie verstreute Puzzleteile über hunderte von Seiten eines riesigen Buches verteilt.

Die Forscher wollten wissen: Kann die KI dieses riesige Buch lesen, die verstreuten Hinweise finden und daraus eine logische Schlussfolgerung ziehen, wenn sie eine neue Frage bekommt?

2. Die Lösung: Der „RealPref"-Test

Die Forscher haben RealPref gebaut. Das ist wie ein riesiges, fiktives Tagebuch von 100 verschiedenen Menschen.

Die Charaktere: Sie haben 100 verschiedene Persönlichkeiten erschaffen (z. B. ein Musikblogger, eine Make-up-Künstlerin).
Die Geheimnisse: Jeder Charakter hat 1300 Vorlieben, die über viele Gespräche verteilt sind.
Die Art der Hinweise: Das ist der Clou. Manche Vorlieben werden direkt gesagt („Ich mag X"). Andere sind versteckt:
- Der versteckte Hinweis: „Ich hasse es, wenn mir jemand auf die Schulter klopft." (Man muss raten, dass die Person Berührung nicht mag).
- Der langsame Hinweis: Über drei Monate hinweg erzählt die Person immer wieder, wie nervig laute Musik ist, bis man merkt: „Ah, die Person mag Ruhe."
Der Test: Am Ende wird die KI gefragt: „Was soll ich heute Abend machen?" Die KI muss sich an alle diese verstreuten Hinweise erinnern und eine Antwort geben, die perfekt zu dieser Person passt.

3. Was haben sie herausgefunden? (Die Ergebnisse)

Die Ergebnisse sind wie eine Diagnose für das Gedächtnis der KI:

Je länger das Gespräch, desto schlechter die Erinnerung: Stell dir vor, du musst dir eine Telefonnummer merken. Wenn sie 4 Ziffern hat, ist es leicht. Wenn sie 1000 Ziffern lang ist und dazwischen noch 500 andere Nummern stehen, vergisst du sie. Genau das passiert der KI. Je mehr Text sie lesen muss, desto mehr vergisst sie deine Vorlieben.
Versteckte Hinweise sind schwer: Wenn du sagst „Ich mag keine Pizza", versteht die KI das sofort. Wenn du aber sagst „Ich esse lieber etwas, das nicht so fettig ist wie Pizza", muss die KI erst „fettig" mit „Pizza" verknüpfen. Das fällt den KIs schwer, besonders wenn der Text sehr lang ist.
Neue Situationen: Wenn die KI gelernt hat, dass du „keine laute Musik" magst, kann sie das gut anwenden, wenn du nach einem Konzert fragst. Aber wenn du fragst: „Welches Buch soll ich lesen?", fällt es ihr schwer, zu erkennen, dass du vielleicht auch hier leise, ruhige Geschichten bevorzugst. Sie kann ihr Wissen nicht so gut auf neue Bereiche übertragen.

4. Gibt es einen Heilmittel?

Die Forscher haben verschiedene Tricks ausprobiert, um der KI zu helfen:

Die Erinnerung: Man sagt der KI einfach: „Denk an deine Vorlieben!" Das hilft ein bisschen, wie ein kleiner Zettel auf dem Kühlschrank.
Die Suchmaschine (RAG): Das war der Gewinner. Statt die KI zu zwingen, alles im Kopf zu behalten, gibt man ihr eine Suchmaschine. Wenn sie gefragt wird, sucht sie erst in den alten Gesprächen nach den relevanten Stellen („Ah, hier hat der Nutzer gesagt, er mag keine Pizza") und liest nur diese Stellen noch einmal. Das funktioniert am besten, besonders bei sehr langen Gesprächen.

Fazit: Warum ist das wichtig?

Diese Studie zeigt uns, dass KIs heute noch nicht die perfekten persönlichen Assistenten sind. Sie sind wie sehr kluge Studenten, die aber schlecht im Auswendiglernen langer Geschichten sind.

Damit wir in Zukunft KIs haben, die uns wirklich verstehen, uns kennen und sich an unsere kleinen Eigenheiten erinnern – egal wie lange wir sie schon nutzen –, müssen wir sie besser trainieren, diese „versteckten Hinweise" in langen Gesprächen zu finden. RealPref ist der Maßstab, an dem wir messen, ob wir auf dem richtigen Weg sind.

Kurz gesagt: Wir bauen gerade die Brille für die KI, damit sie nicht nur den Text vor sich sieht, sondern auch das große Bild von uns erkennt.

Towards Realistic Personalization: Evaluating Long-Horizon Preference Following in Personalized User-LLM Interactions

1. Das Problem: Der vergessliche Bibliothekar

2. Die Lösung: Der „RealPref"-Test

3. Was haben sie herausgefunden? (Die Ergebnisse)

4. Gibt es einen Heilmittel?

Fazit: Warum ist das wichtig?

1. Problemstellung

2. Methodik: Der RealPref-Benchmark

3. Experimente und Ergebnisse

4. Hauptbeiträge

5. Bedeutung und Ausblick

Towards Realistic Personalization: Evaluating Long-Horizon Preference Following in Personalized User-LLM Interactions

1. Das Problem: Der vergessliche Bibliothekar

2. Die Lösung: Der „RealPref"-Test

3. Was haben sie herausgefunden? (Die Ergebnisse)

4. Gibt es einen Heilmittel?

Fazit: Warum ist das wichtig?

1. Problemstellung

2. Methodik: Der RealPref-Benchmark

3. Experimente und Ergebnisse

4. Hauptbeiträge

5. Bedeutung und Ausblick

Mehr davon

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks