Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments

Die Studie zeigt, dass die Erweiterung eines App-Store-Rankers durch Millionen von mit einem spezialisierten, feinabgestimmten LLM generierten Textrelevanz-Labels die Pareto-Grenze verschiebt und zu signifikanten Verbesserungen sowohl bei der Offline-NDCG als auch bei der weltweiten Konversionsrate führt, insbesondere bei Suchanfragen mit wenig Verhaltensdaten.

Evangelia Christakopoulou, Vivekkumar Patel, Hemanth Velaga, Sandip Gaikwad, Sean Suchter, Venkat Sundaranatha

Veröffentlicht Tue, 10 Ma
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich den App Store wie einen riesigen, unendlichen Supermarkt vor, in dem Millionen von Produkten (Apps) auf den Regalen stehen. Wenn Sie nach etwas Bestimmtem suchen – sagen Sie „Fitness-Tracker" –, wollen Sie sofort die besten, passendsten Produkte finden, nicht irgendwelchen Müll.

Das ist die Aufgabe der Suchmaschinen-Experten bei Apple. Ihr Job ist es, die Regale so zu ordnen, dass Sie genau das finden, was Sie brauchen. Aber hier gibt es ein großes Problem, das diese Forscher gelöst haben.

Das Problem: Der „Geister-Regal"-Effekt

Stellen Sie sich vor, Sie sind der Regalvorsteher. Sie haben zwei Arten von Informationen, um zu entscheiden, was wohin gehört:

  1. Das Verhalten der Kunden (Verhaltens-Relevanz): Sie sehen, welche Produkte die Leute tatsächlich kaufen oder anklicken. Das ist wie ein Zähler, der mitzählt. Problem: Bei sehr beliebten Produkten gibt es viele Daten. Aber bei seltsamen, seltenen Suchanfragen (den sogenannten „Tail Queries", wie z. B. „App für die Pflege von Sumpfpflanzen in der Antarktis") gibt es kaum Kunden. Da fehlt die Information.
  2. Die Expertenmeinung (Textuelle Relevanz): Hier kommen menschliche Experten ins Spiel. Sie lesen die Beschreibung einer App und den Suchbegriff und sagen: „Ja, das passt perfekt!" oder „Nein, das ist völlig falsch." Problem: Das ist teuer und langsam. Man kann nicht Millionen von Apps von Menschen bewerten lassen. Es gibt also zu wenig dieser „Experten-Meinungen".

Das Ergebnis: Bei seltenen Suchanfragen weiß die Suchmaschine nicht, was sie tun soll, weil sie weder Kundenverhalten noch Expertenmeinungen hat. Die Regale sind chaotisch.

Die Lösung: Der unermüdliche KI-Assistent

Die Forscher haben eine clevere Idee gehabt: Warum nicht einen künstlichen Intelligenz-Assistenten (ein LLM) trainieren, der wie ein menschlicher Experte denkt?

Stellen Sie sich vor, Sie nehmen einen sehr klugen, aber noch etwas rohen KI-Roboter und geben ihm ein Lehrbuch mit den Bewertungen Ihrer menschlichen Experten. Sie sagen ihm: „Schau dir an, wie wir bewerten. Wenn jemand nach 'Kochbuch' sucht und eine App für 'Gitarren-Tabs' kommt, ist das eine schlechte Bewertung. Wenn eine App für 'Rezepte' kommt, ist das eine gute."

Nachdem der Roboter das gelernt hat, kann er Millionen von Bewertungen in Sekundenschnelle erstellen. Er ist wie ein unermüdlicher Praktikant, der nie schläft, nie müde wird und immer genau nach den Regeln Ihrer menschlichen Experten urteilt.

Der große Test: Der „Zwilling"

Um zu prüfen, ob dieser KI-Assistent wirklich gut ist, haben die Forscher zwei Dinge getan:

  1. Der Vergleich: Sie haben den KI-Assistenten gegen die menschlichen Experten getestet. Das Ergebnis war überraschend: Ein kleinerer, speziell trainierter KI-Roboter war sogar besser als ein riesiger, untrainierter Super-Roboter. Es kommt also nicht auf die reine Größe an, sondern auf das richtige Training.
  2. Der Wettkampf (A/B-Test): Sie haben den App Store in zwei Hälften geteilt.
    • Gruppe A (Die Alte): Bekam die Suchergebnisse wie bisher (nur mit den wenigen menschlichen Experten).
    • Gruppe B (Die Neue): Bekam Suchergebnisse, die durch die Millionen KI-Bewertungen verbessert wurden.

Das Ergebnis: Ein Gewinn für alle

Das Ergebnis war ein großer Erfolg:

  • Mehr Downloads: Die neue Version hat zu 0,24 % mehr Downloads geführt. In der Welt von Apple ist das eine riesige Zahl, denn es bedeutet, dass Millionen mehr Menschen zufrieden waren.
  • Der wahre Held: Die seltenen Suchanfragen: Der größte Gewinn kam bei den „Tail Queries" (den seltenen Suchen). Dort, wo die menschlichen Experten fehlten und die Kundenstatistiken leer waren, hat der KI-Assistent gerettet. Er hat den Suchmaschinen gesagt: „Hey, diese App passt eigentlich gut zu dieser seltsamen Frage, auch wenn noch niemand sie gekauft hat."

Die Metapher vom Pareto-Rand

Die Forscher sprechen von einer „Pareto-Frontier". Stellen Sie sich das wie einen Berg vor. Früher mussten Sie sich entscheiden: Entweder Sie optimieren für das, was die Leute kaufen (Verhalten), oder für das, was semantisch passt (Text). Wenn Sie das eine verbessern, verschlechterte sich oft das andere.

Durch die KI-Bewertungen haben sie den Berg höher geschoben. Jetzt können sie beides gleichzeitig verbessern. Die Suchergebnisse sind sowohl für die Kunden attraktiver (mehr Klicks) als auch inhaltlich passender (bessere Texte).

Fazit

Kurz gesagt: Die Forscher haben einen KI-Assistenten gebaut, der lernt, wie ein menschlicher Experte zu denken. Dieser Assistent hat dann Millionen von Bewertungen erstellt, die zu teuer oder zu langsam für Menschen gewesen wären. Das Ergebnis ist ein App Store, der nicht nur für die beliebten Suchen, sondern besonders für die verrückten, seltenen Suchanfragen viel besser funktioniert. Es ist, als hätte man jedem Kunden im Supermarkt einen persönlichen Berater an die Seite gestellt, der genau weiß, was er sucht – selbst wenn er nach etwas sucht, das niemand sonst je gesucht hat.