Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments

Dit paper beschrijft hoe het gebruik van een gespecialiseerd, fijngefineerd LLM om schaalbare tekstuele relevantielabels te genereren, de App Store-rangschikking verbetert door zowel gedrags- als tekstuele relevantie te optimaliseren, wat resulteert in een statistisch significant toename van de conversie, vooral voor zeldzame zoekopdrachten.

Evangelia Christakopoulou, Vivekkumar Patel, Hemanth Velaga, Sandip Gaikwad, Sean Suchter, Venkat Sundaranatha

Gepubliceerd Tue, 10 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je de App Store voor als een gigantische, drukke supermarkt met miljoenen producten (apps). De taak van de "schappenbeheerder" (het zoekalgoritme) is om ervoor te zorgen dat als een klant iets zoekt, het juiste product direct voor hun neus ligt.

Deze schrijvers van Apple hebben een nieuw trucje bedacht om die schappenbeheerder slimmer te maken. Hier is hoe het werkt, vertaald naar alledaags Nederlands:

Het Probleem: Twee soorten "Goed"

Om te weten welke app goed is, kijken ze naar twee dingen:

  1. Het gedrag van mensen: Klinkt dit als een logische vraag? Kijken mensen erop? Downloaden ze het? Dit is makkelijk te tellen (zoals tellen hoeveel mensen een product in de winkelwagen gooien).
  2. De betekenis: Past de app echt bij wat de klant bedoelt? Als ik zoek op "koffie", wil ik een koffie-app, niet een koffiezetapparaat dat ik online koop. Dit is lastig te meten.

Het probleem: Er zijn miljoenen mensen die klikken (gedrag), maar er zijn maar heel weinig menselijke experts die kunnen oordelen of een app semantisch goed past. Het is alsof je een school hebt met 1 miljoen leerlingen, maar maar één leraar die de proefwerken kan nakijken. De leraar raakt overbelast en kan niet genoeg werk controleren.

De Oplossing: Een "Super-Assistent" (LLM)

In plaats van te wachten tot de menselijke leraar alles nakijkt, hebben ze een AI-assistent (een Large Language Model of LLM) ingehuurd.

Stel je voor dat je deze AI-assistent een boek geeft met alle antwoorden die de menselijke leraar ooit heeft gegeven. Je zegt tegen de AI: "Leer van deze antwoorden en doe precies hetzelfde, maar dan voor miljoenen andere vragen."

De onderzoekers hebben getest of een enorme, dure AI (een "olifant") beter was dan een kleinere, slimme AI die ze specifiek hadden getraind (een "witsje").

  • Het verrassende resultaat: De kleine, getrainde AI was veel beter dan de enorme, ongetrainde olifant. Het is alsof een getrainde kok met een klein mesje veel betere salades maakt dan een ongetrainde kok met een gigantisch zwaard.

Wat hebben ze gedaan?

  1. Massa-productie: Ze lieten deze slimme AI-assistent miljoenen nieuwe "beoordelingen" maken. Nu hebben ze niet meer één leraar, maar een heel leger van AI-leraren die in een seconde werk doen waar mensen jaren over zouden doen.
  2. De Mix: Ze hebben deze nieuwe AI-beoordelingen gemengd met de echte menselijke beoordelingen en de klik-data.
  3. De Oefening: Ze hebben de zoekmachine (de ranker) opnieuw getraind met deze enorme hoeveelheid nieuwe data.

Het Resultaat: Een Win-Win Situatatie

Vaak moet je kiezen: of je hebt resultaten die mensen klikken, of resultaten die logisch zijn. Meestal gaat het ene ten koste van het andere.

Maar door deze AI-data toe te voegen, is er iets magisch gebeurd: Ze hebben de grens van het mogelijke verschoven.

  • De zoekmachine werd beter in het vinden van apps die logisch passen bij de zoekterm.
  • En tegelijkertijd werden mensen meer geneigd om die apps te downloaden.

Het is alsof je een auto hebt die zowel sneller rijdt als minder brandstof verbruikt. Dat is zeldzaam!

Waarom werkt dit vooral voor "rare" zoekopdrachten?

De grootste winst zat niet bij populaire zoekwoorden (zoals "Spotify" of "WhatsApp"), maar bij de zeldzame zoekopdrachten (de "staart" van de grafiek).

  • Bij populaire zoekwoorden weten we al precies wat mensen willen (veel klikdata).
  • Bij rare zoekwoorden (bijv. "app om mijn kamerplant te bespelen") is er bijna niemand die zoekt, dus er is geen klikdata. De menselijke experts zijn hier ook niet bij.

Hier springt de AI-assistent in. Omdat de AI de betekenis van woorden begrijpt, kan hij zeggen: "Ah, deze app past perfect bij die rare vraag, zelfs als niemand hem ooit heeft gedownload." Hierdoor vinden mensen eindelijk de apps die ze zoeken, zelfs als ze rare dingen typen.

Conclusie

Apple heeft bewezen dat je met een slimme, getrainde AI-assistent een enorm tekort aan menselijke experts kunt oplossen. Het resultaat? Een App Store die voor iedereen, van de meest populaire zoekwoorden tot de meest obscure, beter werkt. En dat heeft geleid tot meer gedownloade apps voor iedereen.