The Value of Graph-based Encoding in NBA Salary Prediction

Each language version is independently generated for its own context, not a direct translation.

De Gouden Kooi: Waarom je niet alleen naar statistieken moet kijken bij NBA-salarissen

Stel je voor dat je een NBA-teammanager bent. Je moet beslissen hoeveel je een speler betaalt. De traditionele manier (de "oude school") is als een rekenmachine: je kijkt naar de cijfers van vorig jaar (hoeveel punten, rebounds, assists) en de leeftijd van de speler. Als de cijfers goed zijn, krijg je een groot salaris.

De auteurs van dit paper zeggen echter: "Wacht even, dat is te simpel."

In de echte wereld wordt een speler niet alleen betaald voor wat hij doet op het veld, maar ook voor wie hij kent en hoe lang hij al in het spel zit. Dit noemen ze "sociaal kapitaal". Een oude, gewonde speler kan nog steeds een enorm salaris krijgen omdat hij al 15 jaar in de liga zit en een goede agent heeft. Een rekenmachine ziet alleen de blessure en denkt: "Te duur!"

Het Probleem: De Rekenmachine vs. Het Netwerk

De onderzoekers van Brigham Young University wilden weten: Kunnen we een slim computermodel maken dat niet alleen naar cijfers kijkt, maar ook naar het "netwerk" van de speler?

Ze bouwden een kennisnetwerk (een soort gigantische connectie-kaart). Op deze kaart zijn spelers verbonden met:

Hun teams.
Hun agents.
De prijzen die ze hebben gewonnen.
Hun blessuregeschiedenis.

Het idee is als een groot sociaal netwerk: als je weet met wie iemand bevriend is, weet je vaak meer over die persoon dan alleen door naar zijn gezicht te kijken.

De Grote Ontdekking: Het hangt af van je "Leeftijd" in het spel

Het meest interessante deel van dit onderzoek is dat het antwoord "ja" is, maar met een grote maar. Het werkt heel anders voor twee groepen spelers:

1. De Rookies (De Nieuwelingen) = Het "Lege Vak"

Stel je een jonge speler voor die net uit de draft komt. Hij heeft nog geen team, geen agent die langdurig met hem werkt, en geen netwerk van vrienden in de NBA. Hij zit in een sociale leegte.

Wat het model deed: Het probeerde zijn netwerk te analyseren, maar omdat er geen connecties waren, kreeg het alleen maar ruis (onzin). Het model raakte in de war en maakte grote fouten.
De les: Voor jonge spelers is de simpele "rekenmachine" (kijken naar draft-positie en leeftijd) nog steeds de beste. Netwerken bestaan voor hen nog niet.

2. De Veteranen (De Oude Garde) = De "Gouden Kooi"

Stel je een speler voor die al 10 jaar speelt. Hij heeft een sterke agent, speelt voor een bekend team en heeft een reputatie. Zelfs als hij dit jaar wat minder presteert of geblesseerd is, blijft zijn salaris hoog.

Wat het model deed: De rekenmachine zag alleen de slechte cijfers en dacht: "Betaal hem minder!" Maar het netwerkmodel zag de connecties: "Ah, deze speler zit in een krachtig netwerk van top-agents en loyale teams. Hij is nog steeds waardevol!"
Het resultaat: Het netwerkmodel kon de rekenmachine "redden" door fouten te corrigeren. Het zag de onzichtbare waarde die de cijfers niet toonden.

De "Drie Toestanden" van het Model

De onderzoekers keken niet alleen naar het gemiddelde, maar keken specifiek naar de uitzonderingen (de spelers waar de rekenmachine het totaal bij verkeerd zat). Ze deelden de resultaten in drie categorieën:

De Redding (Rescue): Het netwerkmodel zag dat een speler (zoals Fred VanVleet) meer waard was dan zijn cijfers suggereerden, omdat hij een goede agent en reputatie had. Het model "redde" de voorspelling en gaf een realistischer salaris.
De Neutrale: Het model deed niets anders dan de rekenmachine.
De Misleiding (Misguidance): Soms ging het net zo mis. Bij een speler als Chris Paul (die oud is en minder presteert) zag het netwerkmodel alleen de "oude roem" en dacht: "Hij is nog steeds een ster!" Terwijl de markt eigenlijk dacht: "Hij is te oud." Het model was dan te vastgeplakt aan het verleden.

De Grootste Leerlessen (in simpele taal)

Kwaliteit boven Kwantiteit: Je hoeft niet alle data in het model te stoppen. Een simpel netwerk met de juiste connecties (wie is je agent, welk team) werkt beter dan een overladen netwerk met duizenden kleine details.
De "Structuur-Maturiteit" Hypothese:
- Rookies worden bepaald door regels (leeftijd, draft-nummer). Gebruik daar een simpele rekenmachine voor.
- Veteranen worden bepaald door relaties (reputatie, agent, teamloyaliteit). Gebruik daar een slim netwerkmodel voor.
Het Gevaar van "Over-smoothing": Soms is een speler zo'n superster (zoals Giannis Antetokounmpo) dat hij uniek is. Als het netwerkmodel te veel kijkt naar zijn teamgenoten (die minder verdienen), "verwaterd" het model zijn unieke waarde. Het maakt alles gemiddeld, terwijl supersters juist niet gemiddeld zijn.

Conclusie

Dit onderzoek leert ons dat er geen "one-size-fits-all" oplossing is voor het voorspellen van salarissen.

Voor nieuwe spelers is de simpele statistiek de koning.
Voor ervaren spelers is het netwerk (wie je kent) de sleutel tot de juiste prijs.

De beste manier om NBA-salarissen te voorspellen is dus een hybride systeem: gebruik de rekenmachine voor de nieuwelingen, maar schakel het slimme netwerkmodel in zodra een speler "rijp" is genoeg om een eigen sociaal kapitaal te hebben.

Each language version is independently generated for its own context, not a direct translation.

Titel: De Waarde van Grafgebaseerde Encodering bij het Voorspellen van NBA-salarissen

1. Het Probleem

Het voorspellen van de marktwaarde (salarissen) van professionele sporters is een complex probleem vanwege de grote variabiliteit in prestaties en locatie van jaar tot jaar.

Huidige aanpak: Traditionele methoden gebruiken tabulaire datasets en toezichtloos leren (zoals XGBoost) om het salaris te voorspellen op basis van prestaties van het vorige jaar.
Beperkingen: Deze methoden behandelen spelers als geïsoleerde rijen en negeren "relationeel kapitaal" (zoals onderhandelingkracht van een agent, teamfit en schaarste binnen het talentnetwerk).
- Voor jonge spelers (rookies) werkt dit goed, omdat hun contracten voornamelijk gebaseerd zijn op draft-posities.
- Voor veteranen of spelers in de uiterste staart van de verdeling (zeer hoge salarissen) falen deze modellen vaak, omdat ze de opgebouwde sociale structuur en reputatie missen.
Uitdaging: Bestaande graf-neurale netwerken (GNN's) lijken vaak redundant te zijn ten opzichte van expliciete metadata (zoals Team-ID of Agent-ID) of lijden onder "temporale lekkage" (toekomstige informatie gebruiken). Er is een gebrek aan strikte methodologie om te bepalen of grafstructuren daadwerkelijk extra voorspellende waarde bieden.

2. Methodologie

De auteurs introduceren een Matched-Information Evaluation Framework om de onafhankelijke voorspellende kracht van netwerktopologie te isoleren.

Data: Gegevens uit vijf NBA-seizoenen (2020-21 tot 2024-25). De doelvariabele is het logaritmisch jaarlijkse salaris.
- On-court data: Statistieken, awards, blessures.
- Off-court data: Teams, agents, draft-positie.
Baselines:
1. Weak Baseline: Voorspelt alleen op basis van prestaties en demografische data (geen Team/Agent-ID's).
2. Strong Baseline: Voorspelt op basis van prestaties + expliciete Team/Agent-ID's (dit fungeert als een "Oracle" of bovengrens).
Kennisgraf (Knowledge Graph):
- Een heterogene graf wordt opgebouwd met PlayerSeason als ankerpunten, verbonden met entiteiten zoals Teams, Agents, Awards en Blessures.
- Strikte temporale masking wordt toegepast om "look-ahead bias" te voorkomen (alleen relaties tot het huidige seizoen worden gebruikt).
Embedding Methodes:
- Static Embeddings: Node2Vec en RotatE (onbewaakt, leren structurele patronen zonder expliciete ID's).
- Graph Neural Networks (GNN's):
  - V1 (Static): GraphSAGE over speler-entiteiten.
  - V2-Base (Dynamic): GraphSAGE over PlayerSeason nodes (Transductief en Inductief).
  - V2-Full (Heterogeneous): R-GCN met dichte semantische events (Awards, Blessures).
Evaluatieprotocol (Tri-State Rescue Protocol):
- In plaats van alleen gemiddelde fouten (RMSE) te kijken, analyseren de auteurs "Eligible Outliers" (spelers waar de baseline sterk afwijkt).
- Ze meten het Correctie-marge ( $\Delta E$ ): Hoeveel verbetert het grafmodel de voorspelling ten opzichte van de baseline?
- Drie uitkomsten: Geslaagde Redding (fout verkleind > $0.5M), Neutraal, of Structurale Misleiding (fout vergroot).

3. Belangrijkste Bijdragen en Resultaten

A. Hoge-Fidelity Proxies (Structuur als Proxy)
Zelfs zonder expliciete Team- of Agent-ID's, kunnen statische graf-embeddings (zoals RotatE) een aanzienlijk deel van de voorspellende kracht van de "Strong Baseline" herstellen. Dit bewijst dat de topologie op zichzelf latent institutioneel kapitaal (bijv. reputatie van een agent) encodeert.

B. De "Structural Maturity" Dichotomie (Veteranen vs. Rookies)
Dit is de kerninzicht van het paper:

Veteranen (Gevestigde Spelers): Grafmodellen fungeren als een cruciaal "veiligheidsnet". Ze vangen het opgebouwde sociale kapitaal en de reputatie die tabulaire modellen missen. Voor veteranen kunnen grafmodellen fouten met meer dan $10M reduceren (bijv. bij Fred VanVleet).
Rookies (Nieuwe Instromers): Grafmodellen falen hier volledig ("Structural Vacuum"). Omdat rookies nog geen uitgebreide netwerkgeschiedenis hebben, introduceren graf-embeddings alleen ruis. Voor rookies blijven pure tabulaire modellen (gebaseerd op draft-positie en leeftijd) superieur.
- Resultaat: In "Cold-Start" scenario's stortten grafmodellen in (R² ≈ -0.31), terwijl tabulaire modellen stabiel bleven.

C. Signal Verdunning (Kwaliteit boven Kwantiteit)
Complexere, dichte heterogene grafen (zoals V2-Full met veel awards en blessures) presteren niet consistent beter dan eenvoudigere topologieën. Dit weerlegt het "meer is beter"-mythe; specifieke affiliatie-edges (wie je kent) zijn waardevoller dan grote volumes aan ruisachtige historische gebeurtenislogs.

D. Risico's en Grenzen

Legacy Hangover: Grafmodellen kunnen veteranen overschatten als hun historische status (reputatie) niet overeenkomt met hun huidige fysieke prestaties (bijv. Chris Paul).
Hub Oversmoothing: Inductieve GNN's neigen om supersterren te "verwatten" met hun lager betaalde teamgenoten, waardoor hun unieke premie wordt weggeërodeerd.

4. Significatie en Conclusie

Het paper biedt een fundamenteel nieuw perspectief op economische waardering in de sportwereld:

Methodologische Strengh: Door strikte anti-lekkage protocollen te gebruiken, wordt bewezen dat grafstructuren een orthogonaal signaal bieden dat niet simpelweg een proxy is voor bekende metadata.
Hybride Toekomst: Optimale waarderingssystemen moeten "rijpheidsbewust" zijn. Ze moeten standaard tabulaire modellen gebruiken voor rookies, maar grafmodules activeren voor veteranen om hun relationele kapitaal te kwantificeren.
Economisch Inzicht: Het bevestigt dat salarissen niet puur meritocratisch zijn, maar sterk worden beïnvloed door "embeddedness" (sociale netwerken), iets dat alleen door grafgebaseerde encoding kan worden vastgelegd zonder expliciete labels.

Kortom, grafgebaseerde encoding is niet overal superieur, maar is essentieel voor het voorspellen van de marktwaarde van gevestigde spelers waar sociale en relationele factoren de statistieken overstijgen.