On the Impact of the Utility in Semivalue-based Data Valuation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groot team hebt gebouwd om een moeilijke puzzel op te lossen. Dit team bestaat uit honderden individuele leden (je data-punten). Nu wil je weten: wie heeft het meest bijgedragen aan het succes? Wie was de held en wie zat misschien alleen maar in de weg?

In de wereld van kunstmatige intelligentie (AI) proberen wetenschappers dit te beantwoorden met iets dat data waardering heet. Ze gebruiken wiskundige regels (uit de speltheorie) om elk data-punt een "score" te geven.

Maar hier zit een addertje onder het gras, zoals beschreven in dit paper: Hoe je die score berekent, hangt af van wat jij belangrijk vindt.

Het Probleem: De "Waarde" hangt af van je bril

Stel je voor dat je een trainer bent van een voetbalteam. Je wilt weten welke spelers het beste zijn.

Als je kijkt naar doelpunten, is de spits de held.
Als je kijkt naar verdedigingsacties, is de verdediger de held.
Als je kijkt naar passnauwkeurigheid, is de middenvelder de held.

Elke manier van kijken is "goed", maar ze geven een heel ander resultaat. In de AI-wereld noemen we deze manieren van kijken utility (nut). Het probleem is dat onderzoekers vaak niet weten welke "bril" ze moeten opzetten. En als ze de bril veranderen, kan de ranglijst van de beste data-punten volledig omverwaaien. Dat is riskant: je zou misschien dure trainingen doen op de verkeerde data.

De Oplossing: Een "Ruimtelijk Handtekening"

De auteurs van dit paper hebben een slimme manier bedacht om dit probleem te visualiseren en op te lossen. Ze noemen het de ruimtelijke handtekening (spatial signature).

De Analogie van de Lantaarnpaal:
Stel je voor dat je elke data-punt (zoals een foto van een hond of een klantgegevens) projecteert op een muur. Maar je projecteert ze niet zomaar, je projecteert ze vanuit een heel specifiek punt (de "semivalue" methode).

Als je nu een lantaarnpaal (de "utility") op de grond zet en het licht richt op de muur, zie je de schaduwen van de punten.
De volgorde van de schaduwen (wie staat het hoogst?) bepaalt wie de "beste" data-punten zijn.
Als je de lantaarnpaal een beetje draait (je verandert je definitie van succes, bijvoorbeeld van "snelheid" naar "nauwkeurigheid"), veranderen de schaduwen.

De vraag is: Hoeveel moet ik de lantaarnpaal draaien voordat de volgorde van de schaduwen volledig omverwaait?

De Meting: De "Robuustheidsscore"

De auteurs hebben een meetlat bedacht, een robuustheidsscore.

Hoge score: Je kunt de lantaarnpaal flink draaien, en de volgorde van de schaduwen blijft bijna hetzelfde. Dit betekent: "Ongeacht welke bril je opzet, deze data-punten zijn echt belangrijk." (Dit is veilig!).
Lage score: Je draait de lantaarnpaal een heel klein beetje, en de schaduwen wisselen direct van plek. Dit betekent: "Deze resultaten zijn heel fragiel. Als je je definitie van succes een beetje aanpast, verandert alles." (Dit is gevaarlijk!).

Het Grote Geheim: Waarom "Banzhaf" de winnaar is

In hun experimenten keken ze naar drie verschillende manieren om de schaduwen te berekenen (Shapley, Beta Shapley en Banzhaf). Ze ontdekten iets fascinerends:

Bij de methode Banzhaf lijken de schaduwen van alle punten bijna perfect op één rechte lijn te staan.

De analogie: Stel je voor dat alle data-punten als een rij lantaarnpalen staan. Als je het licht van zijkant schijnt, zie je ze allemaal in een lijn. Als je het licht een beetje draait, blijven ze in die lijn staan. De volgorde verandert nauwelijks.
Bij de andere methoden (zoals Shapley) staan de punten willekeurig verspreid. Als je het licht draait, kruisen de schaduwen elkaar constant. De volgorde verandert dus heel snel.

Conclusie: De Banzhaf-methode is de meest stabiele. Het geeft je de meeste zekerheid dat je data-punten echt waardevol zijn, ongeacht welke specifieke "nut"-definitie je kiest.

Waarom is dit belangrijk voor jou?

Als je een AI-model bouwt (bijvoorbeeld voor een ziekenhuis of een bank), wil je niet dat je beslissingen gebaseerd zijn op data die alleen maar goed lijkt omdat je een specifieke, willekeurige formule hebt gebruikt.

Dit paper geeft je een veiligheidstest:

Bereken de waardes van je data.
Gebruik de nieuwe "robuustheidsscore" om te checken: "Zijn deze resultaten stabiel als ik mijn doelen iets verander?"
Als de score laag is: Wees voorzichtig! Je resultaten zijn misschien toeval.
Als de score hoog is (en je gebruikt Banzhaf): Je kunt vertrouwen op je resultaten.

Kortom: Het paper leert ons hoe we kunnen controleren of onze data-analyses echt sterk zijn, of dat ze alleen maar sterk lijken omdat we naar ze keken door een heel specifiek, willekeurig raam.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "On the Impact of the Utility in Semivalue-Based Data Valuation", gepubliceerd bij ICLR 2026.

Probleemstelling

Data-valuatie (het toekennen van een waarde aan individuele datapunten op basis van hun bijdrage aan een ML-taak) maakt vaak gebruik van semivaluën (zoals Shapley, Beta Shapley en Banzhaf) uit de coöperatieve speltheorie. Een cruciaal, maar vaak verwaarloosd aspect is de keuze van de nutfunctie (utility). De nutfunctie meet de prestatie van een model op een subset van data (bijv. nauwkeurigheid, F1-score, of een afweging tussen 'helpfulness' en 'harmlessness').

Het paper identificeert twee kritieke scenario's waarin de keuze van de nutfunctie problematisch is:

Trade-off scenario: De nutfunctie is een convexe combinatie van meerdere criteria (bijv. $\nu \cdot \text{helpfulness} + (1-\nu) \cdot \text{harmlessness}$ ). Als de prioriteiten ( $\nu$ ) veranderen, kan de rangschikking van de waardevolste datapunten drastisch veranderen, wat leidt tot kostbare hertraining.
Meerdere geldige nutfuncties: Er is geen enkele "juiste" metriek voor een taak (bijv. Accuracy vs. F1-score voor een classificatie). Als de rangschikking van datapunten sterk verschilt afhankelijk van welke geldige metriek wordt gekozen, is de data-valuatie onbetrouwbaar als heuristiek.

De kernvraag is: Hoe robuust is de rangschikking van datapunten tegenover veranderingen in de gekozen nutfunctie?

Methodologie: Geometrische Benadering

De auteurs introduceren een unificerende geometrische modellering om dit probleem aan te pakken.

Ruimtelijke Handtekening (Spatial Signature):
Gegeven een dataset $D$ en een semivaluë-gewichtvector $\omega$ , embedt de methode elk datapunt $z_i$ in een lagere dimensie ruimte (meestal $\mathbb{R}^2$ voor twee basis-nutfuncties).
- De embedding $\psi_{\omega,D}(z)$ wordt gedefinieerd als de vector van semivaluën van $z$ berekend op de basis-nutfuncties $u_1$ en $u_2$ .
- Door de lineariteit van semivaluën geldt: $\phi(z; \omega, \alpha_1 u_1 + \alpha_2 u_2) = \langle \psi_{\omega,D}(z), \alpha \rangle$ .
- Dit betekent dat het rangschikken van data onder een willekeurige nutfunctie $\alpha$ equivalent is aan het projecteren van de embedded punten op de vector $\alpha$ .
Geometrische Interpretatie:
- De rangschikking blijft stabiel zolang de richting van $\alpha$ binnen een bepaald "rangschikkingsgebied" (ranking region) op de eenheidscirkel $S^1$ blijft.
- Veranderingen in de nutfunctie corresponderen met het roteren van de vector $\alpha$ . Een "swap" (omruiling) in de rangschikking treedt op wanneer $\alpha$ een lijn kruist die twee datapunten scheidt (de loodrechte bissectrice van hun verschilvector).
- Observatie: Als de embedded punten (de ruimtelijke handtekening) bijna collineair liggen (op één lijn door de oorsprong), zijn er zeer weinig grenzen tussen rangschikkingsgebieden. Dit impliceert hoge stabiliteit.
Robuustheidsmetriek ( $R_p$ ):
De auteurs definiëren een metriek $R_p$ die kwantificeert hoeveel men de nutfunctie moet roteren voordat $p$ paren van datapunten van positie wisselen.
- $R_p$ is de genormaliseerde gemiddelde minimale geodetische afstand op de eenheidscirkel die nodig is om $p$ swaps te veroorzaken.
- $R_p \approx 1$ betekent hoge stabiliteit (men moet ver roteren om de rangschikking te veranderen).
- $R_p \approx 0$ betekent lage stabiliteit (kleine veranderingen in de nutfunctie leiden tot grote verschuivingen).
- De berekening heeft een complexiteit van $O(n^2 \log n)$ , wat efficiënt is in vergelijking met de Monte Carlo-schattingen van de semivaluën zelf.

Belangrijkste Bijdragen

Unificatie van Scenarios: Een enkel geometrisch raamwerk dat zowel trade-off scenario's als scenario's met meerdere geldige nutfuncties behandelt.
Ruimtelijke Handtekening: De introductie van de embedding van datapunten in een ruimte waar nutfuncties lineaire functionalen zijn, wat een intuïtief geometrisch inzicht biedt.
Praktische Robuustheidsmetriek: Een nieuwe, berekenbare metriek ( $R_p$ ) die practitioners in staat stelt om de stabiliteit van hun data-valuatie resultaten te kwantificeren voordat ze beslissingen nemen.
Analytisch Inzicht in Semivaluën: Het paper levert een theoretische verklaring waarom bepaalde semivaluën robuuster zijn dan anderen, gebaseerd op hoe hun gewichten de ruimtelijke handtekening beïnvloeden.

Resultaten

De auteurs hebben hun methode gevalideerd op diverse datasets (o.a. BREAST, TITANIC, CREDIT, HEART) en met drie populaire semivaluën: Shapley, (4,1)-Beta Shapley, en Data Banzhaf.

Correlatie met Rangschikking: De $R_p$ metriek correleert sterk met traditionele rangschikkingscorrelaties (Kendall en Spearman). Datasets met lage correlatie tussen verschillende nutfuncties hebben ook lage $R_p$ waarden.
Superioriteit van Banzhaf: Over de meeste datasets en scenario's behaalt Data Banzhaf de hoogste robuustheidsscores ( $R_p$ $R_{p}$ ).
- Geometrische verklaring: De Banzhaf-gewichten concentreren zich op coalities van gemiddelde grootte. Empirisch bleek dat de marginale bijdragen voor deze coalities sterk gecorreleerd zijn tussen verschillende nutfuncties. Dit resulteert in een ruimtelijke handtekening waarbij de punten bijna perfect collineair liggen, wat de maximale stabiliteit garandeert.
- Shapley (uniforme gewichten) en Beta Shapley (accent op kleine coalities) vertonen minder collineariteit en zijn dus gevoeliger voor veranderingen in de nutfunctie.
Trade-off Scenario: In scenario's waarbij de nutfunctie een afweging is (bijv. MSE vs. MAE), behoudt Banzhaf de meest stabiele rangschikkingen terwijl de weging ( $\nu$ ) varieert.

Significantie en Implicaties

Dit paper biedt een cruciale stap voorwaarts in het betrouwbaar maken van data-valuatie:

Risicomanagement: Practitioners kunnen nu vooraf bepalen of hun data-valuatie resultaten betrouwbaar zijn voor hun specifieke context. Als $R_p$ laag is, is het riskant om te vertrouwen op een specifieke rangschikking voor data-cleaning of subset-selectie, omdat kleine wijzigingen in de doelstelling de resultaten volledig kunnen omkeren.
Keuze van Semivaluë: Het paper adviseert het gebruik van Data Banzhaf wanneer robuustheid tegenover nutfunctie-keuzes een prioriteit is, vanwege de inherente stabiliteit die voortkomt uit de geometrische eigenschappen van de embedding.
Geometrisch Inzicht: Het verlegt de focus van puur computationele optimalisatie naar een geometrisch begrip van data-valuatie, wat nieuwe wegen opent voor het analyseren van stabiliteit en sensitiviteit in coöperatieve speltheoretische methoden.

Kortom, het paper transformeert data-valuatie van een "zwarte doos" die gevoelig is voor subjectieve keuzes, naar een transparant proces waarbij de stabiliteit van de uitkomsten kwantificeerbaar en voorspelbaar is.

On the Impact of the Utility in Semivalue-based Data Valuation

Het Probleem: De "Waarde" hangt af van je bril

De Oplossing: Een "Ruimtelijk Handtekening"

De Meting: De "Robuustheidsscore"

Het Grote Geheim: Waarom "Banzhaf" de winnaar is

Waarom is dit belangrijk voor jou?

Probleemstelling

Methodologie: Geometrische Benadering

Belangrijkste Bijdragen

Resultaten

Significantie en Implicaties

Meer zoals dit

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem