Estimating Treatment Effects under Algorithmic Interference: A Structured Neural Networks Approach

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der „Verkaufstisch"-Effekt

Stell dir vor, du bist der Chef eines riesigen Online-Marktplatzes (wie TikTok oder Instagram), auf dem Millionen von Kreativen ihre Videos hochladen. Um neue Videos zu testen, machst du ein Experiment: Du gibst der Hälfte der Kreative einen neuen, besseren Algorithmus (die „Behandlung") und der anderen Hälfte den alten Algorithmus (die „Kontrolle").

Das naive Denken:
Du denkst: „Wenn ich nur die Videos der neuen Gruppe mit denen der alten Gruppe vergleiche, sehe ich sofort, ob der neue Algorithmus besser ist."

Die Realität (Das Problem):
Das funktioniert nicht, weil alle Videos um die gleiche Aufmerksamkeit kämpfen. Stell dir vor, der neue Algorithmus ist wie ein Super-Verkäufer, der seine Produkte extrem gut präsentiert.

Der Platz-Verdrängungseffekt: Weil die neuen Videos so gut aussehen, bekommen sie viel mehr Aufmerksamkeit. Die alten Videos werden quasi „herausgedrückt" und von niemandem gesehen.
Der Zuschauer-Effekt: Der neue Algorithmus ist auch schlau und zeigt die neuen Videos genau den Leuten, die ohnehin schon gerne kaufen (die „reichen" Zuschauer). Die alten Videos landen bei den weniger interessierten Leuten.

Das Ergebnis:
Wenn du jetzt einfach vergleichst, sagen die Zahlen: „Wow, der neue Algorithmus ist genial!" Aber das ist eine Lüge! Die neuen Videos haben nicht unbedingt bessere Inhalte, sie haben nur mehr Platz bekommen und die richtigen Zuschauer getroffen. Wenn du den neuen Algorithmus für alle einschaltest, bricht der Markt zusammen, weil sich alle gegenseitig verdrängen. Du würdest also das Schlechtere wählen, weil die Messung verzerrt war.

Die Lösung: Ein smarter Detektiv mit einem Werkzeugkasten

Die Autoren dieses Papers haben eine neue Methode entwickelt, um diesen „Verzerrungs-Effekt" zu entlarven. Sie nennen es einen strukturierten neuronalen Netzwerk-Ansatz mit „Entschärfung" (Debiased Estimation).

Hier ist, wie das funktioniert, in drei Schritten:

1. Der „Verkaufs-Modellierer" (Algorithm Choice Model)

Statt einfach nur zu schauen, was passiert, bauen sie eine Simulation. Sie fragen: „Wie würde der Markt aussehen, wenn wir den neuen Algorithmus für ALLE nutzen?"
Sie nutzen ein KI-Modell (ein neuronales Netz), das lernt, wie der Algorithmus entscheidet, welches Video gezeigt wird. Es ist wie ein Flugzeug-Simulator: Bevor wir das echte Flugzeug starten, testen wir den neuen Motor im Simulator, um zu sehen, wie er sich im Wind (dem Wettbewerb) verhält.

2. Der „Zuschauer-Reaktion-Modellierer" (Viewer Response Model)

Das zweite KI-Modell lernt: „Wenn ein Video gesehen wird, wie wahrscheinlich ist es, dass jemand darauf klickt?"
Das ist wichtig, weil wir wissen wollen, ob das Video wirklich gut ist, nicht nur ob es oft gesehen wurde.

3. Der „Entschärfer" (Debiased Estimator)

Das ist der geniale Teil. Normalerweise machen KI-Modelle kleine Fehler. Wenn man diese Fehler einfach in die Rechnung einbaut, wird das Endergebnis falsch (wie wenn man eine Waage benutzt, die immer 1 kg zu viel anzeigt).
Die Autoren haben eine mathematische Technik entwickelt (basierend auf „Double Machine Learning"), die diese kleinen KI-Fehler automatisch herausrechnet. Es ist, als würde man eine Waage haben, die nicht nur wiegt, sondern auch sofort weiß: „Aha, die Feder ist ein bisschen alt, ich ziehe 1 kg ab." So erhalten sie ein ehrliches Ergebnis.

Warum ist das so wichtig? (Das Experiment)

Die Autoren haben das an einem echten chinesischen Video-Portal (Weixin Channels) getestet.

Der Vergleich: Sie haben ein extrem teures, perfektes Experiment gemacht (sie haben den Markt in drei getrennte Welten aufgeteilt, damit sich die Gruppen nicht beeinflussen können). Das war ihr „Goldstandard" (die Wahrheit).
Das Ergebnis:
- Die alten Methoden (einfacher Vergleich) sagten: „Der neue Algorithmus ist super!" (Falsch! Er war eigentlich schlechter).
- Die neue Methode sagte: „Der neue Algorithmus ist schlechter." (Richtig! Sie stimmte mit dem teuren Goldstandard überein).

Die Moral der Geschichte

Wenn du in einem Wettbewerb (wie einem Online-Marktplatz) etwas testest, kannst du nicht einfach die Gewinner und Verlierer vergleichen, weil der Gewinner oft nur deshalb gewonnen hat, weil er den Verlierer verdrängt hat.

Diese neue Methode ist wie ein magischer Spiegel, der den Wettbewerb herausrechnet und dir zeigt, wie gut die Produkte wirklich sind, wenn sie fair gegeneinander antreten. Das spart Unternehmen Milliarden, indem sie verhindern, dass sie schlechte Algorithmen für alle freischalten, nur weil eine faule Messmethode sie getäuscht hat.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Estimating Treatment Effects under Algorithmic Interference: A Structured Neural Networks Approach" auf Deutsch:

1. Problemstellung: Algorithmische Interferenz in Creator-Seiten-Experimenten

Online-Plattformen für nutzergenerierte Inhalte (z. B. Kurzvideo-Plattformen) nutzen Algorithmen, um Werbe- und Promotions-Traffic zu verteilen. Um neue Algorithmen zu bewerten, setzen Plattformen häufig auf Randomisierte Experimente auf der Creator-Seite (Creator-side Randomization). Dabei werden Creator (und deren Inhalte) zufällig einer Behandlungsgruppe (neuer Algorithmus) oder einer Kontrollgruppe (alter Algorithmus) zugewiesen.

Das zentrale Problem ist algorithmische Interferenz: Da behandelte und kontrollierte Inhalte in denselben „Consideration Sets" (Auswahlmengen) um die Sichtbarkeit (Exposure) konkurrieren, hängt das Ergebnis eines einzelnen Creators nicht nur von seiner eigenen Behandlung ab, sondern auch vom Behandlungsstatus der Konkurrenten. Dies verletzt die Stable Unit Treatment Value Assumption (SUTVA).

Die Autoren zeigen, dass herkömmliche Schätzer, wie der Difference-in-Means (DIM), unter diesen Bedingungen stark verzerrt sind. Es entstehen zwei Hauptquellen für Bias:

Content Exposure Bias (Verzerrung der Exposition): Wenn der neue Algorithmus die Scores bestimmter Creator erhöht, „verdrängen" diese Inhalte Kontroll-Inhalte. Die tatsächliche Exposition entspricht nicht mehr der Zuordnungswahrscheinlichkeit.
Viewer Selection Bias (Verzerrung der Zuschauerzusammensetzung): Da Algorithmen personalisiert sind, werden behandelte Inhalte systematisch anderen Zuschauergruppen gezeigt als Kontrollinhalte (z. B. eher engagierten Nutzern).

Folglich können DIM-Schätzer nicht nur falsche Effekte liefern, sondern sogar das Vorzeichen des Behandlungseffekts umkehren, was zu katastrophalen geschäftlichen Entscheidungen (z. B. Einführung eines schlechteren Algorithmus) führen kann.

2. Methodik: Ein strukturiertes semiparametrisches Framework

Um das Global Treatment Effect (GTE) – den Effekt einer weltweiten Einführung des neuen Algorithmus – korrekt zu schätzen, entwickeln die Autoren einen Ansatz, der auf Double/Debiased Machine Learning (DML) basiert und speziell für korrelierte Daten in Marktplätzen erweitert wurde.

Das Framework besteht aus zwei Hauptkomponenten:

A. Algorithm Choice Model (Auswahlmodell)

Dieses Modell beschreibt, wie der Algorithmus basierend auf den Behandlungszuständen der Konkurrenten entscheidet, welcher Inhalt angezeigt wird.

Struktur: Es ist ein semiparametrisches multinomiales Logit-Modell.
Latenter Score: Der Score eines Items $i$ für einen Zuschauer $v$ wird modelliert als:
$S_{i,k} = s_0(V_i, C_{i,k}) + W_{i,k} \cdot s_1(V_i, C_{i,k}) + \epsilon_{i,k}$
Dabei ist $s_0$ der Basisscore (Kontrolle) und $s_1$ der Behandlungseffekt (Uplift).
Neuronale Netze: Die Funktionen $s_0$ und $s_1$ werden durch flexible neuronale Netze approximiert, um komplexe, personalisierte Zusammenhänge zu erfassen.
Interferenz: Die Wahrscheinlichkeit der Exposition hängt explizit von den Behandlungszuständen aller anderen Items im Consideration Set ab.

B. Viewer Response Model (Reaktionsmodell)

Dieses Modell sagt das Engagement (z. B. Klicks, Likes) voraus, sobald ein Inhalt angezeigt wurde.

Es wird als nichtparametrische Funktion $z(V_i, C_{i,k})$ modelliert, ebenfalls geschätzt durch ein neuronales Netz.
Es wird angenommen, dass die Reaktion des Zuschauers nur vom exponierten Inhalt abhängt, nicht direkt vom Behandlungszustand (da Zuschauer den Algorithmuswechsel nicht wahrnehmen).

C. Debiased Estimator (Entzerrter Schätzer)

Da neuronale Netze als „Nuisance Functions" (Störfaktoren) mit einer Konvergenzrate langsamer als $\sqrt{n}$ geschätzt werden, würde ein einfaches „Plug-in"-Verfahren zu verzerrten Inferenzergebnissen führen.

Die Autoren konstruieren einen debiased Schätzer unter Verwendung von Neyman-Orthogonalität.
Dieser Schätzer korrigiert den Plug-in-Schätzer durch einen Korrekturterm, der Gradienten der Verlustfunktionen und die Hesse-Matrix der Schätzer nutzt.
Erweiterung der DML-Theorie: Ein wesentlicher methodischer Beitrag ist die Erweiterung der DML-Asymptotik auf korrelierte Stichproben. In Creator-Experimenten sind die Beobachtungen nicht unabhängig und identisch verteilt (i.i.d.), da dieselben Items in überlappenden Consideration Sets wiederholt auftreten. Die Autoren beweisen die asymptotische Normalität des Schätzers unter Martingal-Grenzwertsätzen, die diese Korrelation berücksichtigen.

3. Wichtige Beiträge

Substanzieller Beitrag: Die Entwicklung einer zuverlässigen Methode zur Bewertung von Promotions-Algorithmen unter Verwendung standardmäßiger Creator-Seiten-Experimente. Dies ermöglicht es Plattformen, kostspielige „Double-Sided"-Experimente (die den Markt in getrennte Sub-Universen aufteilen) zu vermeiden, während dennoch verzerrungsfreie Ergebnisse erzielt werden.
Methodologischer Beitrag:
- Einführung eines strukturierten neuronalen Netzwerk-Frameworks, das semiparametrische Struktur (für kontrafaktische Analyse) mit der Flexibilität von Deep Learning verbindet.
- Theoretische Erweiterung der Double Machine Learning-Theorie auf korrelierte Daten in Marktplätzen, was die Anwendbarkeit von DML über i.i.d.-Daten hinaus ausweitet.
- Nachweis, dass naive Deep-Learning-Ansätze (Pure Deep Learning) und propensity-basierte Methoden (IPW/AIPW) in diesem Kontext versagen (entweder durch Bias oder exponentiell wachsende Varianz).

4. Ergebnisse

Die Validierung erfolgte durch zwei Wege:

Monte-Carlo-Simulationen:
- Der vorgeschlagene Debiased (DB) Schätzer lieferte nahezu unverzerrte Ergebnisse und korrekte Unsicherheitsquantifizierung (Standardfehler).
- DIM-Schätzer (Horvitz-Thompson und Hájek) zeigten massive Verzerrungen und unterschätzten die Varianz.
- Pure Deep Learning (PDL) war verzerrt, da es nicht korrekt auf kontrafaktische Szenarien (globale Einführung) extrapolieren konnte.
- Propensity-basierte Methoden (IPW/AIPW) waren zwar im Erwartungswert unverzerrt, aber ihre Varianz wuchs exponentiell mit der Größe des Consideration Sets ( $K$ ), was sie in der Praxis unbrauchbar machte.
Feldexperiment auf Weixin Channels (Tencent):
- Die Autoren führten ein groß angelegtes Experiment durch, bei dem sie ein Creator-Seiten-Experiment parallel zu einem teuren, interferenzfreien Double-Sided-Experiment (Ground Truth) liefen.
- Ergebnis: Der vorgeschlagene DB-Schätzer stimmte eng mit dem Ground Truth überein.
- Kritischer Befund: Bei einem der drei untersuchten Outcomes zeigte der Ground Truth einen statistisch signifikant negativen Effekt (der neue Algorithmus war schlechter).
  - Der DB-Schätzer erkannte dies korrekt.
  - Alle Benchmark-Schätzer (DIM, PDL) sagten einen signifikant positiven Effekt voraus.
- Konsequenz: Ohne die neue Methode hätte die Plattform einen schlechteren Algorithmus eingeführt, basierend auf einer falsch positiven Schlussfolgerung.

5. Bedeutung

Das Paper liefert einen entscheidenden Baustein für die Kausalität in digitalen Marktplätzen. Es demonstriert, dass Standard-A/B-Tests in algorithmisch gesteuerten Umgebungen mit Wettbewerb um Ressourcen (Exposure) fundamental fehlerhaft sind.

Die vorgestellte Methode bietet Plattformen ein praktikables Werkzeug, um Algorithmenupdates sicher zu evaluieren, ohne die statistische Power und den Marktdurchfluss durch teure Double-Sided-Designs zu opfern. Theoretisch erweitert es den Anwendungsbereich von Double Machine Learning auf eine Klasse von Problemen mit struktureller Abhängigkeit, die in der Ökonomie und im Marketing allgegenwärtig sind.