Causal Effects with Unobserved Unit Types in Interacting Human-AI Systems

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Wer ist wer in der digitalen Welt?

Stell dir vor, du betreibst eine riesige Online-Plattform, wie eine Dating-App oder ein soziales Netzwerk. Dort mischen sich echte Menschen und künstliche Intelligenz (KI-Bots), die sich wie Menschen verhalten.

Das Problem: Du kannst sie nicht unterscheiden.
Ein Bot schreibt vielleicht einen traurigen Post über das Dating-Leben, und ein echter Mensch schreibt einen fröhlichen. Für dich, den Beobachter, sehen beide Beiträge gleich aus. Du weißt nicht, wer dahintersteckt.

Jetzt willst du ein Experiment machen: Du möchtest herausfinden, ob eine neue Funktion (z. B. eine "Erfolgsgeschichte" über glückliche Paare) die Stimmung der echten Menschen verbessert.

Aber hier liegt die Falle:

Die Bots reagieren völlig anders auf diese Geschichte als die Menschen (vielleicht hassen sie positive Nachrichten und werden noch zynischer).
Die Menschen und Bots beeinflussen sich gegenseitig (wenn ein Bot traurig schreibt, wird ein Mensch vielleicht auch traurig).
Da du nicht weißt, wer wer ist, mischen sich die Effekte. Wenn du einfach den Durchschnitt aller Nutzer nimmst, hebt sich der positive Effekt bei den Menschen fast genau mit dem negativen Effekt bei den Bots auf. Das Ergebnis sieht aus, als hätte deine neue Funktion gar nichts bewirkt.

Die Lösung: Ein mathematisches "Röntgenbild" für Gruppen

Die Autoren (William Overman, Sadegh Shirani und Mohsen Bayati von der Stanford University) haben eine Methode entwickelt, um trotzdem den Effekt nur auf die Menschen zu berechnen, ohne jemals einen einzelnen Bot zu identifizieren müssen.

Stell dir das so vor:

1. Der "Wahrscheinlichkeits-Radar"
Anstatt zu wissen, ob Person A ein Mensch ist, hast du nur eine Wahrscheinlichkeit. Vielleicht sagt dein Radar: "Ich bin zu 80 % sicher, dass Person A ein Mensch ist." Bei Person B bist du nur zu 40 % sicher.
Das ist wie bei einem Wetterbericht: Du weißt nicht genau, ob es regnen wird, aber du hast eine gute Schätzung.

2. Die "Gruppen-Zerlegung" (Das Koch-Prinzip)
Statt jeden einzelnen Nutzer zu betrachten, mischen die Forscher die Nutzer in verschiedene große Töpfe (Subpopulationen).

Topf 1: Enthält viele Nutzer, bei denen der Radar "hohe Mensch-Wahrscheinlichkeit" anzeigt.
Topf 2: Enthält viele Nutzer mit "niedriger Mensch-Wahrscheinlichkeit" (also eher Bots).
Topf 3: Eine Mischung aus beiden.

Jetzt behandeln sie diese Töpfe unterschiedlich:

In Topf 1 zeigen sie die Erfolgsgeschichte nur wenigen Leuten.
In Topf 2 zeigen sie sie fast allen.
In Topf 3 zeigen sie sie gar nicht.

3. Der "Schmelzpunkt-Effekt"
Das Geniale an ihrer Methode ist, dass sie nicht die einzelnen Töpfe betrachten, sondern wie sich die Durchschnittsstimmung in jedem Topf über die Zeit verändert.

Stell dir vor, du hast zwei Schmelztiegel:

Im einen schmelzen fast nur Eiswürfel (Menschen).
Im anderen schmelzen fast nur Steine (Bots).
Du gibst beiden die gleiche Hitze (die Behandlung).

Obwohl du nicht genau weißt, welche Schmelzrate jedes einzelne Stück hat, kannst du aus dem Verhalten der ganzen Masse im Topf ableiten, wie sich nur das Eis verhalten würde. Weil die Mischung in den Töpfen unterschiedlich ist, "entwirren" sich die Signale mathematisch.

Wie funktioniert die Mathematik im Hintergrund?

Die Forscher nutzen ein Modell namens "Causal Message Passing" (Kausaler Nachrichtenfluss).
Stell dir vor, die Nachrichten in der App sind wie Wellen in einem Teich. Wenn jemand einen Stein wirft (eine Behandlung), breitet sich die Welle aus.

Normalerweise weiß man nicht, wo die Steine waren oder wie tief das Wasser ist.
Aber die Forscher sagen: "Wenn wir genug verschiedene Gruppen mit unterschiedlicher Zusammensetzung beobachten, können wir die Wellenmuster so analysieren, dass wir berechnen, wie sich die Wellen nur in einem reinen Menschen-Teich verhalten würden."

Sie bauen eine Art Vorhersage-Maschine, die sagt: "Okay, wenn wir nur Menschen hätten und alle die Erfolgsgeschichte sehen würden, wie hoch wäre dann die Engagement-Rate?"

Das Ergebnis im Test

Die Autoren haben einen Simulator gebaut, in dem echte Menschen (simuliert durch KI-Modelle mit "menschlicher" Persönlichkeit) und Bots (mit "zynischer" Persönlichkeit) interagieren.

Ergebnis: Die Bots wurden durch die Erfolgsgeschichte sogar weniger aktiv (sie hielten es für naiv). Die Menschen wurden aktiver.
Der Durchschnitt: Wenn man alle zusammenzählt, sieht es aus, als wäre nichts passiert (0 Effekt).
Die neue Methode: Sie hat den Effekt für die Menschen fast perfekt berechnet (ca. +0,5), obwohl sie die Bots nie einzeln gesehen hat.

Warum ist das wichtig?

In einer Welt, in der KI-Bots immer mehr Teil unseres Online-Lebens werden, können wir uns nicht mehr darauf verlassen, dass "alle Nutzer" gleich sind. Wenn wir politische Kampagnen, Gesundheitswarnungen oder neue Features testen, müssen wir wissen: Wie wirkt sich das auf die echten Menschen aus?

Diese Methode ist wie ein Zaubertrick: Sie trennt die Menschen von den Bots, indem sie nicht sie ansieht, sondern nur die Gruppen, in denen sie sitzen. So können Plattformen sicherer und fairer experimentieren, auch wenn sie nicht wissen, wer genau dahintersteckt.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Paper adressiert die Herausforderung, kausale Effekte von Interventionen auf menschliche Nutzer in gemischten Populationen aus Menschen und KI-Agenten zu schätzen, wobei zwei kritische Informationen fehlen:

Unbeobachtete Einheitstypen: Es ist nicht bekannt, welche Einheit (User) ein Mensch und welche ein KI-Agent ist.
Unbeobachtete Netzwerkstruktur: Die Interaktionsstruktur (wer interagiert mit wem) ist nicht direkt messbar.

In klassischen Netzwerk-Experimenten wird oft angenommen, dass Einheiten homogen sind oder die Netzwerkstruktur teilweise bekannt ist. In modernen Plattformen (z. B. Social Media) interagieren jedoch Menschen und autonome KI-Agenten (z. B. Bots, LLMs) miteinander. Da KI-Agenten oft menschliches Verhalten imitieren, sind sie für die Plattform schwer zu unterscheiden. Das Ziel ist es, den Total Treatment Effect (TTE) spezifisch für Menschen (H-TTE) zu ermitteln, obwohl die Daten nur aggregierte Ergebnisse der gesamten Population liefern.

2. Methodik

Die Autoren erweitern das Framework des Causal Message Passing (CMP), das ursprünglich für homogene Populationen entwickelt wurde, um den Fall unbeobachteter Typen zu behandeln.

A. Modellannahmen

Prior-Wahrscheinlichkeiten: Jeder Einheit $i$ ist eine bekannte Prior-Wahrscheinlichkeit $Q_i \in [0, 1]$ zugeordnet, die angibt, wie wahrscheinlich es ist, dass diese Einheit ein Mensch ist ( $U_i=1$ ) oder ein KI-Agent ( $U_i=0$ ). Diese $Q_i$ können aus Klassifikatoren stammen.
Outcome-Modell: Die Ergebnisse $Y_t^i$ $Y_{t}^{i}$ folgen einem dynamischen Modell, das Baseline-Effekte, direkte Behandlungseffekte und Interaktionseffekte (Spillovers) berücksichtigt. Diese Parameter unterscheiden sich je nach Typ (Mensch vs. KI).
- Die Interaktionsgewichte werden als Gaußsche Zufallsvariablen modelliert, deren Mittelwerte von den Typen der interagierenden Einheiten abhängen.
Zielgröße: Der H-TTE ist definiert als der Unterschied im durchschnittlichen Ergebnis menschlicher Einheiten zwischen einem Szenario, in dem die gesamte Population behandelt wird, und einem, in dem niemand behandelt wird.

B. Experimental State Evolution (ESE)

Der Kern der Methode ist die Herleitung von State-Evolution-Gleichungen.

Die Autoren zeigen, dass sich die Dynamik des Stichprobenmittels $\bar{Y}_t$ einer Subpopulation im Grenzwert großer Populationen ( $N \to \infty$ ) deterministisch verhält.
Entscheidend ist, dass diese Dynamik nur von der durchschnittlichen menschlichen Zusammensetzung ( $q_S$ ) der Subpopulation und der Behandlungsexposition ( $\pi_t$ ) abhängt, nicht von den individuellen Typen oder der genauen Netzwerkstruktur.
Dies ermöglicht es, das hochdimensionale Problem auf eine niedrigdimensionale Zustandsgleichung zu reduzieren, die die Entwicklung des aggregierten Outcomes beschreibt.

C. Schätzalgorithmus (Algorithmus 1)

Der Algorithmus schätzt den H-TTE in drei Schritten:

Konstruktion von Subpopulationen: Die Population wird in Subgruppen unterteilt, die sich systematisch in ihrer erwarteten menschlichen Zusammensetzung ( $q^{(k)}$ ) und ihrer Behandlungsgeschichte ( $\hat{\pi}^{(k)}_t$ ) unterscheiden. Dies wird durch Stratifikation nach den Priors $Q_i$ und Sortierung nach Behandlungsdauer erreicht.
Parameterschätzung: Die State-Evolution-Gleichung wird an die beobachteten aggregierten Outcomes dieser Subpopulationen angepasst (mittels Kleinste-Quadrate-Schätzung), um die kausalen Parameter ( $\delta, \tau, \alpha, \beta, \gamma$ ) zu identifizieren.
Projektion von Gegenfakten: Mit den geschätzten Parametern werden zwei kontrafaktische Szenarien simuliert:
- Vollbehandlung ( $\pi=1$ ) mit reiner menschlicher Zusammensetzung ( $q=1$ ).
- Keine Behandlung ( $\pi=0$ ) mit reiner menschlicher Zusammensetzung ( $q=1$ ).
  Die Differenz dieser projizierten Pfade ergibt den geschätzten H-TTE.

3. Wichtige Beiträge

Identifizierbarkeit trotz Latenz: Das Paper beweist theoretisch, dass die Verteilungswissen über die Populationszusammensetzung (die Priors $Q_i$ ) ausreicht, um typenspezifische kausale Effekte zu identifizieren, selbst wenn die individuellen Typen und das Netzwerk unbekannt sind.
Erweiterung von CMP: Es wird der erste Rahmen vorgestellt, der Netzwerk-Interferenz und unbeobachtete Heterogenität (Typen) gleichzeitig behandelt.
Konsistenzbeweis: Es wird gezeigt, dass der Schätzer konsistent ist, wenn die Populationsgröße gegen unendlich geht, vorausgesetzt, das Experimentaldesign bietet genügend Variation in Zusammensetzung und Behandlung (Assumption 3).
LLM-basierte Simulation: Die Autoren entwickeln einen realistischen Simulator für eine Mensch-KI-Plattform, der auf Large Language Models (LLMs) basiert.
- Setup: 200 Nutzer (50% Mensch, 50% KI), wobei KI-Agenten durch spezifische Prompts und niedrigere Temperatur (0.2) zynisches Verhalten zeigen, während Menschen (Temperatur 1.0) optimistisch sind.
- Intervention: Ein „Erfolgsgeschichten"-Feed, der menschliches Engagement steigert, aber KI-Agenten (die zynisch sind) zum Abbruch veranlasst.

4. Ergebnisse

Die Simulationsergebnisse (basierend auf 10 Seeds) zeigen:

Hohe Genauigkeit: Der vorgeschlagene Algorithmus schätzt den menschlichen Behandlungseffekt (H-TTE) sehr präzise (mittlerer absoluter Fehler ~0.037 bei guter Prior-Qualität). Der wahre Effekt liegt bei ca. +0.5.
Versagen von Baselines: Herkömmliche Methoden (wie Differenz-in-Mitteln oder Standard-CMP) scheitern.
- Da der Behandlungseffekt bei Menschen positiv (+0.5) und bei KI negativ (-0.4) ist, heben sie sich im aggregierten Durchschnitt fast auf (Netto-Effekt ~0.04).
- Alle Baselines schätzen einen Effekt nahe Null oder sogar mit falschem Vorzeichen, da sie die Typen-Heterogenität nicht berücksichtigen können.
Robustheit: Der Schätzer funktioniert auch bei verrauschten Priors (schlechtere Klassifikator-Qualität), wobei ein Trade-off zwischen Varianz (durch mehr Diversität in den Subgruppen) und Bias (durch Fehlklassifikation) besteht.

5. Bedeutung und Fazit

Das Paper liefert ein fundamentales theoretisches und praktisches Werkzeug für die Experimentation in der Ära der generativen KI.

Praktische Relevanz: Da Online-Plattformen zunehmend von KI-Agenten durchsetzt sind, ist es unmöglich, menschliches Verhalten isoliert zu messen, ohne die KI-Aktivitäten zu modellieren. Herkömmliche A/B-Tests liefern hier verzerrte Ergebnisse.
Theoretischer Durchbruch: Es zeigt, dass man nicht jeden einzelnen Bot identifizieren muss, um den Effekt auf Menschen zu verstehen; es reicht aus, die Verteilung der Wahrscheinlichkeiten zu kennen und Subgruppen strategisch zu bilden.
Zukunft: Diese Methodik ist essenziell, um die Auswirkungen von KI-Interventionen auf menschliche Nutzer in sozialen Medien, Empfehlungssystemen und anderen digitalen Ökosystemen valide zu bewerten.