Estimation of relative risk, odds ratio and their logarithms with guaranteed accuracy and controlled sample size ratio

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der wissenschaftlichen Arbeit von Luis Mendo, übersetzt in eine Alltagssprache mit ein paar kreativen Vergleichen.

Das große Problem: Der "Blindflug" bei medizinischen Studien

Stellen Sie sich vor, Sie sind ein Arzt oder ein Forscher. Sie wollen wissen, wie viel besser ein neues Medikament wirkt als ein Placebo. Dazu vergleichen Sie zwei Gruppen:

Gruppe A: Die Leute, die das Medikament nehmen.
Gruppe B: Die Leute, die das Placebo nehmen.

Sie wollen herausfinden: Wie viel höher ist die Wahrscheinlichkeit, dass ein Patient in Gruppe A gesund wird, im Vergleich zu Gruppe B?

Das nennt man das Relative Risiko (oder Relative Risk). Ein ähnliches Maß ist das Odds Ratio, das oft in der Statistik verwendet wird, um Zusammenhänge zu beschreiben.

Das Dilemma:
Normalerweise weiß man nicht genau, wie viele Leute man untersuchen muss.

Wenn man zu wenige Leute untersucht, ist das Ergebnis ungenau (wie ein Foto, das unscharf ist).
Wenn man zu viele untersucht, verschwendet man Zeit und Geld.
Das Schlimmste: Wenn die Krankheit sehr selten ist (z. B. nur 1 von 10.000), könnte man theoretisch unendlich viele Leute untersuchen und immer noch kein einziges Krankheitsbeispiel finden.

Zusätzlich gibt es oft eine Regel: Man möchte, dass die beiden Gruppen etwa gleich groß sind (oder in einem bestimmten Verhältnis stehen), damit der Vergleich fair ist.

Die Lösung: Ein "Zwei-Stufen-Takt" mit Rückwärtsgang

Der Autor Luis Mendo hat einen cleveren Weg gefunden, um dieses Problem zu lösen. Er nennt es sequenzielle Stichprobenziehung (sequentiell bedeutet: Schritt für Schritt).

Stellen Sie sich das Verfahren wie das Füllen zweier Eimer mit Wasser vor, aber mit einem besonderen Trick:

Stufe 1: Der "Schnelltest" (Die Pilotphase)

Bevor Sie die ganze Studie starten, machen Sie einen kleinen, schnellen Test.

Sie fangen an, Leute zu beobachten, bis Sie eine kleine, festgelegte Anzahl an "Erfolgen" (z. B. 3 Leute, die gesund werden) in beiden Gruppen gefunden haben.
Der Clou: Da Sie nicht wissen, wie häufig die Krankheit ist, dauert dieser Test bei einer seltenen Krankheit lange und bei einer häufigen kurz. Das ist okay, denn es ist nur ein kleiner Test.
Das Ergebnis: Aus diesem kleinen Test können Sie eine grobe Schätzung machen: "Ah, in Gruppe A scheint die Krankheit häufiger/seltener zu sein als in Gruppe B."

Stufe 2: Der "Hauptlauf" (Die eigentliche Studie)

Jetzt kommt der eigentliche Trick. Basierend auf dem Ergebnis aus Stufe 1 berechnet ein Computer genau, wie viele weitere Leute Sie noch brauchen müssen, um das Ergebnis mit der gewünschten Genauigkeit zu erreichen.

Wenn die Krankheit sehr selten ist, sagt der Computer: "Wir brauchen noch 10.000 Leute."
Wenn sie häufig ist: "Wir brauchen nur noch 50."
Die Magie: Der Algorithmus passt die Größe der zweiten Gruppe so an, dass am Ende das Verhältnis der Gruppengrößen genau so ist, wie Sie es wollten (z. B. 1:1), und die Genauigkeit garantiert ist.

Es ist wie beim Autofahren mit einem intelligenten Navi: Sie starten erst einmal los (Stufe 1), schauen auf die Karte, und dann berechnet das Navi exakt, wie viel Sprit Sie noch brauchen, um pünktlich anzukommen, ohne dass Sie vorher wissen mussten, wie weit die Strecke genau ist.

Zwei Arten des "Eimers" füllen

Der Autor beschreibt zwei Methoden, wie man die Daten sammelt:

Einzelne Personen (Element Sampling):
Sie schauen sich die Leute einzeln an. Sobald Sie einen brauchen, holen Sie ihn. Das ist sehr flexibel und effizient.
- Vergleich: Sie gehen in ein Geschäft und kaufen genau die Anzahl an Äpfeln, die Sie brauchen, eine nach der anderen.
Gruppenweise (Group Sampling):
Manchmal können Sie die Leute nicht einzeln holen. Sie kommen in Paketen (z. B. aus einem Labor, das Proben in Chargen von 10 liefert).
- Das Problem: Wenn Sie 10 Proben brauchen, aber die Lieferung 100 enthält, müssen Sie die restlichen 90 wegwerfen (oder für später aufheben).
- Die Lösung des Autors: Sein Algorithmus funktioniert auch hier. Er berechnet, wie viele "Pakete" (Gruppen) Sie bestellen müssen, um genug Daten zu haben, ohne zu viel zu verschwenden. Es ist wie beim Bestellen von Pizza: Wenn Sie 3 Pizzen brauchen, aber nur in Paketen von 4 verkauft werden, bestellt man 2 Pakete (8 Pizzen) und isst die restlichen 5 später oder wirft sie weg. Der Algorithmus minimiert diesen "Verschleiß".

Warum ist das so toll?

Garantierte Genauigkeit: Egal, ob die Krankheit extrem selten oder sehr häufig ist – das Ergebnis wird immer genau genug sein. Man muss nicht raten.
Faire Gruppen: Die Methode sorgt dafür, dass die beiden Vergleichsgruppen immer im richtigen Verhältnis zueinander stehen.
Effizienz: Man verschwendet so wenig Zeit und Ressourcen wie möglich. Die Methode ist fast so gut wie die theoretisch beste Methode, die es in der Mathematik gibt (die sogenannte Cramér-Rao-Schranke).

Zusammenfassung in einem Satz

Statt blindlings eine riesige Anzahl von Personen zu untersuchen, nutzt diese Methode einen kleinen "Probelauf", um zu berechnen, wie viele Personen man genau noch braucht, um ein präzises Ergebnis zu erhalten – und zwar so, dass die Gruppen fair bleiben und nichts verschwendet wird.

Es ist der Unterschied zwischen "Ich hoffe, ich habe genug Leute befragt" und "Mein Computer sagt mir genau, wann ich fertig bin."

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des vorliegenden Papers auf Deutsch:

Titel: Schätzung von Relativrisiko, Odds Ratio und deren Logarithmen mit garantierter Genauigkeit und kontrolliertem Verhältnis der Stichprobengrößen

Autor: Luis Mendo (Universidad Politécnica de Madrid)

1. Problemstellung

Das Paper adressiert das statistische Problem der Schätzung von Parametern, die aus zwei unabhängigen Populationen mit binären Beobachtungen (Erfolg/Misserfolg) stammen. Die zu schätzenden Parameter sind:

Relativrisiko (RR): $\theta = p_1 / p_2$
Odds Ratio (OR): $\psi = \frac{p_1(1-p_2)}{p_2(1-p_1)}$
Logarithmierte Versionen: Log-RR ( $\Theta = \log \theta$ ) und Log-OR ( $\Psi = \log \psi$ )

Herausforderungen:

Garantierte Genauigkeit: Die Schätzer müssen eine vordefinierte Zielgenauigkeit (Target Accuracy) $A$ garantieren, unabhängig von den unbekannten Wahrscheinlichkeiten $p_1$ und $p_2$ . Für RR und OR wird dies als relative mittlere quadratische Fehler (Relative MSE) definiert, für die logarithmierten Versionen als absolute MSE.
Kontrolliertes Stichprobenverhältnis: Es soll sichergestellt werden, dass das Verhältnis der durchschnittlichen Stichprobengrößen der beiden Populationen einem vorgegebenen Wert $\lambda$ entspricht (bei Einzelstichproben) oder exakt durch die Batch-Größen $l_1, l_2$ bestimmt ist (bei Gruppenstichproben).
Effizienz: Die Schätzer sollen nahe an der Cramér-Rao-Schranke liegen, insbesondere für kleine Zielwerte $A$ .

Bisherige Methoden konnten entweder die Genauigkeit garantieren oder das Stichprobenverhältnis kontrollieren, aber selten beides gleichzeitig für beliebige $p_1, p_2$ .

2. Methodik

Der vorgeschlagene Ansatz basiert auf einem zweistufigen sequentiellen Sampling-Verfahren, das auf der inversen Binomialstichprobe (Inverse Binomial Sampling, IBS) aufbaut.

A. Grundprinzip der inversen Binomialstichprobe (IBS)

Bei der IBS werden Proben entnommen, bis eine vordefinierte Anzahl $r$ von Erfolgen erreicht ist. Die Anzahl der benötigten Proben folgt einer negativen Binomialverteilung. Dies ermöglicht es, die Varianz der Schätzer unabhängig von den wahren Parametern $p_i$ zu steuern.

B. Der zweistufige Schätzprozess

Das Verfahren besteht aus zwei Phasen für jede Population:

Erste Stufe (Pilot-Stichprobe):
- Es werden feste IBS-Parameter $r_1$ und $r_2$ verwendet, um Pilot-Stichproben $M_1$ und $M_2$ zu sammeln.
- Basierend auf $M_1$ und $M_2$ wird eine Schätzung des Verhältnisses der Parameter (z. B. $\theta$ oder $\bar{\theta}$ ) berechnet.
- Diese Information dient dazu, die Parameter der zweiten Stufe ( $s_1, s_2$ ) dynamisch anzupassen, um sowohl die Zielgenauigkeit als auch das gewünschte Stichprobenverhältnis zu erreichen.
Zweite Stufe (Haupt-Schätzung):
- Basierend auf den Ergebnissen der ersten Stufe werden die IBS-Parameter $s_1$ und $s_2$ berechnet.
- Es werden weitere Proben entnommen, bis $s_1$ bzw. $s_2$ Erfolge erreicht sind (bzw. spezifische Kombinationen von Erfolgen und Misserfolgen bei OR/LOR).
- Der finale Schätzer $\hat{\theta}$ (oder $\hat{\psi}$ ) wird aus den Daten der zweiten Stufe berechnet.

C. Besonderheiten für OR und LOR

Für die Schätzung von Odds Ratio und Log-OR wird ein Bernoulli-Factory-Verfahren in der ersten Stufe eingesetzt. Da die Varianz der OR-Schätzung von $\bar{p}_i = p_i(1-p_i)$ abhängt, müssen in der ersten Stufe Proben mit dem Parameter $\bar{p}_i$ generiert werden, die aus den ursprünglichen Proben ( $p_i$ ) konstruiert werden. Dies erfordert eine spezielle Transformation (z. B. durch Vergleich von Paaren von Proben), um die gewünschte Verteilung zu erzeugen.

D. Gruppenstichproben (Group Sampling)

Das Verfahren wird auch auf Gruppenstichproben erweitert, bei denen Proben in Batches der Größe $l_1$ und $l_2$ gleichzeitig aus beiden Populationen entnommen werden.

Die Anzahl der benötigten Gruppen $G$ wird durch $G = \max(\lceil (M_1+N_1)/l_1 \rceil, \lceil (M_2+N_2)/l_2 \rceil)$ bestimmt.
Überschüssige Proben werden gespeichert oder verworfen. Dies garantiert ein exaktes Verhältnis der Stichprobengrößen, führt jedoch zu einem leichten Anstieg der durchschnittlichen Stichprobengröße im Vergleich zur Einzelstichprobe.

3. Schlüsselbeiträge und Ergebnisse

A. Theoretische Garantien

Unverzerrtheit: Alle vorgeschlagenen Schätzer sind erwartungstreu (unbiased).
Fehlerkontrolle: Die relative MSE (für RR/OR) oder die MSE (für LRR/LOR) wird garantiert kleiner als das Ziel $A$ für alle $p_1, p_2 \in (0,1)$ .
Stichprobenverhältnis: Das Verhältnis der erwarteten Stichprobengrößen nähert sich dem gewünschten Wert $\lambda$ an (bei Einzelstichproben) oder ist exakt $l_1/l_2$ (bei Gruppenstichproben).

B. Herleitung von Schranken und Approximationen

Der Autor leitet analytische Ausdrücke für die durchschnittlichen Stichprobengrößen $E[M_i + N_i]$ und die Anzahl der Gruppen $E[G]$ her.
Es werden obere Schranken für diese Größen abgeleitet, die zeigen, dass die benötigten Stichproben umgekehrt proportional zur Zielgenauigkeit $A$ und zu den Parametern $p_i$ (bzw. $\bar{p}_i$ ) skalieren.
Eine "Krümmungsfunktion" $c(A, r_1, \xi)$ wird definiert, um die optimalen Werte für den ersten IBS-Parameter $r_1$ zu bestimmen, die sicherstellen, dass die Approximationen gültig sind.

C. Effizienz

Die Effizienz der Schätzer wird im Verhältnis zur Cramér-Rao-Schranke (für feste Stichprobengrößen) definiert.
Ergebnis: Die Effizienz ist hoch und nähert sich 1 an, wenn das Ziel $A$ klein wird. Dies bedeutet, dass die sequentiellen Schätzer fast so effizient sind wie die besten möglichen festen Schätzer, obwohl sie eine garantierte Genauigkeit bieten.
Bei Gruppenstichproben ist die Effizienz leicht geringer (Verlust von ca. 0,15 für $A \in [0.01, 0.1]$ ), da durch die Batch-Entnahme manchmal mehr Proben als nötig entnommen werden müssen.

D. Simulationen

Monte-Carlo-Simulationen mit $10^6$ Realisierungen bestätigen die theoretischen Ergebnisse.
Die empirischen Fehler liegen stets unter dem Zielwert $A$ .
Die durchschnittlichen Stichprobengrößen stimmen gut mit den theoretischen Schranken überein.
Diskontinuitäten in den Kurven (bei großen $A$ ) werden auf das Runden der IBS-Parameter $s_1, s_2$ auf ganze Zahlen zurückgeführt.

4. Signifikanz und Anwendungsbereiche

Medizin und Sozialwissenschaften: Das Verfahren ist besonders nützlich für klinische Studien (z. B. Impfstofftests), wo das Relativrisiko oder die Odds Ratio geschätzt werden muss, ohne dass die Stichprobengröße im Voraus festgelegt werden kann, aber eine garantierte Präzision erforderlich ist.
Maschinelles Lernen: Da die Log-Odds Ratio (LOR) ein zentrales Element der logistischen Regression ist, bietet diese Methode robuste Werkzeuge für die Parameterschätzung in ML-Modellen.
Flexibilität: Die Methode funktioniert sowohl für Einzelstichproben (Element Sampling) als auch für Gruppenstichproben, was sie für Szenarien geeignet macht, in denen Proben nur in festen Batches verfügbar sind.
Allgemeingültigkeit: Der Autor zeigt, dass der Ansatz auf andere Funktionen von $p_1$ und $p_2$ (z. B. $p_1 p_2$ ) erweitert werden kann, sofern eine geeignete Bernoulli-Factory und eine Fehlerfunktion definiert werden können.

Fazit

Luis Mendo stellt einen robusten, theoretisch fundierten und praktisch überprüften Rahmen für die Schätzung von Risikoverhältnissen vor. Der Hauptvorteil liegt in der Garantie der Genauigkeit unabhängig von den unbekannten Populationsparametern bei gleichzeitiger Kontrolle des Ressourcenverhältnisses (Stichprobengröße). Die hohe Effizienz macht die Methode zu einer überlegenen Alternative zu traditionellen festen Stichprobenplänen oder nicht-garantierten sequentiellen Methoden.