Estimation of relative risk, odds ratio and their logarithms with guaranteed accuracy and controlled sample size ratio

Il paper propone stimatori basati su un campionamento sequenziale a due stadi per il rischio relativo, l'odds ratio e i loro logaritmi, che garantiscono un errore quadratico medio relativo inferiore a un valore target per qualsiasi parametro e mantengono un rapporto tra le dimensioni campionarie delle due popolazioni vicino a un valore prescritto, raggiungendo un'efficienza prossima a quella del limite di Cramér-Rao.

Luis Mendo

Pubblicato 2026-03-06
📖 5 min di lettura🧠 Approfondimento

Each language version is independently generated for its own context, not a direct translation.

Immagina di essere un investigatore privato o un medico che deve confrontare due gruppi di persone: ad esempio, i vaccinati e i non vaccinati, oppure chi mangia verdure e chi non le mangia.

Il tuo obiettivo è scoprire quanto è più probabile che un evento (come ammalarsi) accada nel primo gruppo rispetto al secondo. In termini statistici, devi calcolare il Rischio Relativo (quanto è più alto il rischio) o il Rapporto di Probabilità (Odds Ratio).

Il problema è che non sai a priori quanto siano grandi questi rischi. Se il rischio è bassissimo (come vincere alla lotteria), ti servono tantissimi campioni per essere sicuro. Se è alto, ne bastano pochi. Ma come fai a sapere quanti campioni raccogliere prima di iniziare, senza sprecare tempo o denaro?

Ecco cosa propone questo articolo: un metodo intelligente per fare questa indagine con garanzia di precisione e controllo totale sui costi.

1. Il Problema: "Quanti campioni mi servono?"

Immagina di voler misurare la differenza tra due gruppi.

  • Se prendi un numero fisso di persone (diciamo 100 da ogni gruppo), potresti scoprire troppo tardi che il rischio è così basso che 100 persone non bastano per vedere una differenza significativa. La tua stima sarebbe approssimativa.
  • Se prendi un numero infinito, sei sicuro al 100%, ma è impossibile e costoso.

La soluzione dell'autore è come un investigatore che decide di continuare l'indagine solo se ne vale la pena, basandosi su ciò che scopre man mano che procede.

2. La Soluzione: Il Metodo a "Due Fasi" (Come un'esplorazione)

L'autore propone un metodo a due livelli, simile a una spedizione esplorativa:

  • Fase 1 (La Ricognizione): Invi una piccola squadra esplorativa (un primo campione) in entrambi i gruppi. Non ti serve un numero enorme, basta abbastanza per farsi un'idea approssimativa della situazione. È come guardare il cielo per capire se sta per piovere.
  • Fase 2 (La Spedizione Principale): Sulla base di ciò che hanno scoperto gli esploratori, calcoli esattamente quanti altri membri della spedizione ti servono per avere la certezza che desideri.
    • Se la ricognizione ha mostrato che il rischio è molto basso, la spedizione principale sarà enorme.
    • Se il rischio è alto, la spedizione sarà piccola.

Questo sistema è chiamato campionamento sequenziale inverso: continui a raccogliere dati finché non raggiungi un certo numero di "successi" (eventi interessanti), adattando il piano di viaggio in corso d'opera.

3. La Garanzia: "Non sbaglierò più di tanto"

L'aspetto più geniale è la garanzia matematica.
Immagina di dire al tuo capo: "Prometto che il mio errore di stima sarà inferiore al 5% del valore reale, non importa quanto sia piccolo o grande il rischio reale".
Il metodo dell'autore garantisce proprio questo. Che il rischio sia 1 su 1.000.000 o 1 su 2, il tuo errore rimarrà sotto la soglia che hai impostato. È come avere un righello che si allunga o si accorcia automaticamente per misurare con precisione sia un granello di sabbia che un grattacielo.

4. Il Controllo dei Costi: "Bilanciare le squadre"

Spesso, in medicina o sociologia, hai vincoli pratici. Forse puoi reclutare solo il doppio dei pazienti dal gruppo A rispetto al gruppo B, o forse devi prenderli in "pacchetti" (gruppi) perché sono già organizzati in classi o famiglie.

Il metodo permette di dire: "Voglio che il numero di persone nel gruppo A sia esattamente il doppio di quelle nel gruppo B" (o in qualsiasi altro rapporto tu voglia).

  • Campionamento Elementare: Prendi le persone una per una, ma controlli che il rapporto totale rimanga quello desiderato.
  • Campionamento a Gruppi: Prendi i dati a "pacchetti" (es. 5 persone dal gruppo A e 2 dal gruppo B ogni volta). Se ti servono 7 persone dal gruppo A, prendi due pacchetti (10 persone) e ne scarti 3 alla fine. È un po' meno efficiente, ma molto più pratico nella vita reale.

5. L'Efficienza: "Non sprecare un solo grammo di energia"

L'autore dimostra che questo metodo è estremamente efficiente.
Immagina di dover trovare il tesoro (la risposta esatta). I metodi tradizionali potrebbero farti scavare buche inutili. Questo metodo, invece, ti dice esattamente dove scavare e quanto in profondità, basandosi su ciò che hai già trovato.
In termini matematici, l'efficienza è vicina al 100% (il limite teorico perfetto), specialmente quando si richiede una precisione molto alta (errori piccoli).

In sintesi, con una metafora culinaria

Immagina di voler cucinare una zuppa perfetta per due gruppi di persone diverse.

  • Metodo vecchio: Metti un numero fisso di ingredienti (es. 10 carote) e assaggi. Se la zuppa è troppo salata o troppo dolce, hai sprecato ingredienti o la zuppa è venuta male.
  • Metodo di questo articolo: Assaggi un cucchiaino (Fase 1). Se è poco salato, aggiungi sale finché non è perfetto (Fase 2), ma calcolando esattamente quanto sale serve in base al primo assaggio. Inoltre, ti assicuri di usare sempre il doppio di carote rispetto ai pomodori, indipendentemente da quanto sale aggiungi.

Il risultato? Hai una zuppa perfetta, con un errore di gusto garantito al minimo, usando la quantità esatta di ingredienti necessaria, senza sprechi.

Perché è importante?

Questo metodo è rivoluzionario perché risolve il dilemma tra precisione (voglio essere sicuro al 100%) ed efficienza (non voglio spendere milioni in sondaggi). Permette a ricercatori medici, sociologi e data scientist di ottenere risposte affidabili su rischi e probabilità, adattandosi dinamicamente alla realtà dei dati che stanno raccogliendo, senza dover indovinare a priori quanti campioni servono.