Con questo semplice esempio, si dimostra come l'utilizzo di differenti test diagnostici in differenti campioni di popolazione possa, se ignorato, portare a conclusioni errate e a dichiarare come statisticamente significative differenze nei positivi osservati, errore che viene corretto se si considera la differente distribuzione dei test effettuati.
Nelle prossime tabelle:
POS
sono i test positiviNEG
sono i test negativiMAL
sono i malati realiSAN
sono i sani realiA
e B
sono due differenti test diagnosticiTP
è il tasso di posivitità (test positivi su test totali)pct
è la percentuale del tipo test sui test complessiviTOT
sono le somme relative nella tabellaSiano dati due test diagnostici A
e B
per malattia $M$ con le seguenti sensibilità SE e specificità SP
Siano date due province prov1
e prov2
in cui la malattia $M$ ha la seguente incidenza reale giornaliera nel giorno $t$ e in cui campioni di popolazione vengono testati con i due test A
e B
in differenti proporzioni
Indicando con
VP
i veri positivi (malati che risultano positivi al test)FN
i falsi negativi (malati che risultano negativi al test)VN
i veri negativi (sani che risultano negativi al test)FP
i falsi positivi (sani che risultano positivi al test)sappiamo dalla matrice di confusione che
Date SE ed SP dei due test A
e B
, l'incidenza reale nelle due province prov1
e prov2
e i campioni di popolazione testata con i due test, otteniamo i seguenti risultati dai test effettuati
A prima vista, i risultati sembrerebbero significativamente differenti ma, sapendo che sono stati usati i due test in diversa percentuale, ci chiediamo, noti i dati di
nelle due province e con i due test, se la differenza di positivi osservata sia davvero statisticamente significativa oppure dovuta "al caso".
Sappiamo che in realtà le due province hanno incidenza simile, ma poniamo di non conoscere la reale incidenza, come accade nella pratica: conosciamo solamente i risultati dei test.
Prima di tutto, osserviamo i dati completi raccolti.
Per la provincia prov1
sappiamo che:
Per la provincia prov2
abbiamo invece:
Osserviamo prima cosa accadrebbe se fossimo a conoscenza solamente dei positivi totali e dei casi testati totali per provincia, ignorando quindi la differenza tra i test tipo A
e tipo B
.
Verificheremo la seguente ipotesi nulla
$H_0$: ipotizzando che le due province abbiano il medesimo tasso di positività, i positivi osservati nelle due province NON sono significativamente differenti
Pertanto, se otterremo dal test un $p$-value inferiore ad una determinata soglia di probabilità $\alpha$ (10%, 5% o 1%) potremo affermare che sono statisticamente differenti con significatività $\alpha$, altrimenti dovremo accettare l'ipotesi nulla $H_0$ che, alle condizioni specificate, la differenza osservata non è significativa.
Raccogliamo i dati complessivi delle due province:
Possiamo ora calcolare il valore del $\chi^2$: indicando con obs
(observed) i risultati osservati e exp
(expected) gli attesi, le celle della seguente tabella sono calcolate come
Sapendo però che sono stati effettuati i test A
e B
in differenti percentuali, ci chiediamo se la differenza di positivi e tassi di positività non sia dovuta al caso, ovvero alla differente distribuzione dei test effettuati nelle due province e al differente numero di casi testati a parità di tasso di positività.
A tal fine, verificheremo la seguente ipotesi nulla
$H_0$: a parità di distribuzione dei test
A
eB
effettuati e supponendo che i le due province abbiano il medesimo tasso di positività, i positivi osservati nelle due province NON sono significativamente differenti
Pertanto, se come sopra otterremo dal test un $p$-value inferiore ad una determinata soglia di probabilità $\alpha$ (10%, 5% o 1%) potremo affermare che sono statisticamente differenti con significatività $\alpha$, altrimenti dovremo accettare l'ipotesi nulla $H_0$ che, alle condizioni specificate, la differenza osservata non è significativa.
Procediamo dunque ridistribuendo i test effettuati nelle due province e supponendo che entrambi abbiano effettuato i test A
e B
in ugual percentuale (50%) mantenendo lo stesso tasso di positività osservato.
Per la provincia prov1
avremo pertanto:
Allo stesso modo, per la provincia prov2
:
Possiamo ora chiederci se i positivi complessivi osservati nelle due province a parità di test effettuati siano significativamente differenti sotto l'ipotesi nulla che le due province abbiano il medesimo tasso di positività.
A tal fine effettueremo un test del chi quadrato $\chi^2$ (chi-squared).
Raccogliamo i dati complessivi delle due province:
Possiamo ora calcolare il valore del $\chi^2$: come sopra, indicando con obs
(observed) i risultati osservati e exp
(expected) gli attesi, le celle della seguente tabella sono calcolate come
Abbiamo così dimostrato come l'utilizzo di differenti test in differenti percentuali su due campioni di popolazione sia di notevole importanza al fine di confrontare i due campioni e determinare se le differenze osservate siano statisticamente significative o solo dovute al caso.
Exported from Italia/Test_positivi.ipynb
committed by maxdevblock on Thu Feb 25 19:12:12 2021 revision 24, 21b087a