COVID-19 Data Analysis

Positivi e Test

Come i test incidono sulla positività.

Max Pierini


Con questo semplice esempio, si dimostra come l'utilizzo di differenti test diagnostici in differenti campioni di popolazione possa, se ignorato, portare a conclusioni errate e a dichiarare come statisticamente significative differenze nei positivi osservati, errore che viene corretto se si considera la differente distribuzione dei test effettuati.


Nelle prossime tabelle:

  • POS sono i test positivi
  • NEG sono i test negativi
  • MAL sono i malati reali
  • SAN sono i sani reali
  • A e B sono due differenti test diagnostici
  • TP è il tasso di posivitità (test positivi su test totali)
  • pct è la percentuale del tipo test sui test complessivi
  • TOT sono le somme relative nella tabella

Siano dati due test diagnostici A e B per malattia $M$ con le seguenti sensibilità SE e specificità SP

test A test B
SE 94% 85%
SP 99% 95%

Siano date due province prov1 e prov2 in cui la malattia $M$ ha la seguente incidenza reale giornaliera nel giorno $t$ e in cui campioni di popolazione vengono testati con i due test A e B in differenti proporzioni

test A test B incidenza
prov1 200 3000 5.1%
prov2 2000 300 5.3%

Indicando con

  • VP i veri positivi (malati che risultano positivi al test)
  • FN i falsi negativi (malati che risultano negativi al test)
  • VN i veri negativi (sani che risultano negativi al test)
  • FP i falsi positivi (sani che risultano positivi al test)

sappiamo dalla matrice di confusione che

POS NEG
MAL VP = MAL * SE FN = MAL*(1-SE)
SAN FP = SAN*(1-SP) FN = SAN * SP

Date SE ed SP dei due test A e B, l'incidenza reale nelle due province prov1 e prov2 e i campioni di popolazione testata con i due test, otteniamo i seguenti risultati dai test effettuati

test A nella provincia 1
POS NEG TOT
MAL 10 1 10
SAN 2 188 190
TOT 11 189 200
test B nella provincia 1
POS NEG TOT
MAL 130 23 153
SAN 142 2705 2847
TOT 272 2728 3000
test A nella provincia 2
POS NEG TOT
MAL 100 6 106
SAN 19 1875 1894
TOT 119 1881 2000
test B nella provincia 2
POS NEG TOT
MAL 14 2 16
SAN 14 270 284
TOT 28 272 300

Complessivamente dunque sappiamo che

  • nella provincia prov1 sono stati osservati 283 positivi su 3200 casi testati (tasso positività 8.84%)
  • nella provincia prov2 sono stati osservati 147 positivi su 2300 casi testati (tasso positività 6.39%)

A prima vista, i risultati sembrerebbero significativamente differenti ma, sapendo che sono stati usati i due test in diversa percentuale, ci chiediamo, noti i dati di

  • test positivi
  • test totali

nelle due province e con i due test, se la differenza di positivi osservata sia davvero statisticamente significativa oppure dovuta "al caso".

Sappiamo che in realtà le due province hanno incidenza simile, ma poniamo di non conoscere la reale incidenza, come accade nella pratica: conosciamo solamente i risultati dei test.


Prima di tutto, osserviamo i dati completi raccolti.

Per la provincia prov1 sappiamo che:

dati noti nella provincia 1
POS NEG TOT TP pct
A 11 189 200 5.50% 6.25%
B 272 2728 3000 9.07% 93.75%
TOT 283 2917 3200 8.84% 100.00%

Notiamo quindi che, su un totale di 3200 test, sono stati effettuati:

  • 200 test di tipo A (6.25%)
  • 3000 test di tipo B (93.75%)

i quali hanno riportato

  • 11 positivi con test tipo A (tasso positività 5.50%)
  • 272 positivi con test tipo B (tasso positività 9.07%)

Complessivamente osserviamo 283 positivi su 3200 casi testati (tasso positività 8.84%).

Per la provincia prov2 abbiamo invece:

dati noti nella provincia 2
POS NEG TOT TP pct
A 119 1881 2000 5.95% 86.96%
B 28 272 300 9.33% 13.04%
TOT 147 2153 2300 6.39% 100.00%

Dunque, su un totale di 2300 test, sono stati effettuati:

  • 2000 test di tipo A (86.96%)
  • 300 test di tipo B (13.04%)

i quali hanno riportato

  • 119 positivi con test tipo A (tasso positività 5.95%)
  • 28 positivi con test tipo B (tasso positività 9.33%)

Complessivamente osserviamo 147 positivi su 2300 casi testati (tasso positività 6.39%).


Osserviamo prima cosa accadrebbe se fossimo a conoscenza solamente dei positivi totali e dei casi testati totali per provincia, ignorando quindi la differenza tra i test tipo A e tipo B.

Verificheremo la seguente ipotesi nulla

$H_0$: ipotizzando che le due province abbiano il medesimo tasso di positività, i positivi osservati nelle due province NON sono significativamente differenti

Pertanto, se otterremo dal test un $p$-value inferiore ad una determinata soglia di probabilità $\alpha$ (10%, 5% o 1%) potremo affermare che sono statisticamente differenti con significatività $\alpha$, altrimenti dovremo accettare l'ipotesi nulla $H_0$ che, alle condizioni specificate, la differenza osservata non è significativa.

Raccogliamo i dati complessivi delle due province:

dati osservati nelle province
POS NEG TOT TP
prov1 283 2917 3200 8.84%
prov2 147 2153 2300 6.39%
TOT 430 5070 5500 7.82%

e ipotizziamo che il tasso di positività sia il medesimo, pari al tasso di positività complessivo 7.82%, calcolando i positivi (e negativi) attesi

dati attesi nelle province sotto ipotesi nulla
POS NEG TOT TP
prov1 250.18 2949.82 3200 7.82%
prov2 179.82 2120.18 2300 7.82%
TOT 430.00 5070.00 5500 7.82%

Possiamo ora calcolare il valore del $\chi^2$: indicando con obs (observed) i risultati osservati e exp (expected) gli attesi, le celle della seguente tabella sono calcolate come

$$ \frac{ (\mathrm{obs} - \mathrm{exp})^2 }{ \mathrm{exp} } $$
matrice chi-squared
POS NEG
prov1 4.3050 0.3651
prov2 5.9896 0.5080

La somma dei valori della tabella è la statistica del chi-quadrato, $\chi^2 = 11.17$ che, per 1 grado di libertà, corrisponde ad un $p$-value di 0.000832 (0.0832%) notevolmente inferiore del più alto livello di significatività $\alpha$ stabilito in precedenza (1%).

Dovremmo perciò rigettare l'ipotesi nulla $H_0$.

Saremmo dunque tentati di affermare che

  • ipotizzando che il tasso di positività nelle due province sia il medesimo

la differenza di positivi osservata è statisticamente significativa ($p$-val 0.000832).


Sapendo però che sono stati effettuati i test A e B in differenti percentuali, ci chiediamo se la differenza di positivi e tassi di positività non sia dovuta al caso, ovvero alla differente distribuzione dei test effettuati nelle due province e al differente numero di casi testati a parità di tasso di positività.

A tal fine, verificheremo la seguente ipotesi nulla

$H_0$: a parità di distribuzione dei test A e B effettuati e supponendo che i le due province abbiano il medesimo tasso di positività, i positivi osservati nelle due province NON sono significativamente differenti

Pertanto, se come sopra otterremo dal test un $p$-value inferiore ad una determinata soglia di probabilità $\alpha$ (10%, 5% o 1%) potremo affermare che sono statisticamente differenti con significatività $\alpha$, altrimenti dovremo accettare l'ipotesi nulla $H_0$ che, alle condizioni specificate, la differenza osservata non è significativa.

Procediamo dunque ridistribuendo i test effettuati nelle due province e supponendo che entrambi abbiano effettuato i test A e B in ugual percentuale (50%) mantenendo lo stesso tasso di positività osservato.

Per la provincia prov1 avremo pertanto:

provincia 1: ipotesi di uguale distribuzione dei test
POS NEG TOT TP pct
A 88.00 1512.00 1600 5.50% 50%
B 145.07 1454.93 1600 9.07% 50%
TOT 233.07 2966.93 3200 7.28% 100%

Ovvero, dati i 3200 test totali effettuati, supponiamo che ne siano stati effettuati 1600 di tipo A e 1600 di tipo B.

Mantenendo gli stessi tassi di positività, avremmo quindi osservato

  • 88.00 positivi con test di tipo A
  • 145.07 positivi con test di tipo B

e complessivamente 233.07 sui 3200 casi testati (tasso positività 7.28%).

Allo stesso modo, per la provincia prov2:

provincia 2: ipotesi di uguale distribuzione dei test
POS NEG TOT TP pct
A 68.42 1081.58 1150 5.95% 50%
B 107.33 1042.67 1150 9.33% 50%
TOT 175.76 2124.24 2300 7.64% 100%

dati i 2300 test totali effettuati, supponiamo che ne siano stati effettuati 1150 di tipo A e 1150 di tipo B.

Mantenendo gli stessi tassi di positività, avremmo quindi osservato

  • 68.42 positivi con test di tipo A
  • 107.33 positivi con test di tipo B

e complessivamente 175.76 sui 2300 casi testati (tasso positività 7.64%).


Possiamo ora chiederci se i positivi complessivi osservati nelle due province a parità di test effettuati siano significativamente differenti sotto l'ipotesi nulla che le due province abbiano il medesimo tasso di positività.

A tal fine effettueremo un test del chi quadrato $\chi^2$ (chi-squared).

Raccogliamo i dati complessivi delle due province:

dati osservati nelle province sotto ipotesi di uguale distribuzione dei test
POS NEG TOT TP
prov1 233.07 2966.93 3200 7.28%
prov2 175.76 2124.24 2300 7.64%
TOT 408.82 5091.18 5500 7.43%

e ipotizziamo che il tasso di positività sia il medesimo, pari al tasso di positività complessivo 7.43%, calcolando i positivi (e negativi) attesi

dati attesi nelle province sotto ipotesi di uguale distribuzione dei test e uguale tasso di positività
POS NEG TOT TP
prov1 237.86 2962.14 3200 7.43%
prov2 170.96 2129.04 2300 7.43%
TOT 408.82 5091.17 5500 7.43%

Possiamo ora calcolare il valore del $\chi^2$: come sopra, indicando con obs (observed) i risultati osservati e exp (expected) gli attesi, le celle della seguente tabella sono calcolate come

$$ \frac{ (\mathrm{obs} - \mathrm{exp})^2 }{ \mathrm{exp} } $$
matrice chi-squared
POS NEG
prov1 0.0967 0.0078
prov2 0.1345 0.0108

La somma dei valori della tabella è la statistica del chi-quadrato, $\chi^2 = 0.25$ che, per 1 grado di libertà, corrisponde ad un $p$-value di 0.6173 (61.73%) notevolmente maggiore dei livelli di significatività $\alpha$ stabiliti in precedenza.

Dovremo perciò accettare l'ipotesi nulla $H_0$.

Possiamo dunque infine affermare che

  • supponendo che le due province abbiano effettuato la stessa percentuale di test A e B
  • sotto ipotesi nulla che il tasso di positività nelle due province sia il medesimo

la differenza di positivi osservata NON è statisticamente significativa ($p$-val 0.6173).


Abbiamo così dimostrato come l'utilizzo di differenti test in differenti percentuali su due campioni di popolazione sia di notevole importanza al fine di confrontare i due campioni e determinare se le differenze osservate siano statisticamente significative o solo dovute al caso.

Nell'esempio infatti, le due province avevano incidenze molto simili (5.1% per la prov1 e 5.3% per la prov2) ma l'utilizzo in differenti proporzioni di tests con differenti sensibilità e specificità, se ignorato, può indurre a considerare statisticamente significativa la differenza nei tassi di positività complessivi ($p$-val 0.00083).

Se invece la differente distribuzione dei test viene considerata, risulta evidente che i positivi osservati non sono significativamente differenti ($p$-val 0.62).


© 2020 Max Pierini. Thanks to Sandra Mazzoli & Alessio Pamovio

Exported from Italia/Test_positivi.ipynb committed by maxdevblock on Thu May 6 17:56:57 2021 revision 113, 8d4bca97