COVID-19 Data Analysis

Test di Benford

Classifica anomalie nei dati regionali.

Max Pierini

La legge di Benford afferma che, nella maggior parte delle raccolte di dati numerici reali e naturali senza costrizioni, la prima cifra (ad esempio, la cifra "1" nel numero "1976") è distribuita in forma logaritmica (Benford, 1938)

$$ P(d) = \log_{10}\left(1 + \frac{1}{d}\right) $$

dove $d \in [1...9]$ è la prima cifra e $P(d)$ è la probabilità di osservare la cifra $d$ nella raccolta di dati.

Nota la legge è possibile testare se una collezione di dati rispetta questa distribuzione con un test di ipotesi nulla, dove $H_0$ corrisponde all'ipotesi che i dati empirici osservati provengano dalla stessa distribuzione teorica di Benford. Questi test sono stati ampiamente utilizzati, ad esempio, per verificare anomalie in dati economici e politici (Nye and Moul, 2007, Gonzales-Garcia and Pastor, 2009, Rauch et al., 2011, Holz, 2014, Nigrini 1996) e recentemente anche sui dati della pandemia di COVID-19 (Koch and Okamura, 2020).

Vengono solitamente usati due stimatori per la verifica dell'ipotesi nulla:

  • $\chi^2$ (chi quadrato)
  • K-S (Kolmogorov-Smirnov)

i cui $p$-value sono spesso combinati. Nel lavoro di Kock e Okamura, viene utilizzato Kuiper test, una versione modificata del K-S.

Laddove il $p$-value ottenuto dal test di ipotesi nulla sia inferiore ad un certo livello di significatività (solitamente si usano tre livelli di significatività crescente, 0.10, 0.05, e 0.01) esiste la possibilità che la distribuzione osservata non segua la legge di Benford ed è pertanto necessario indagare sulle cause che rendono i dati raccolti meno verosimilmente "naturali".

In questa analisi, si presenta una serie di test di Benford sui dati regionali della pandemia di COVID-19 nelle singole regioni italiane. Come nel paper di Koch and Okamura, 2020 il test verrà effettuato sulla parte di dati in cui l'epidemia è in fase eponenziale in ciascuna delle due ondate del 2020 ma, analizzando qui i dati regionali separati, le due ondate saranno considerati nel loro insieme per estendere l'ampiezza dei campioni ed evitare sottostime.

NOTA BENE: Vengono qui mostrati solamente i risultati dei test e il sommario dei livelli di significatività. Non si formula nessuna ipotesi sul motivo per cui si osservino anomalie in alcuni set di dati o in alcune regioni.

Essendo lo scopo di questa analisi non già ricercare anomalie specifiche ma classificare quali regioni e quali campi evidenzino maggiori probabilità di anomalie, sarà usato un test di Kolmogorov-Smirnov per due campioni di frequenze categoriche ordinate (Pierini, 2020) e saranno evidenziati quattro livelli $\lambda$ di significatività

  • $\lambda=0$ per $p>0.10$ (verde) non significativo
  • $\lambda=1$ per $p<0.10$ (giallo) bassa significatività
  • $\lambda=2$ per $p<0.05$ (rosso) media significatività
  • $\lambda=3$ per $p<0.01$ (viola) alta significatività

Infine per ogni regione e per ogni campo di dati sarà calcolato un livello di significatività percentuale $L$ delle anomalie

$$ L = \frac{ \sum_{i=1}^{N} \lambda_{i} }{ 3N } $$

dove $N$ è il numero di regioni o di campi e $\lambda_{i}$ è il numero corrispondente al livello di significatività $\lambda$ dell'elemento $i$.

Dati utilizzati: nuovi_positivi, nuovi_tamponi, nuovi_casi_testati, nuovi_deceduti, nuovi_guariti, nuovi_casi_da_sospetto_diagnostico, nuovi_casi_da_screening, totale_positivi, isolamento_domiciliare, totale_ospedalizzati, ricoverati_con_sintomi, terapia_intensiva.

prima ondata: dal 2020-02-24 al 2020-05-09
seconda ondata: dal 2020-09-21 al 2021-05-06

Risultati

Abruzzo

Basilicata

Calabria

Campania

Emilia-Romagna

Friuli Venezia Giulia