COVID-19 Data Analysis

Qualità dell'aria

Correlazione tra inquinanti atmosferici e casi COVID-19 in Lombardia nel 2020.

Max Pierini, Sandra Mazzoli, Marco Filippi, Alfredo Benni

NB: questo articolo è un progetto aperto e ancora in fase di revisione e completamento. Per proposte di collaborazione, scrivere a info@epidata.it


Introduzione

Si presenta uno studio retrospettivo sulla correlazione tra le medie giornaliere degli inquinanti atmosferici

  • Monossido di Carbonio (CO)
  • Ossidi di Azoto (NOx)
  • Biossido di Azoto (NO2)
  • Ozono (O3)
  • Particolato atmosferico di diametro inferiore a 2.5 µm (PM25)
  • Particolato atmosferico di diametro inferiore a 10 µm (PM10)

e le incidenze giornaliere di casi di COVID-19 nelle province Lombarde di

  • Bergamo
  • Brescia
  • Como
  • Cremona
  • Lecco
  • Lodi
  • Monza e della Brianza
  • Milano
  • Mantova
  • Pavia
  • Sondrio
  • Varese

nel 2020.

Per i casi di COVID-19 giornalieri provinciali in Lombardia è stato utilizzato il dataset pubblico del Dipartimento di Protezione Civile (DPC). Per la stima dell'incidenza il dataset di ISTAT sulla popolazione residente in Italia al 1 Gennaio 2021.

Per i valori giornalieri degli inquinanti atmosferici è stato usato il dataset degli OpenData della Regione Lombardia (ORL).

Dati

COVID-19

La data dei casi di COVID-19 del dataset DPC è relativa al giorno della comunicazione della diagnosi.

È necessario pertanto stimare il giorno dell'infezione per poter correlare i valori degli inquinanti.

Dal confronto con i casi diagnosticati di COVID-19 del dataset nazionale del DPC e i casi sintomatici del dataset dell'Istituto Superiore di Sanità (ISS) possiamo stimare l'intervallo tra inizio dei sintomi e comunicazione della diagnosi da test positivo (onset-to-diagnosis-communication).

Grazie allo studio di Flaxman et al. 2020 conosciamo la distribuzione Gamma dell'intervallo tra infezione e inizio dei sintomi (infection-to-onset).

Da questi possiamo ottenere perciò una stima dell'intervallo tra infezione e comunicazione della diagnosi (infection-to-diagnosis-communication).

Per ciascuna provincia lombarda, dai nuovi casi giornalieri è stato stimato il trend tramite decomposizione stagionale su periodo di 7 giorni. Sulla base trend abbiamo ottenuto la stima dell'incidenza giornaliera su 100 000 abitanti. Il metodo utilizzato e i dati sono disponibili nel materiale supplementare all'indirizzo GitHub.

Inquinanti atmosferici

Per ciascun inquinante convertito in µg/m3 in ciascuna stazione di controllo qualità dell'aria in Lombardia aggregato per mediana giornaliera, è stato stimato il trend tramite decomposizione stagionale su periodo di 28 giorni ed aggregato per mediana provinciale. Il metodo utilizzato e i dati sono disponibili nel materiale supplementare all'indirizzo GitHub.

Modello

Data la nota correlazione degli inquinanti atmosferici (vedi Discussione), non possono essere considerati indipendenti tra loro, come risulta evidente anche in figura.

Pertanto singolarmente per ciascun inquinante $i$, il modello utilizzato è

$$ \log(y_t) = \sum_{p} \alpha_{i,p} + \alpha_{i,w} + \sum_{p} \alpha_{i,w,p} + \beta_{i,\tau} \log(x_{i,t-\tau}) $$

dove $y_t$ è l'incidenza giornaliera al tempo $t$, $x_{i,t-\tau}$ il valore dell'inquinante $i$ al tempo $t-\tau$ e $\tau$ è l'intervallo infection-to-communication, $\alpha_{i,p}$ l'intercetta della $p$-esima provincia e $\alpha_{i,w}$ l'intercetta di "prima ondata" (ovvero per dati antecedenti al 1 Luglio 2020).

Il modello assicura

  • la variabilità interprovinciale tramite le intercette $\alpha_{i,p}$
  • la differenza di tracciamento e contact-tracing tra prima e seconda ondata tramite l'intercetta $\alpha_{i,w}$
  • l'interazione tra provincia e ondata tramite il coefficiente d'interazione $\alpha_{i,w,p}$
  • la minimizzazione dell'eteroschedasticità grazie alla trasformazione logaritmica dei dati numerici

Per O3 sarebbe più corretto utilizzare un modello di regressione non lineare, ma abbiamo scelto di utilizzare il medesimo modello per poter più facilmente confrontare i risultati.

Per ciascun valore di $\tau$ otteniamo il coefficiente $\beta_{i,\tau}$ e l'errore standard $\sigma_{i,\tau}$ che abbiamo utiizzato per ricavare la distribuzione Gaussiana del coefficiente di correlazione

$$ \hat{\beta}_{i,\tau} \sim \mathcal{N}(\mu=\beta_{i,\tau} \;,\; \sigma=\sigma_{i,\tau}) $$

da cui sono stati ottenuti 10 000 campioni random.

Per ogni inquinante $i$, la distribuzione del coefficiente $\beta_i$ è stata stimata dalla concatenazione dei campioni dei parametri $\hat{\beta}_{i,\tau}$ normalizzati dalla moltiplicazione per la deviazione standard dei valori trasformati (logaritmo). Il metodo utilizzato e i dati sono disponibili nel materiale supplementare all'indirizzo GitHub.

Non ci aspettiamo dal modello valori del coefficiente di determinazione $R^2$ particolarmente elevati data la semplicità del modello, ma non eccessivamente inferiori a 0.5.

Intervalli temporali

Per stimare la distribuzione dell'intervallo tra infezione e comunicazione della diagnosi, confrontiamo il dataset nazionale dei nuovi positivi di DPC e il dataset dei sintomatici di ISS.

Gli unici dati pubblici attualmente disponibili a livello provinciale sono quelli del DPC.

La data è relativa però alla data di comunicazione dell'evento e non alla data dell'evento stesso.

In particolare, per i nuovi casi, la data si riferisce alla comunicazione della diagnosi (test positivo)

Pertanto, utilizzando i dati ISS dei nuovi casi sintomatici, che invece si riferiscono alla data effettiva dell'evento ma disponibili solo a livello nazionale, possiamo stimare, l'intervallo onset-to-diagnosis-communication, ovvero dall'inizio dei sintomi alla comunicazione di diagnosi, scegliendo l'intervallo che minimizzi l'errore medio assoluto (MAE) tra la comunicazione dei dati (dataset DPC) e l'evento (dataset ISS).

Grazie al lavoro di Flaxman et al. 2020, possiamo stimare l'intervallo infection-to-onset, ovvero dall'infezione all'inizio dei sintomi (periodo d'incubazione) e giungere così alla determinazione della distribuzione dell'intervallo infection-to-diagnosis-communication, ovvero dalla data dell'infezione alla data di comunicazione della diagnosi.

Si suppone che la distribuzione dell'intervallo a livello nazionale sia valido anche a livello provinciale.

Data la notevole differenza tra i casi sintomatici (ISS) e i casi diagnosticati (DPC) della seconda ondata, abbiamo analizzato solamente i dati della prima ondata (anteriore al 1 Luglio 2020).

Sommando la stima dell'intervallo onset-to-diagnosis-communication alla distribuzione dell'intervallo infection-to-onset, otteniamo dunque la stima della distribuzione dell'intervallo infection-to-diagnosis-communication.

Pertanto è stata effettuata la correlazione tra i casi comunicati del dataset provinciale DPC e i valori degli inquinanti da 12 a 42 giorni prima, ovvero nei probabili giorni dell'infezione.

Risultati

EDA

Analisi esplorativa dei dati (EDA) preliminare: l'analisi visiva conferma una correlazione tra inquinanti e incidenze di COVID-19.

Per O3 la correlazione sembrerebbe essere meno lineare ma, come già detto, abbiamo deciso di utilizzare il modello lineare per poter più facilmente confrontare i risultati.