COVID-19 Data Analysis

Stima Rt e previsioni

Rt italiano e regionale e previsione incidenza.

Max Pierini, Sandra Mazzoli, Alessio Pamovio


Il modello di previsione dei nuovi casi può fallire nei seguenti casi:

  • Eventi o interventi atti a diminuire drasticamente il tasso di trasmissione (lockdown, zone rosse, rinforzo delle norme di igiene e sicurezza, ecc). In questo caso $R_t$ osservato, e di conseguenza il numero di nuovi casi, potrebbero risultare inferiori al miglior scenario previsto.
  • Eventi o situazioni in grado di aumentare drasticamente il tasso di trasmissione (grandi assembramenti, netta riduzione della conformità alle norme di igiene e sicurezza, riapertura scuole e università, ecc). In questo caso $R_t$ osservato, e di conseguenza il numero di nuovi casi, potrebbero risultare superiori al peggior scenario previsto.
  • Interventi atti ad aumentare il numero di test (tamponi) effettuati sulla popolazione. In questo caso il Tasso di Posività osservato potrebbe risultare inferiore al miglior scenario previsto.
  • Decisioni atte a diminuire il numero di test (tamponi) effettuati sulla popolazione. In questo caso il Tasso di Posività osservato potrebbe risultare superiore al peggior scenario previsto.

In ogni caso, l'osservazione di un numero di nuovi casi e/o di un Tasso di Positività

  • inferiori al miglior scenario previsto è una buona indicazione della resa degli interventi di contenimento eventualmente attuati
  • superiori al peggior scenario previsto è una buona indicazione del fallimento degli interventi di contenimento eventualmente attuati e/o una chiara indicazione a considerare un rinforzo degli interventi in atto o l'introduzione di interventi più efficaci

NB: gli $R_t$ stimati da EpiDataItalia sono parametrizzati attualmente sui soli nuovi casi riportati al Dipartimento di Protezione Civile e non sono sovrapponibili al numero di riproduzione stimato da ISS-EpiCentro che utilizza lo stesso modello EpiEstim (A new framework and software to estimate time-varying reproduction numbers during epidemics, Cori-Ferguson-Fraser 2013) ma con dati aggiuntivi attualmente non disponibili al pubblico (il numero di casi sintomatici con data di inizio sintomi, il numero di casi sintomatici importati da un’altra regione o dall’estero). Per info sul modello in uso da ISS-EpiCentro consultare la pagina FAQ sul calcolo del Rt di ISS. Per chiedere al Governo l'accesso pubblico a tutti i dati grezzi disaggregati di COVID-19 in Italia consigliamo l'adesione alla Petizione DatiBeneComune.


Modelli utilizzati:

  • stima di Rt: EpiEstim Cori et al. (ref: Package ‘EpiEstim’, Cori et al. 2013)
    • implementato con Markov chain Monte Carlo in JAGS e corretto per ignorare incidenze inferiori a una soglia stabilita nella finestra temporale scelta. Finestra 14 giorni, soglia minima 50 nuovi casi
  • previsioni: Bettencourt-Ribeiro (ref: Bettencourt & Ribeiro 2008)
    • implementato con Markov chain Monte Carlo in JAGS. Scenari con Rt stabile e incremento/decremento del 33% su finestra temporale scelta di 14 giorni
  • Distribuzione di intervallo di generazione Cereda-Tirani et al. (ref: Cereda-Tirani 2020)

Metodo

Il metodo EpiEstim (Cori et al. 2013) si basa sulla semplice assunzione che

$$ R_t \sim \Gamma \left( A = \sum_{i=0}^{\Delta} I_{t-\Delta} \;,\; B = \sum_{i=0}^{\Delta} \gamma_{i} I_{t-\Delta} \right) $$

dove $I$ è l'incidenza, la distribuzione Gamma è parametrizzata su shape $A$ e rate $B$, $\Delta$ è un'intervallo temporale scelto (solitamente tra 7 e 14 giorni) e $\gamma_{i}$ è la massa di probabilità l'intervallo seriale $\gamma$ discretizzato

$$ \gamma \sim \Gamma( \alpha , \beta ) $$

in cui $\alpha$ e $\beta$ sono shape e rate. Il parametro $A$ è la somma delle incidenze del periodo $\Delta$, mentre $B$ è definita da Cori come $overall infectivity$ (infettività complessiva). Il concetto, semplificando, è che i nuovi casi $A$ ossevati nell'intervallo $\Delta$ sono stati verosimilmente contagiati da infetti nel medesimo intervallo che si possono stimare come i casi osservati $A$ ponderati sulla massa di probabilità (PMF) dell'intervello seriale discretizzato.

Dalle proprietà della distribuzione Gamma si evince pertanto che la media di $R_t$ è

$$ \hat{R_t} = \frac{A}{B} $$

e la deviazione standard è

$$ \sigma(R_t) = \frac{\sqrt{A}}{B} $$

dalla PDF della distribuzione Gamma, è possibile calcolare anche l'intervallo di credibilità (qui 99%) che, in statistica bayesiana, ha la medesima funzione dell'intervallo di confidenza frequentista.

Dunque il rapporto tra $A$ e $B$ definisce la media di $R_t$. In questo modo l'osservazione di un'incidenza $A$ pari a 100 nuovi casi su un'infettività complessiva di 50 infetti, darà come risultato una media di $R_t$ pari a 2. Allo stesso modo se $A=1,000$ e $B=500$, o se $A=10,000$ e $B=5,000$ e in generale se $A=2B$. Ma grazie alle proprietà della distribuzione Gamma, più aumentano $A$ e $B$ più si riduce l'intervallo di credibilità e siamo quindi man mano "più sicuri" che il valore reale di $R_t$ sia vicino alla media stimata.

Per questo motivo, scegliamo in questa implementazione di ignorare somme di incidenze $A$ inferiori a 50 casi nel $\Delta$ definito di 14 giorni, che porterebbero ad un intervallo di credibilità eccessivamente ampio.

In questa sezione, per l'Italia, il metodo è implementato con Markov chain Monte Carlo in JAGS al fine di stimare una previsione dell'incidenza dato l'ultimo $R_t$ e la media dell'incidenza osservata nell'ultima settima $\hat{I_t}$ con approssimazione del metodo Bettencourt-Ribeiro (Bettencourt & Ribeiro 2008), secondo cui l'incidenza prevista dopo $\tau$ giorni è

$$ I_{t+\tau} = \hat{I_t} \cdot \exp \left( \frac{\tau}{\hat{\gamma}} (R_t - 1) \right) $$

in cui $\hat{\gamma}$ è la media dell'intervallo seriale $\gamma$.

Nella presente trattazione, i priors di $\hat{I_t}$ sono distribuiti gaussiani positivi con deviazione standard 100

$$ \hat{I_t} \sim \mathcal{N}^+( \mu = \hat{I_t} \;,\; \sigma = 100 ) $$

e i posteriors $I_{t+\tau}$ sono distribuiti Poisson

$$ I_{t+\tau} \sim \mathcal{P}( \lambda = I_{t+\tau} ) $$

Per le regioni e nelle altre sezioni, il metodo è implementato in python, tratto dall'implementazione in R del pacchetto EpiEstim (Package ‘EpiEstim’).


ITALY

REGIONS

Abruzzo

Basilicata

Calabria

Campania

Emilia-Romagna

Friuli Venezia Giulia

Lazio

Liguria

Lombardia

Marche

Molise

P.A. Bolzano

P.A. Trento

Piemonte