COVID-19 Data Analysis

Stima Rt e simulazioni

Rt italiano e regionale e simulazioni d'incidenza.

Max Pierini, Sandra Mazzoli, Alessio Pamovio


Il modello di simulazione dei nuovi casi può fallire nei seguenti casi:

  • Eventi o interventi atti a diminuire drasticamente il tasso di trasmissione (lockdown, zone rosse, rinforzo delle norme di igiene e sicurezza, ecc). In questo caso $R_t$ osservato, e di conseguenza il numero di nuovi casi, potrebbero risultare inferiori al miglior scenario previsto.
  • Eventi o situazioni in grado di aumentare drasticamente il tasso di trasmissione (grandi assembramenti, netta riduzione della conformità alle norme di igiene e sicurezza, riapertura scuole e università, ecc). In questo caso $R_t$ osservato, e di conseguenza il numero di nuovi casi, potrebbero risultare superiori al peggior scenario previsto.
  • Interventi atti ad aumentare il numero di test (tamponi) effettuati sulla popolazione. In questo caso il Tasso di Posività osservato potrebbe risultare inferiore al miglior scenario previsto.
  • Decisioni atte a diminuire il numero di test (tamponi) effettuati sulla popolazione. In questo caso il Tasso di Posività osservato potrebbe risultare superiore al peggior scenario previsto.

In ogni caso, l'osservazione di un numero di nuovi casi

  • inferiori al miglior scenario previsto è una buona indicazione della resa degli interventi di contenimento eventualmente attuati
  • superiori al peggior scenario previsto è una buona indicazione del fallimento degli interventi di contenimento eventualmente attuati e/o una chiara indicazione a considerare un rinforzo degli interventi in atto o l'introduzione di interventi più efficaci

NB: gli $R_t$ stimati da EpiDataItalia possono differire da quelli dell'Istituto Superiore di Sanità (ISS) perchè

  • i dati utilizzati da ISS provengono dal flusso di Sorveglianza Integrata (per dettagli consultare EpiCentro), in continuo aggiornamento e consolidamento, mentre EpiDataItalia usa i dati comunicati giornalmente dal Ministero della Salute
  • ISS usa metodo EpiEstim (A new framework and software to estimate time-varying reproduction numbers during epidemics, Cori-Ferguson-Fraser 2013) sui soli casi sintomatici trasmessi localmente (stimati con contact-tracing) e decurtando i casi verosimilmente importati mentre EpiDataItalia ha scelto di stimare sui casi totali (sintomatici e non-sintomatici) per assenza di sufficienti evidenze che i soggetti asintomatici non siano in grado di trasmettere l'infezione
  • per riprodurre la stima di $R_t$ di ISS è possibile utilizzare i dati e lo script in linguaggio R forniti da EpiCentro a questo indirizzo

Per chiedere al Governo l'accesso pubblico a tutti i dati grezzi disaggregati di COVID-19 in Italia consigliamo l'adesione alla Petizione DatiBeneComune.


Modelli utilizzati:

  • stima di Rt:

    • Italia: Wallinga-Teunis (ref: Wallinga-Teunis 2004) implementato in Markov chain Monte Carlo in JAGS, soglia minima d'incidenca 50 casi
    • Italia regioni e province: modello Cori et al. implementato per simulazione JARE, Just Another Rt Estimate (vedi dettagli JARE simulation e JARE Italy); il vantaggio dell'implementazione per simulazione è una maggior robustezza alle basse incidenze
    • Nazioni e continenti: EpiEstim Cori et al. (ref: Package ‘EpiEstim’, Cori et al. 2013) implementato in python, finestra temporale 14 giorni
  • simulazioni di incidenza:

    • Cori et al., implementato con Markov chain Monte Carlo in JAGS. Scenari con Rt stabile e incremento/decremento del 10%
  • Distribuzione di intervallo di generazione Cereda-Tirani et al. (ref: Cereda-Tirani 2020)

Metodi

Il metodo Wallinga-Teunis (Wallinga-Teunis 2004) si basa sull'assunzione che la probabilità $p(t,i)$ che i nuovi casi $I_t$ in $t$ siano stati contagiati dai casi I_{t-i} in $t-i$ è pari a

$$ p(t,i) = I_t \frac{w_{t-i}}{I_i} $$

dove $w_{t-i}$ corrisponde a

$$ w_{t,i} = \frac{ I_i \gamma_{t-i} }{ \sum_{j=1}^{t-i} I_j \gamma_{t-j} } $$

ovvero l'incidenza normalizzata osservata in $i$ ponderata sulla massa di probabilità in $t-j$ dell'intervallo seriale $\gamma$.

Il numero di riproduzione effettivo istantaneo in $t$ è pertanto pari alla somma delle probabilità in $t$

$$ R_t = \sum_{i=1}^{t-1} p(t,i) $$

Per ulteriori dettagli si rimanda all'articolo di Wallinga e Teunis (ref: Wallinga-Teunis 2004)

È qui implementato con Markov chain Monte Carlo in JAGS, distribuendo le incidenze osservate come variabili di Poisson

$$ I_t \sim \mathcal{P}(\lambda = I_t) $$

L'implementazione con Markov chain Monte Carlo in JAGS permette di generare simulazioni di incidenza per i successivi 15 giorni, basando la simulazione sull'assunto che (cfr: Cori et al.)

$$ I_t = \sum_{i=1}^{s} I_{t-s} R_{t-s} \gamma_{s} $$

supponendo che, per i giorni successivi all'ultimo osservato, $R_t$

  • resti costante all'ultimo $R_t$ stimato (mid scenario)
  • incrementi del 10% rispetto all'ultimo stimato (high scenario)
  • decrementi del 10% rispetto all'ultimo stimato (low scenario)

e distribuendolo normale positivo con deviazione standard 0.1

$$ R_t \sim \mathcal{N}^+( \mu=R_t , \sigma=0.1 ) $$
  • Bettencourt et al.: bayesiano sequenziale, modificato da Systrom (ref: Bettencourt-Ribeiro 2008 e Systrom 2020), ha intervalli di credibilità (è bayesiano, quindi non si tratta di intervalli di confidenza) molto ampi; è necessario prima smussare i dati con media mobile con finestra ampia almeno il doppio della media dell’intervallo seriale quindi l’ultimo Rt calcolato è del giorno centrale della finestra usata per la media mobile; è dipendente dalla deviazione standard dei priors assegnati a $R_t$ dei giorni precedenti.
  • Robert Koch Institute: si basa sull'idea che $R_t$ sia pari al rapporto tra la somma delle incidenze in finestre temporali separate (ref: Heiden et al. 2020). Le finestra temporali devono essere ampie almeno tanto quanto la media dell’intervallo seriale, quindi l'ultimo Rt è dell'ultimo giorno del primo paio di finestre temporali
  • EpiEstim: si fonda sull'assuzione che $R_t$ sia distribuito Gamma con shape e rate pari rispettivamente alla somma delle incidenze in una finestra temporale e alle incidenze ponderate sulla massa di probabilità dell'intervallo seriale discretizzato nella medesima finestra (ref: Cori et al. 2013). La finestra di calcolo dev’essere ampia almeno quanto la media dell’intervallo seriale, quindi l’ultimo Rt è del primo giorno della finestra. Robusto anche con basse incidenze, utilizzato qui nella forma JARE EpiData-Pierini per simulazione JARE simulation.
  • Wallinga-Lipsitch: stima il coefficiente di crescita esponenziale intorno a due emi-finestre temporali (ref: Wallinga-Lipsitch 2007). Devono essere ampie almeno quanto la media dell’intervallo seriale. L’ultimo Rt è quello del giorno centrale alle due emi-finestre
  • Wallinga-Teunis: non usa finestre temporali, quindi l’ultimo Rt è quello dell'ultimo giorno (ref: Wallinga-Teunis 2004) ma è corretto per con la probabilità cumulativa dell'intervallo seriale, quindi Rt degli ultimi giorni è meno affidabile. Poco robusto con basse incidenze.
  • Wallinga-Teunis mod. Pierini EpiData.it: è sovrapponibile al Wallinga-Teunis ma con distribuzione delle osservazioni come variabili di Poisson in Markov chain Monte Carlo; ha intervalli di credibilità più ristretti. È qui utilizzato per l'Italia al fine di ottenere delle simulazioni d'incidenza basate sull'ultimo Rt

Si presenta di seguito un confronto tra le stime di $R_t$ con i metodi elencati. L'implementazione in python è visualizzabile sul repository GitHub del sito EpiData.it


ITALY

REGIONS

Abruzzo

Basilicata

Calabria

Campania

Emilia-Romagna

Friuli Venezia Giulia