library(imputeTS)na.random(mydata) # Random Imputation na.locf(mydata, option = "locf") # Last Obs. Carried Forward na.locf(mydata, option = "nocb") # Next Obs. Carried Backward na.interpolation(mydata) # Linear Interpolation na.seadec(mydata, algorithm = "interpolation") # Seasonal Adjustment then Linear Interpolation
Media, mediana e modalità
Il calcolo della media, mediana o modalità generale è un metodo di imputazione molto semplice, è l’unica funzione testata che non sfrutta le caratteristiche della serie temporale o la relazione tra le variabili. È molto veloce, ma ha chiari svantaggi. Uno svantaggio è che l’imputazione media riduce la varianza nel set di dati.
library(imputeTS)na.mean(mydata, option = "mean") # Mean Imputation na.mean(mydata, option = "median") # Median Imputation na.mean(mydata, option = "mode") # Mode ImputationIn Python from sklearn.preprocessing import Imputer values = mydata.values imputer = Imputer(missing_values='NaN', strategy='mean') transformed_values = imputer.fit_transform(values)# strategy can be changed to "median" and "most_frequent"
Regressione lineare
Per iniziare, vengono identificati diversi predittori della variabile con valori mancanti utilizzando una matrice di correlazione. I migliori predittori sono selezionati e utilizzati come variabili indipendenti in un’equazione di regressione. La variabile con dati mancanti viene usata come variabile dipendente. I casi con dati completi per le variabili predittive sono usati per generare l’equazione di regressione; l’equazione è poi usata per predire i valori mancanti per i casi incompleti. In un processo iterativo, i valori per la variabile mancante sono inseriti e poi tutti i casi sono usati per predire la variabile dipendente. Questi passi vengono ripetuti fino a quando c’è poca differenza tra i valori predetti da un passo all’altro, cioè convergono. In teoria fornisce buone stime per i valori mancanti. Tuttavia, ci sono diversi svantaggi di questo modello che tendono a superare i vantaggi. In primo luogo, poiché i valori sostituiti sono stati predetti da altre variabili, tendono ad adattarsi “troppo bene” e quindi l’errore standard si sgonfia. Si deve anche assumere che ci sia una relazione lineare tra le variabili usate nell’equazione di regressione quando potrebbe non esserci.
Imputazione multipla
Imputazione: Imputa le voci mancanti degli insiemi di dati incompleti m volte (m=3 nella figura). Si noti che i valori imputati sono estratti da una distribuzione. La simulazione di estrazioni casuali non include l’incertezza nei parametri del modello. Un approccio migliore è quello di usare la simulazione Markov Chain Monte Carlo (MCMC). Questo passo si traduce in m serie di dati completi.
Analisi: Analizzare ciascuno dei m set di dati completi.
Pooling: Integrare i risultati di m analisi in un risultato finale