Come gestire i dati mancanti

library(imputeTS)na.random(mydata) # Random Imputation
na.locf(mydata, option = "locf") # Last Obs. Carried Forward
na.locf(mydata, option = "nocb") # Next Obs. Carried Backward
na.interpolation(mydata) # Linear Interpolation
na.seadec(mydata, algorithm = "interpolation") # Seasonal Adjustment then Linear Interpolation

Media, mediana e modalità

Il calcolo della media, mediana o modalità generale è un metodo di imputazione molto semplice, è l’unica funzione testata che non sfrutta le caratteristiche della serie temporale o la relazione tra le variabili. È molto veloce, ma ha chiari svantaggi. Uno svantaggio è che l’imputazione media riduce la varianza nel set di dati.

library(imputeTS)na.mean(mydata, option = "mean") # Mean Imputation
na.mean(mydata, option = "median") # Median Imputation
na.mean(mydata, option = "mode") # Mode ImputationIn Python
from sklearn.preprocessing import Imputer
values = mydata.values
imputer = Imputer(missing_values='NaN', strategy='mean')
transformed_values = imputer.fit_transform(values)# strategy can be changed to "median" and "most_frequent"

Regressione lineare

Per iniziare, vengono identificati diversi predittori della variabile con valori mancanti utilizzando una matrice di correlazione. I migliori predittori sono selezionati e utilizzati come variabili indipendenti in un’equazione di regressione. La variabile con dati mancanti viene usata come variabile dipendente. I casi con dati completi per le variabili predittive sono usati per generare l’equazione di regressione; l’equazione è poi usata per predire i valori mancanti per i casi incompleti. In un processo iterativo, i valori per la variabile mancante sono inseriti e poi tutti i casi sono usati per predire la variabile dipendente. Questi passi vengono ripetuti fino a quando c’è poca differenza tra i valori predetti da un passo all’altro, cioè convergono.
In teoria fornisce buone stime per i valori mancanti. Tuttavia, ci sono diversi svantaggi di questo modello che tendono a superare i vantaggi. In primo luogo, poiché i valori sostituiti sono stati predetti da altre variabili, tendono ad adattarsi “troppo bene” e quindi l’errore standard si sgonfia. Si deve anche assumere che ci sia una relazione lineare tra le variabili usate nell’equazione di regressione quando potrebbe non esserci.

Imputazione multipla

Imputazione: Imputa le voci mancanti degli insiemi di dati incompleti m volte (m=3 nella figura). Si noti che i valori imputati sono estratti da una distribuzione. La simulazione di estrazioni casuali non include l’incertezza nei parametri del modello. Un approccio migliore è quello di usare la simulazione Markov Chain Monte Carlo (MCMC). Questo passo si traduce in m serie di dati completi.
Analisi: Analizzare ciascuno dei m set di dati completi.
Pooling: Integrare i risultati di m analisi in un risultato finale

Fonte: http://www.stefvanbuuren.nl/publications/mice%20in%20r%20-%20draft.pdf

Come gestire i dati mancanti

Media, mediana e modalità

Regressione lineare

Imputazione multipla

Imputazione di variabili categoriche

KNN (K Nearest Neighbors)

Lascia un commento Annulla risposta