Leissl/Bloomberg)
Come Mark Twain ha reso famoso nella coscienza pubblica, “Ci sono tre tipi di bugie: bugie, dannate bugie e statistiche”. Che sia per malizia, scarsa formazione o semplice ignoranza, la “cattiva statistica” ha una ricca e storica eredità che risale a quando l’uomo conta le cose. Innumerevoli libri, articoli e blog raccontano la miriade di modi in cui i dati e le statistiche vengono abusati per dare un falso supporto ad argomenti in campi che vanno dal mondo accademico alle politiche pubbliche. Poiché il giornalismo basato sui dati è in aumento e gli appelli continuano a crescere per un maggiore “fact checking” basato sulle prove, vale la pena fare un passo indietro per chiedere quante delle “fake news” che ci circondano oggi sono basate almeno in parte su cattive statistiche.
Non passa giorno senza che una raffica di memi basati sui dati passi attraverso il mio news feed di Facebook, navigando sul mio flusso di Twitter o atterrando come avvisi nella mia casella di posta elettronica che citano ciò che sembrano essere serie di dati affidabili e li usano per offrire conclusioni sorprendenti, tipicamente avvolte in un’infografica ipnotizzante. Eppure, quando scelgo uno di questi memi a caso e lo approfondisco, scopro che è davvero un meme raro che resiste all’esame statistico.
Alcuni memi che incontro sono facili da scartare come vere e proprie invenzioni, citando serie di dati inesistenti, autori inesistenti, riviste inesistenti o citando ricercatori e istituti reali (in genere molto importanti) nel campo, ma che quando vengono contattati dicono di non aver mai sentito parlare della ricerca di cui si dice siano gli autori. I memi testuali sono i più comuni in questa categoria, dal momento che richiede così poco sforzo per inviare un tweet sulla falsariga di “Un recente sondaggio Gallup afferma che l’80% degli americani crede che il cambiamento climatico sia falso”. Tali memi possono essere fatti sembrare più autorevoli montando un rapido grafico in Excel. Per questi meme visivi, a volte basta cliccare con il tasto destro del mouse sul grafico nel browser Google Chrome e selezionare “Cerca l’immagine su Google” per trovare siti di fact checking o blog accademici che hanno fatto ricerche sul grafico e hanno confermato che si tratta di un’invenzione.
Ho anche visto alcuni meme che hanno preso un grafico legittimo “dall’aspetto scientifico” da un documento in un campo e lo usano come illustrazione per un’affermazione in un campo diverso. Proprio di recente ho visto un meme passare nel mio feed di Facebook che presentava un grafico di una curva esponenziale con tutti i tipi di misure statistiche sullo sfondo che è stato utilizzato per illustrare un’affermazione sulle tendenze del riscaldamento globale negli ultimi 50 anni. La parte strana è che gli assi X e Y erano tagliati e alcune delle annotazioni sul grafico riguardavano il campo medico. Infatti, dopo un po’ di ricerca sono stato in grado di scoprire che l’autore del meme aveva apparentemente appena preso un bel grafico dall’aspetto esponenziale da un documento medico completamente estraneo (forse trovato tramite una rapida ricerca su Google Scholar).
L’aumento di preprint, postprint e pubblicazioni accademiche attraverso i blog ha avuto un effetto pericoloso sulla fiducia scientifica, abituando il grande pubblico a vedere un articolo di notizie che discute un nuovo progresso scientifico che si collega a un preprint dell’articolo sul blog personale del membro della facoltà, piuttosto che sul sito della rivista. Questo significa che quando un membro del pubblico vede un meme che cita un articolo accademico presumibilmente pubblicato nell’ultimo numero di Nature, ma il link va a un PDF su un sito web casuale che pretende di essere il blog personale di un professore di Harvard, molti lettori non batteranno ciglio e semplicemente crederanno che il documento è davvero un preprint di un nuovo articolo di Nature di un professore di Harvard.
Per confondere ulteriormente le acque, l’aumento degli editori predatori e delle riviste “fly-by-night” significa che un meme potrebbe collegarsi a un articolo su un sito web di una rivista dall’aspetto professionale con un nome prestigioso e che elenca molti docenti di spicco nel suo comitato editoriale (che potrebbero anche non essere consapevoli che i loro nomi vengono utilizzati). Gli standard di revisione tra pari sono spesso essenzialmente inesistenti in tali riviste, il che significa che quasi qualsiasi presentazione viene accettata.
Oggi ci vuole poco più di una rapida ricerca su Google per individuare un documento accademico pubblicato in una rivista dall’aspetto prestigioso che fa qualsiasi argomento che si desidera e sostiene di avere i dati, le statistiche e le citazioni per sostenere tale argomento rigorosamente e senza domande. Per il membro medio del pubblico, la “peer review” è un concetto sconosciuto e un articolo pubblicato su Nature non è più rispettabile di uno pubblicato su The Journal Of Prestigious And World Changing Research.
Tuttavia, il più grande singolo contributore alle “fake news” guidate dai dati sono le miriadi di fallacie statistiche che cadono così facilmente anche sugli accademici in campi che non enfatizzano una rigorosa formazione statistica (sebbene anche i campi ricchi di statistiche non siano immuni da argomenti statistici). Al di là dei candidati ovvi come i suggerimenti di correlazione che implicano causalità e l’uso improprio delle tecniche statistiche, forse uno dei più grandi facilitatori di fake news nei memi in cui mi imbatto è il bias di campionamento e le definizioni selettive.
Come esempio, le definizioni di ciò che costituisce precisamente un “attacco terroristico” sono notoriamente controverse. Qualcosa era una “sparatoria di massa”, un “attacco terroristico” o un “atto di malattia mentale”? Recentemente ho visto un meme che sosteneva che non c’era mai stato un altro atto di terrorismo sul suolo americano dopo l’11 settembre, perché tutti i successivi attacchi americani erano il risultato di individui malati di mente, piuttosto che di terrorismo. Un altro meme recente che ho visto sosteneva che nessun americano era stato ferito o ucciso da un aggressore di origine straniera sul suolo americano e solo in piccolo in una piccola nota a piè di pagina c’era una dichiarazione che limitava l’arco temporale dell’analisi in modo da non includere gli attacchi dell’11 settembre, l’attacco di San Bernardino e altri casi. Un sondaggio nazionale che ho visto durante la stagione della campagna presidenziale ha fatto affermazioni audaci sul sostegno nazionale alla Clinton, ma nella sua metodologia ha rivelato che più dell’80% del suo campione era composto da Democratici e Indipendenti. Questo solleva la domanda critica – li etichetteremmo come “fake news”, come “fattualmente accurati ma fuorvianti” o come “assolutamente veri?”
Qui sta una delle grandi sfide del dibattito sulle “fake news” – molti dei memi basati sui dati (e articoli di notizie) che circolano sono, per meriti puramente tecnici, fattualmente accurati sulla base del campione di popolazione attentamente costruito che usano. La questione è se qualcosa che è di fatto accurato può anche essere etichettato come “fake news” quando si tratta di ingannare il pubblico, dato che i risultati anche degli esperimenti meglio condotti sono troppo rapidamente separati dalla miriade di caveat che temperano quelle conclusioni. Un sondaggio sorprendente che indica chiaramente una schiacciante distorsione di campionamento verso i democratici viene alla fine trasformato in un titolo privo di qualsiasi menzione di distorsione partigiana. Un’affermazione che non c’è mai stato un attacco terroristico sul suolo americano dall’11 settembre si diffonde attraverso i social media e perde la sua nota a piè di pagina che chiarisce che si riferisce solo a una piccola parte di quel periodo di 15 anni.
Come gestiamo le fallacie statistiche in un mondo in cui pochi cittadini (e persino gli accademici) hanno anche una comprensione di base delle statistiche o dei dati? Ancora più preoccupante, come gestiamo le affermazioni fattualmente vere che utilizzano un campione di popolazione così accuratamente costruito che il loro argomento è quasi privo di significato? Tecnicamente non possono essere segnalate come “fake news” poiché sono fattualmente corrette, ma è anche probabile che, man mano che si diffondono, quelle note a piè di pagina vadano perse. Se un fatto viene condiviso senza i suoi avvertimenti originali, questo lo rende falso? Se un meme afferma semplicemente “Non c’è mai stato un attacco terroristico sul suolo americano dopo l’11 settembre” e le note a piè di pagina che chiariscono i periodi di tempo e la definizione di “attacco terroristico” a cui si riferisce sono state perse da tempo, questo rende il meme falso o il meme è ancora vero in quanto è di fatto corretto sotto i presupposti specifici e la costruzione della popolazione utilizzata dal suo autore originale?
Queste sono domande affascinanti mentre ci confrontiamo con la dualità di un accesso enormemente aumentato ai dati e una popolazione analfabeta di dati che non ha la formazione statistica per capire come utilizzare correttamente quei dati per trarre conclusioni. Aggiungendo a questo mix volatile, i social media assicurano che anche il fattoide più distorto può essere estratto da un set di dati e diventare virale, perdendo rapidamente la connessione con la miriade di caveat definitori che gli hanno permesso di aggrapparsi alla veridicità.
Anche quando si usano tecniche semplici come i conteggi nel tempo, questioni come la normalizzazione dei dati e le sfumature uniche della costruzione dei set di dati sono particolarmente complesse anche per chi ha una profonda formazione statistica, il che significa che anche i giornalisti esperti di dati pubblicano regolarmente risultati che sono profondamente sbagliati e portano a ulteriori titoli e interpretazioni false e fuorvianti.
Mettendo insieme tutti questi elementi, come ho sostenuto a dicembre, non possiamo iniziare a combattere le fake news finché non ci concentriamo sull’aumento dell’alfabetizzazione ai dati e alle informazioni della società.