Leissl/Bloomberg)
Jak Mark Twain sławnie spopularyzował w świadomości publicznej, „Istnieją trzy rodzaje kłamstw: kłamstwa, przeklęte kłamstwa i statystyki.” Czy to przez złośliwość, słabe wyszkolenie czy zwykłą ignorancję, „złe statystyki” mają bogatą i bogatą spuściznę sięgającą tak długo, jak długo ludzie liczyli rzeczy. Niezliczone książki, artykuły i blogi są kroniką niezliczonych sposobów, w jakie dane i statystyki są nadużywane w celu udzielenia fałszywego wsparcia argumentom w dziedzinach od świata akademickiego po politykę publiczną. Ponieważ dziennikarstwo oparte na danych jest na fali wznoszącej, a wezwania do zwiększenia opartego na dowodach „sprawdzania faktów” wciąż rosną, warto cofnąć się, aby zapytać, jak wiele z „fake news”, które nas dziś otaczają, opiera się przynajmniej w części na złych statystykach.
Nie ma dnia bez natłoku memów opartych na danych przechodzących przez mój kanał informacyjny na Facebooku, płynących przez mój strumień na Twitterze lub lądujących jako alerty w mojej skrzynce e-mailowej, które cytują to, co wydaje się być renomowanymi zbiorami danych i wykorzystują je do zaoferowania zaskakujących wniosków, zazwyczaj zawiniętych w hipnotyzującą infografikę. Kiedy jednak wybieram któryś z tych memów na chybił trafił i zagłębiam się w jego treść, okazuje się, że jest to rzeczywiście rzadki mem, który wytrzymuje statystyczną analizę.
Niektóre memy, na które się natykam, łatwo odrzucić jako jawne fabrykacje, powołując się na nieistniejące zbiory danych, nieistniejących autorów, nieistniejące czasopisma lub powołując się na prawdziwych (zazwyczaj bardzo wybitnych) badaczy i instytuty w danej dziedzinie, którzy jednak po skontaktowaniu się z nimi twierdzą, że nigdy nie słyszeli o badaniach, których rzekomo są autorami. Memy tekstowe są najczęstsze w tej kategorii, ponieważ wysłanie tweeta o treści „Najnowszy sondaż Gallupa stwierdza, że 80% Amerykanów uważa, że zmiany klimatyczne są fałszywe” wymaga tak niewiele wysiłku. Takie memy mogą wyglądać bardziej autorytatywnie dzięki szybkiemu stworzeniu wykresu w Excelu. W przypadku takich wizualnych memów, czasami wystarczy kliknąć prawym przyciskiem myszy na wykres w przeglądarce Google Chrome i wybrać opcję „Search Google for image”, aby wyświetlić strony sprawdzające fakty lub blogi akademickie, które zbadały wykres i potwierdziły, że jest on sfabrykowany.
Widziałem nawet kilka memów, które wzięły uzasadniony, „naukowo wyglądający” wykres z pracy w jednej dziedzinie i użyły go jako ilustracji do twierdzenia w innej dziedzinie. Niedawno widziałem mema na moim Facebooku, który przedstawiał wykres krzywej wykładniczej z różnego rodzaju miarami statystycznymi w tle, który został użyty do zilustrowania twierdzenia o trendach globalnego ocieplenia w ciągu ostatnich 50 lat. Najdziwniejsze jest to, że osie X i Y zostały odcięte, a niektóre z adnotacji na wykresie dotyczyły dziedziny medycyny. W rzeczywistości, po odrobinie poszukiwań byłem w stanie znaleźć, że autor meme miał najwyraźniej po prostu chwycił ładny wykładniczy wyglądający wykres z zupełnie niepowiązanego papieru medycznego (być może znaleziony przez szybkie wyszukiwanie Google Scholar).
Rozwój preprintów, postprintów i publikowania akademickiego poprzez blogi miał niebezpieczny wpływ na zaufanie naukowe, przyzwyczajając ogół społeczeństwa do oglądania artykułu informacyjnego omawiającego nowy postęp naukowy, który łączy się z preprintem artykułu na osobistym blogu członka wydziału, a nie na stronie internetowej czasopisma. Oznacza to, że gdy ktoś zobaczy meme, który cytuje pracę naukową rzekomo opublikowaną w najnowszym numerze Nature, ale link prowadzi do pliku PDF na przypadkowej stronie, która podaje się za osobisty blog profesora Harvardu, wielu czytelników nie mrugnie okiem i po prostu zaufa, że praca naprawdę jest preprintem nowego artykułu Nature autorstwa profesora Harvardu.
Mieszając wody jeszcze bardziej, wzrost drapieżnych wydawców i czasopism typu „fly-by-night” oznacza, że meme może linkować do pracy na stronie internetowej profesjonalnie wyglądającego czasopisma o prestiżowo brzmiącej nazwie i wymieniającego wielu wybitnych wykładowców w swojej radzie redakcyjnej (którzy mogą nawet nie być świadomi, że ich nazwiska są używane). Standardy recenzji są często w zasadzie nieistniejące w takich czasopismach, co oznacza, że prawie każde zgłoszenie jest akceptowane.
Więc potrzeba niewiele więcej niż szybkie wyszukiwanie w Google w tych dniach, aby zlokalizować pracę naukową opublikowaną w prestiżowo brzmiącym czasopiśmie, która czyni dowolny argument, który chcesz i twierdzi, że ma dane, statystyki i cytaty, aby wesprzeć ten argument rygorystycznie i bez wątpliwości. Dla przeciętnego członka społeczeństwa, „peer review” jest nieznanym pojęciem, a praca opublikowana w Nature nie jest bardziej renomowana niż ta opublikowana w The Journal Of Prestigious And World Changing Research.
Jednakże, największym pojedynczym czynnikiem przyczyniającym się do napędzanych danymi „fake news” są niezliczone błędy statystyczne, które tak łatwo padają nawet na naukowców z dziedzin, które nie podkreślają rygorystycznego szkolenia statystycznego (choć nawet dziedziny obfitujące w statystyki nie są odporne na argumenty statystyczne). Poza oczywistymi kandydatami, takimi jak sugestie korelacji implikującej związek przyczynowy i niewłaściwe wykorzystanie technik statystycznych, być może jednym z największych zwolenników fake news w memach, z którymi się zetknąłem, jest tendencyjność próbkowania i wybiórcze definicje.
Jak tylko jeden przykład, definicje tego, co dokładnie stanowi „atak terrorystyczny” są notorycznie kontrowersyjne. Czy coś było „masową strzelaniną”, „atakiem terrorystycznym”, czy „aktem choroby psychicznej”? Niedawno widziałem jeden meme, który twierdził, że od 11 września nigdy nie było innego aktu terroryzmu na amerykańskiej ziemi, ponieważ wszystkie kolejne ataki w USA były wynikiem chorób psychicznych, a nie terroryzmu. Inny mem, który widziałem ostatnio, twierdził, że żaden Amerykanin nie został ranny lub zabity przez napastnika urodzonego za granicą na ziemi amerykańskiej i tylko drobnym drukiem w małym przypisie było stwierdzenie ograniczające ramy czasowe analizy, tak aby nie obejmowały ataków z 11 września, ataku w San Bernardino i innych przypadków. Jeden z krajowych sondaży, który widziałem podczas kampanii prezydenckiej, śmiało twierdził o poparciu dla Clinton, ale w swojej metodologii ujawnił, że ponad 80% jego próby stanowili Demokraci i Niezależni. To rodzi krytyczne pytanie – czy oznaczylibyśmy to jako „fake news”, jako „faktograficznie dokładne, ale wprowadzające w błąd” czy jako „absolutnie prawdziwe?”
Tutaj leży jedno z wielkich wyzwań debaty na temat „fake news” – wiele z napędzanych danymi memów (i artykułów informacyjnych), które krążą wokół, są, na czysto technicznych podstawach, faktograficznie dokładne w oparciu o starannie skonstruowaną próbę populacji, której używają. Pytanie brzmi, czy coś, co jest zgodne z faktami, można również nazwać „fake news”, jeśli chodzi o wprowadzanie opinii publicznej w błąd, biorąc pod uwagę, że wyniki nawet najlepiej przeprowadzonych eksperymentów zbyt szybko oddzielają się od niezliczonych zastrzeżeń, które łagodzą te wnioski. Zaskakujący sondaż, który wyraźnie wskazuje na przeważającą tendencyjność Demokratów, zostaje ostatecznie przekształcony w nagłówek pozbawiony jakiejkolwiek wzmianki o partyjnym skrzywieniu. Twierdzenie, że nigdy nie było ataku terrorystycznego na terytorium USA od 11 września, rozprzestrzenia się w mediach społecznościowych i traci przypis wyjaśniający, że odnosi się tylko do niewielkiej części tego 15-letniego okresu.
Jak radzimy sobie z błędami statystycznymi w świecie, w którym niewielu obywateli (a nawet naukowców) ma nawet podstawowe zrozumienie statystyki lub danych? Jeszcze bardziej niepokojące jest to, jak radzimy sobie z prawdziwymi stwierdzeniami, które wykorzystują tak starannie skonstruowaną próbę populacji, że ich argument jest prawie bez znaczenia? Technicznie rzecz biorąc, nie mogą być one oznaczone jako „fake news”, ponieważ są zgodne z faktami, ale jest również prawdopodobne, że w miarę ich rozpowszechniania przypisy zostaną utracone. Jeśli jakiś fakt jest udostępniany bez oryginalnych zastrzeżeń, czy to czyni go fałszywym? Jeśli meme po prostu stwierdza „Od 11 września nigdy nie było ataku terrorystycznego na terytorium USA”, a przypisy wyjaśniające okresy czasu i definicję „ataku terrorystycznego”, do którego się odnosi, już dawno zostały utracone, czy to czyni meme fałszywym, czy też jest on nadal prawdziwy, ponieważ jest poprawny pod względem faktograficznym przy określonych założeniach i konstrukcji populacji użytej przez jego oryginalnego autora?
To są fascynujące pytania, ponieważ konfrontujemy się z dwoistością znacznie zwiększonego dostępu do danych i populacji analfabetów, która nie ma szkolenia statystycznego, aby zrozumieć, jak prawidłowo korzystać z tych danych do wyciągania wniosków. Dodając do tej zmiennej mieszanki, media społecznościowe zapewniają, że nawet najbardziej przekrzywiony faktoid może zostać wyekstrahowany ze zbioru danych i rozprzestrzenić się wirusowo, szybko tracąc związek z niezliczonymi zastrzeżeniami definicyjnymi, które pozwoliły mu trzymać się prawdy.
Nawet przy użyciu prostych technik, takich jak zliczanie w czasie, kwestie takie jak normalizacja danych i unikalne niuanse konstrukcji zbiorów danych są szczególnie kłopotliwe nawet dla tych z głębokim wykształceniem statystycznym, co oznacza, że nawet doświadczeni dziennikarze danych regularnie publikują ustalenia, które są głęboko błędne i prowadzą do dalszych fałszywych i mylących nagłówków i interpretacji.
Podsumowując to wszystko, jak przekonywałem w grudniu, nie możemy rozpocząć walki z fake newsami, dopóki nie skoncentrujemy się na zwiększeniu umiejętności społeczeństwa w zakresie korzystania z danych i informacji.
.