Lögner, förbannade lögner och statistik: Hur dålig statistik ger upphov till falska nyheter

Denna artikel är mer än 4 år gammal.

Leissl/Bloomberg)

Som Mark Twain berömt populariserade i det allmänna medvetandet: ”Det finns tre sorters lögner: lögner, förbannade lögner och statistik”. Vare sig det beror på illvilja, dålig utbildning eller enkel okunskap har ”dålig statistik” ett rikt och sagolikt arv som sträcker sig lika långt tillbaka som människor har räknat saker. Otaliga böcker, artiklar och bloggar berättar om de otaliga sätt på vilka data och statistik missbrukas för att ge falskt stöd till argument på områden som sträcker sig från den akademiska världen till offentlig politik. Eftersom datadriven journalistik är på frammarsch och kraven på ökad evidensbaserad ”faktagranskning” fortsätter att öka, är det värt att ta ett steg tillbaka och fråga sig hur mycket av de ”falska nyheterna” som omger oss i dag som åtminstone delvis bygger på dålig statistik.

Inte en dag går utan att en flodvåg av datadrivna memes passerar genom mitt nyhetsflöde på Facebook, seglar förbi i mitt Twitterflöde eller landar som varningar i min e-postinkorg där man citerar vad som verkar vara välrenommerade datamängder och använder dem för att erbjuda överraskande slutsatser, vanligtvis inlindade i en fascinerande infografik. Men när jag väljer någon av dessa memes slumpmässigt och fördjupar mig i den finner jag att det är en sällsynt meme som klarar en statistisk granskning.

Vissa memes som jag stöter på är lätta att avfärda som rena påhitt, där man hänvisar till obefintliga datamängder, obefintliga författare och obefintliga tidskrifter, eller där man hänvisar till riktiga (vanligtvis mycket framstående) forskare och institut på området, men som när de kontaktas säger att de aldrig hört talas om forskningen som de påstås vara upphovsmän till. Textuella memes är de vanligaste i den här kategorin, eftersom det kräver så lite ansträngning att skicka ut en tweet i stil med ”En ny Gallupundersökning visar att 80 % av amerikanerna tror att klimatförändringarna är falska”. Sådana memes kan få dem att se mer auktoritativa ut om man gör ett snabbt diagram i Excel. För sådana visuella memes räcker det ibland att högerklicka på grafen i webbläsaren Google Chrome och välja ”Search Google for image” för att hitta faktagranskningswebbplatser eller akademiska bloggar som har undersökt grafen och bekräftat att den är påhittad.

Jag har till och med sett några memes där man har tagit en legitim, ”vetenskapligt snygg” graf från en artikel inom ett område och använt den som illustration för ett påstående inom ett annat område. Alldeles nyligen såg jag en meme gå förbi i mitt Facebook-flöde som innehöll en graf av en exponentiell kurva med alla möjliga statistiska mått i bakgrunden som användes för att illustrera ett påstående om den globala uppvärmningstrenden under de senaste 50 åren. Det märkliga är att X- och Y-axlarna var bortklippta och att några av kommentarerna på grafen hade anknytning till det medicinska området. Efter att ha sökt lite kunde jag faktiskt konstatera att författaren till memen tydligen bara hade tagit en snygg exponentiell graf från en helt orelaterad medicinsk artikel (som kanske hittades via en snabb Google Scholar-sökning).

Den ökande användningen av preprints, postprints och akademisk publicering via bloggar har haft en farlig effekt på det vetenskapliga förtroendet, eftersom allmänheten har vant sig vid att se en nyhetsartikel där ett nytt vetenskapligt framsteg diskuteras och där det finns en länk till ett preprint av artikeln på fakultetsmedlemmens personliga blogg, i stället för på tidskriftens webbplats. Detta innebär att när allmänheten ser en meme som citerar en akademisk artikel som påstås ha publicerats i det senaste numret av Nature, men länken leder till en PDF-fil på en slumpmässig webbplats som utger sig för att vara en Harvardprofessors personliga blogg, kommer många läsare inte att blinka med ögonen och helt enkelt lita på att det verkligen rör sig om en förhandsutgåva av en ny Nature-artikel av en Harvardprofessor.

För att göra det hela ännu mer komplicerat innebär ökningen av rovdjursförlag och tidskrifter som inte är särskilt populära att en meme kan länka till en artikel på en webbplats med en tidskrift som ser riktigt professionell ut, med ett prestigefyllt namn och med många framstående lärare i redaktionen (som kanske inte ens är medvetna om att deras namn används). Det krävs alltså inte mycket mer än en snabb Google-sökning för att hitta en akademisk artikel som publicerats i en prestigefylld tidskrift med vilket argument som helst och som påstår sig ha de uppgifter, den statistik och de citat som stöder det argumentet rigoröst och utan att ifrågasättas. För den genomsnittliga allmänheten är ”peer review” ett okänt begrepp och en artikel som publiceras i Nature är inte mer seriös än en som publiceras i The Journal Of Prestigious And World Changing Research.

Den enskilt största bidragande faktorn till datadrivna ”falska nyheter” är dock de myriader av statistiska felsteg som så lätt drabbar till och med akademiker inom områden som inte lägger tonvikten på rigorös statistisk utbildning (även statistiskt tunga områden är dock inte immuna mot statistiska argument). Utöver de uppenbara kandidaterna som förslag om att korrelation innebär orsakssamband och felaktig användning av statistiska tekniker, är kanske en av de största orsakerna till falska nyheter i de memes jag stöter på provtagningsbias och selektiva definitioner.

Som ett exempel kan nämnas att definitioner av vad som exakt utgör en ”terrorattack” är notoriskt kontroversiella. Var något en ”masskjutning”, en ”terroristattack” eller en ”handling av psykisk sjukdom”? Jag såg nyligen en meme som hävdade att det aldrig hade förekommit någon annan terroristhandling på amerikansk mark sedan den 11 september 2001 eftersom alla efterföljande attacker i USA var resultatet av psykiskt sjuka individer, snarare än terrorism. En annan meme som jag nyligen såg hävdade att ingen amerikan hade skadats eller dödats av en utlandsfödd angripare på amerikansk mark och endast med små bokstäver i en liten fotnot fanns det ett uttalande som begränsade tidsramen för analysen så att den inte omfattade 9/11-attackerna, San Bernardino-attacken och andra fall. En nationell opinionsundersökning som jag såg under presidentvalskampanjen gjorde djärva påståenden om nationellt stöd för Clinton, men avslöjade i sin metodik att mer än 80 procent av urvalet bestod av demokrater och oberoende personer. Detta väcker den kritiska frågan – skulle vi beteckna dessa som ”falska nyheter”, som ”sakligt korrekta men vilseledande” eller som ”absolut sanna”?

Här ligger en av de stora utmaningarna i debatten om ”falska nyheter” – många av de datadrivna memes (och nyhetsartiklar) som virvlar runt är, rent tekniskt sett, sakligt korrekta utifrån det noggrant konstruerade befolkningsurval som de använder. Frågan är om något som är sakligt korrekt också kan betecknas som ”falska nyheter” när det gäller att vilseleda allmänheten, med tanke på att resultaten av även de bäst genomförda experimenten alltför snabbt skiljs från de otaliga förbehåll som mildrar dessa slutsatser. En överraskande opinionsundersökning som tydligt visar på en överväldigande provtagningsbias till förmån för demokraterna förvandlas så småningom till en rubrik utan något som helst omnämnande av partipolitisk snedfördelning. Ett påstående om att det aldrig har förekommit en terrorattack på amerikansk mark sedan den 11 september 2001 sprids i sociala medier och avlägsnar sin fotnot som förtydligar att det endast gäller en liten del av denna 15-årsperiod.

Hur hanterar vi statistiska felbedömningar i en värld där få medborgare (och till och med akademiker) har ens en grundläggande förståelse för statistik eller data? Ännu mer oroande är hur vi hanterar sakligt riktiga påståenden som använder ett så noggrant konstruerat befolkningsurval att deras argument är nästan meningslösa? De kan tekniskt sett inte flaggas som ”falska nyheter” eftersom de är sakligt korrekta, men det är också troligt att när de sprids kommer dessa fotnoter att gå förlorade. Om en faktoid delas utan sina ursprungliga anmärkningar, gör det den då falsk? Om det i en meme helt enkelt står ”Det har aldrig förekommit någon terrorattack på amerikansk mark sedan den 11 september” och fotnoterna som klargör vilka tidsperioder och vilken definition av ”terrorattack” som avses har försvunnit för länge sedan, gör det memet falskt eller är memet fortfarande sant eftersom det är sakligt korrekt enligt de specifika antaganden och den befolkningsuppbyggnad som den ursprungliga författaren använde sig av?

Detta är fascinerande frågor när vi konfronteras med dualismen mellan en enormt ökad tillgång till data och en dataanalfabet befolkning som saknar den statistiska utbildningen för att förstå hur man korrekt använder dessa data för att dra slutsatser. Till denna flyktiga blandning bidrar de sociala medierna som ser till att även den mest skeva faktoid kan extraheras från en datamängd och bli viral, och snabbt förlora kopplingen till de otaliga definitionsmässiga förbehåll som gjorde det möjligt för den att klamra sig fast vid sanningsenligheten.

Även när man använder enkla tekniker som antal över tid är frågor som datanormalisering och de unika nyanserna i uppbyggnaden av dataset särskilt förbryllande även för dem med djupgående statistisk bakgrund, vilket innebär att även erfarna datajournalister regelbundet publicerar resultat som är djupt bristfälliga och leder till ytterligare falska och vilseledande rubriker och tolkningar.

Om allt detta sammanfattas kan vi, som jag hävdade i december, inte börja bekämpa falska nyheter förrän vi fokuserar på att öka samhällets data- och informationskompetens.

Få det bästa från Forbes till din inkorg med de senaste insikterna från experter över hela världen.
Loading …

Lämna ett svar

Din e-postadress kommer inte publiceras.