Løgne, forbandede løgne og statistik: How Bad Statistics Are Feeding Fake News

Denne artikel er mere end 4 år gammel.

Leissl/Bloomberg)

Som Mark Twain populært populariserede i den offentlige bevidsthed: “Der er tre slags løgne: løgne, forbandede løgne og statistikker.” Uanset om det skyldes ond vilje, dårlig uddannelse eller simpel uvidenhed, har “dårlig statistik” en rig og historisk arv, der strækker sig lige så langt tilbage, som mennesker har talt ting. Utallige bøger, artikler og blogs beretter om de utallige måder, hvorpå data og statistikker misbruges til at give falsk støtte til argumenter på områder lige fra den akademiske verden til den offentlige politik. I takt med at den datadrevne journalistik er på vej frem, og opfordringerne til øget evidensbaseret “faktatjek” vokser, er det værd at tage et skridt tilbage og spørge, hvor meget af de “falske nyheder”, der omgiver os i dag, der i det mindste delvist er baseret på dårlige statistikker.

Der går ikke en dag, uden at en byge af datadrevne memes passerer gennem mit Facebook-nyhedsfeed, sejler forbi på min Twitter-strøm eller lander som advarsler i min e-mail-indbakke, der citerer, hvad der ser ud til at være velrenommerede datasæt og bruger dem til at tilbyde overraskende konklusioner, typisk pakket ind i en fascinerende infografik. Men når jeg vælger et af disse memes tilfældigt og dykker ned i det, finder jeg ud af, at det er et sjældent meme, der kan holde til en statistisk undersøgelse.

Nogle memes, jeg støder på, er nemme at kassere som direkte opspind, idet de citerer ikke-eksisterende datasæt, ikke-eksisterende forfattere, ikke-eksisterende tidsskrifter eller citerer rigtige (typisk meget fremtrædende) forskere og institutter på området, men som, når de kontaktes, siger, at de aldrig har hørt om den forskning, de hævdes at være ophavsmænd til. Tekstmemes er de mest almindelige i denne kategori, da det kræver så lille en indsats at sende et tweet i stil med “En ny Gallup-undersøgelse viser, at 80 % af amerikanerne mener, at klimaændringerne er falske”. Sådanne memes kan gøres mere autoritative ved at lave en hurtig graf i Excel. For sådanne visuelle memes er det nogle gange nok at højreklikke på grafen i Google Chrome-browseren og vælge “Søg på Google efter billede” for at finde faktatjekwebsteder eller akademiske blogs, der har undersøgt grafen og bekræftet, at den er opdigtet.

Jeg har endda set et par memes, der har taget en legitim “videnskabeligt udseende” graf fra en artikel inden for et område og brugt den som illustration til en påstand inden for et andet område. For nylig så jeg et meme gå forbi i mit Facebook-feed, der viste en graf af en eksponentiel kurve med alle mulige statistiske mål i baggrunden, som blev brugt til at illustrere en påstand om den globale opvarmningstendens i de sidste 50 år. Det mærkelige er, at X- og Y-akserne var afskåret, og at nogle af kommentarerne på grafen vedrørte det medicinske område. Faktisk kunne jeg efter lidt søgning finde ud af, at forfatteren af meme’et tilsyneladende bare havde taget en flot eksponentiel udseende graf fra en helt uvedkommende medicinsk artikel (måske fundet via en hurtig Google Scholar-søgning).

Den stigende udbredelse af preprints, postprints og akademiske udgivelser via blogs har haft en farlig effekt på den videnskabelige tillid, idet offentligheden er vant til at se en nyhedsartikel, der diskuterer et nyt videnskabeligt fremskridt, som linker til et preprint af artiklen på fakultetsmedlemmets personlige blog i stedet for på tidsskriftets websted. Det betyder, at når en borger ser et meme, der citerer en akademisk artikel, som angiveligt er offentliggjort i det seneste nummer af Nature, men hvor linket fører til en PDF-fil på et tilfældigt websted, der udgiver sig for at være en Harvard-professors personlige blog, vil mange læsere ikke blinke med øjnene og blot stole på, at artiklen virkelig er et fortryk af en ny Nature-artikel af en Harvard-professor.

For at gøre det endnu mere uklart betyder fremkomsten af rovdriftsudgivere og flyvende tidsskrifter, at et meme kan linke til en artikel på et websted med et faktisk professionelt udseende tidsskrift med et prestigefyldt navn og med mange fremtrædende fakulteter i redaktionen (som måske ikke engang er klar over, at deres navne bliver brugt). Peer review-standarderne er ofte stort set ikke-eksisterende i sådanne tidsskrifter, hvilket betyder, at næsten alle indlæg accepteres.

Det kræver således ikke meget mere end en hurtig Google-søgning i disse dage at finde en akademisk artikel offentliggjort i et prestigefyldt klingende tidsskrift, der fremfører et hvilket som helst argument, som man ønsker, og som hævder at have data, statistikker og citater til at understøtte dette argument stringent og uden spørgsmålstegn. For den almindelige borger er “peer review” et ukendt begreb, og en artikel offentliggjort i Nature er ikke mere velrenommeret end en artikel offentliggjort i The Journal Of Prestigious And World Changing Research.

Den største enkeltstående bidragsyder til datadrevne “fake news” er imidlertid de utallige statistiske fejlslutninger, som så let rammer selv akademikere på områder, der ikke lægger vægt på streng statistisk uddannelse (selv om selv statistik-tunge områder ikke er immune over for statistiske argumenter). Ud over de indlysende kandidater som f.eks. antydninger af korrelation, der antyder årsagssammenhæng, og forkert brug af statistiske teknikker, er måske en af de største katalysatorer af falske nyheder i de memer, jeg støder på, stikprøveforvridning og selektive definitioner.

Som et eksempel herpå er definitioner af, hvad der præcist udgør et “terrorangreb”, notorisk kontroversielle. Var noget et “masseskyderi”, et “terrorangreb” eller en “handling af psykisk sygdom”? Jeg så for nylig et meme, der hævdede, at der aldrig havde været en ny terrorhandling på amerikansk jord siden 9/11, fordi alle efterfølgende angreb i USA var resultatet af psykisk syge personer, snarere end terrorisme. Et andet meme, jeg så for nylig, hævdede, at ingen amerikaner var blevet såret eller dræbt af en udenlandskfødt angriber på amerikansk jord, og kun med småt i en lille fodnote var der en erklæring, der begrænsede tidsrammen for analysen, så den ikke omfattede angrebene den 11. september 2001, angrebet i San Bernardino og andre tilfælde. En national meningsmåling, som jeg så i løbet af præsidentvalgkampen, fremsatte dristige påstande om national støtte til Clinton, men afslørede i sin metodologi, at mere end 80 % af stikprøven var demokrater og uafhængige personer. Dette rejser det kritiske spørgsmål – ville vi betegne disse som “falske nyheder”, som “faktuelt korrekte, men vildledende” eller som “absolut sande”?”

Deri ligger en af de store udfordringer i debatten om “falske nyheder” – mange af de datadrevne memes (og nyhedsartikler), der svirrer rundt, er rent teknisk set faktuelt korrekte baseret på den omhyggeligt konstruerede befolkningsudvælgelse, de anvender. Spørgsmålet er, om noget, der er faktuelt korrekt, også kan betegnes som “fake news”, når det drejer sig om at vildlede offentligheden, eftersom resultaterne af selv de bedst gennemførte eksperimenter alt for hurtigt adskilles fra de utallige forbehold, der dæmper disse konklusioner. En overraskende meningsmåling, der klart viser en overvældende skævhed i stikprøveudtagningen til fordel for demokraterne, bliver til sidst omdannet til en overskrift uden nogen som helst omtale af partiskævhed. En påstand om, at der aldrig har været et terrorangreb på amerikansk jord siden 11. september spredes gennem de sociale medier og mister sin fodnote, der præciserer, at den kun henviser til en lille del af denne 15-årige periode.

Hvordan håndterer vi statistiske fejlslutninger i en verden, hvor kun få borgere (og selv akademikere) har selv en grundlæggende forståelse af statistik eller data? Endnu mere foruroligende er det, hvordan håndterer vi faktuelt sande udsagn, der anvender en så omhyggeligt konstrueret befolkningsudvælgelse, at deres argument næsten er meningsløst? De kan teknisk set ikke markeres som “fake news”, da de er faktuelt korrekte, men det er også sandsynligt, at disse fodnoter vil gå tabt, efterhånden som de spredes. Hvis en faktoid deles uden dens oprindelige forbehold, gør det den så falsk? Hvis der i et meme blot står “Der har aldrig været et terrorangreb på amerikansk jord siden 9/11”, og fodnoterne, der præciserer de tidsperioder og den definition af “terrorangreb”, som det henviser til, for længst er gået tabt, gør det så memet falsk, eller er memet stadig sandt, da det er faktuelt korrekt under de specifikke forudsætninger og den befolkningskonstruktion, som den oprindelige forfatter har anvendt?

Dette er fascinerende spørgsmål, da vi konfronteres med dualiteten mellem en voldsomt øget adgang til data og en dataanalfabet befolkning, der mangler den statistiske uddannelse til at forstå, hvordan man korrekt bruger disse data til at drage konklusioner. For at føje til denne flygtige blanding sikrer de sociale medier, at selv den mest skæve faktoid kan udtrækkes fra et datasæt og gå viralt og hurtigt miste forbindelsen til de utallige definitionsmæssige forbehold, der gjorde det muligt for den at klamre sig til sandheden.

Selv ved brug af simple teknikker som tællinger over tid er spørgsmål som datanormalisering og de unikke nuancer ved opbygning af datasæt særligt forvirrende, selv for dem med dyb statistisk baggrund, hvilket betyder, at selv erfarne datajournalister regelmæssigt offentliggør resultater, der er dybt fejlbehæftede og fører til yderligere falske og vildledende overskrifter og fortolkninger.

Samlet set kan vi, som jeg argumenterede for i december, ikke begynde at bekæmpe falske nyheder, før vi fokuserer på at øge samfundets data- og informationskompetence.

Få det bedste fra Forbes i din indbakke med de seneste indsigter fra eksperter over hele verden.
Loader …

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.