Valheet, kirotut valheet ja tilastot: How Bad Statistics Are Feeding Fake News

Tämä artikkeli on yli 4 vuotta vanha.

Leissl/Bloomberg)

Kuten Mark Twain tunnetusti popularisoi yleisessä tietoisuudessa: ”On olemassa kolmenlaisia valheita: valheita, kirottuja valheita ja tilastoja”. Olipa kyse sitten ilkeydestä, huonosta koulutuksesta tai yksinkertaisesta tietämättömyydestä, ”huonoilla tilastoilla” on rikas ja historiallinen perintö, joka ulottuu niin kauan kuin ihmiset ovat laskeneet asioita. Lukemattomat kirjat, artikkelit ja blogit kertovat lukemattomista tavoista, joilla tietoja ja tilastoja käytetään väärin vääränlaisen tuen antamiseksi väitteille akateemisesta maailmasta julkiseen politiikkaan. Koska tietoon perustuva journalismi on yleistymässä ja vaatimukset näyttöön perustuvan ”faktojen tarkistamisen” lisäämisestä lisääntyvät, on syytä pohtia, kuinka suuri osa meitä nykyään ympäröivistä ”valeuutisista” perustuu ainakin osittain huonoihin tilastoihin.

Ei kulu päivääkään ilman, että Facebookin uutisvirrassa, Twitterissä tai sähköpostilaatikkooni saapuu hälytyksiä, joissa siteerataan näennäisesti hyvämaineisia tietokokonaisuuksia ja käytetään niitä yllättävien johtopäätösten tekemiseen, tyypillisesti kiehtovaan infografiikkaan käärittynä. Kun kuitenkin valitsen minkä tahansa näistä meemeistä sattumanvaraisesti ja syvennyn siihen, huomaan, että se on todella harvinainen meemi, joka kestää tilastollisen tarkastelun.

Jotkut meemeistä, joihin törmään, on helppo hylätä suoranaisina keksintöinä, joissa viitataan olemattomiin tietokokonaisuuksiin, olemattomiin kirjoittajiin, olemattomiin lehtiin tai joissa viitataan todellisiin (tyypillisesti hyvin nimekkäisiin) alan tutkijoihin ja instituutteihin, jotka kuitenkin sanovat, että kun heihin otetaan yhteyttä, he sanovat, että he eivät ole koskaan kuullutkaan tutkimuksesta, jonka kirjoittajiksi heitä on väitetty. Tekstimuotoiset meemit ovat tässä kategoriassa yleisimpiä, koska vaatii vain vähän vaivaa lähettää twiitti tyyliin ”Gallupin tuoreen kyselyn mukaan 80 prosenttia amerikkalaisista uskoo, että ilmastonmuutos on väärä”. Tällaiset meemit voidaan saada näyttämään arvovaltaisemmilta laatimalla nopea kaavio Excelissä. Joskus tällaisten visuaalisten meemien kohdalla riittää, että napsauttaa Google Chrome -selaimessa hiiren oikealla painikkeella kuvaajaa ja valitsee ”Etsi Googlesta kuvaa”, jolloin löytyy faktantarkistussivustoja tai akateemisia blogeja, jotka ovat tutkineet kuvaajaa ja vahvistaneet sen väärennökseksi.

Olen nähnyt jopa muutamia meemejä, jotka ovat ottaneet legitiimin ”tieteelliseltä” näyttävän kuvaajan jostain yhden alan julkaisusta ja käyttäneet sitä havainnollistavana esimerkkinä väitteelle, joka on esitetty jollakin toisella alalla. Juuri äskettäin näin Facebook-feedissäni meemin, jossa oli eksponentiaalikäyrän kuvaaja, jonka taustalla oli kaikenlaisia tilastollisia mittareita ja jota käytettiin havainnollistamaan väitettä ilmaston lämpenemissuuntauksista viimeisten 50 vuoden aikana. Outoa oli se, että X- ja Y-akselit oli leikattu pois, ja osa kuvaajan merkinnöistä liittyi lääketieteen alaan. Itse asiassa pienen etsimisen jälkeen sain selville, että meemin kirjoittaja oli ilmeisesti vain napannut mukavan eksponentiaalin näköisen kuvaajan täysin lääketieteeseen liittymättömästä artikkelista (joka oli ehkä löydetty nopealla Google Scholar -haulla).

Esi- ja jälkijulkaisujen sekä akateemisen julkaisutoiminnan yleistyminen blogien kautta on vaikuttanut vaarallisesti tieteelliseen luottamukseen, sillä yleisö on tottunut näkemään uutisartikkelin, jossa keskustellaan tieteellisestä edistysaskeleesta, joka on linkitetty artikkelin esijulkaisuun tiedekunnan jäsenen henkilökohtaisessa blogissa lehden verkkosivujen sijasta. Tämä tarkoittaa sitä, että kun yleisö näkee meemin, jossa siteerataan akateemista artikkelia, joka oletettavasti on julkaistu Nature-lehden viimeisimmässä numerossa, mutta linkki johtaa PDF-tiedostoon satunnaisella verkkosivustolla, joka väittää olevansa Harvardin professorin henkilökohtainen blogi, monet lukijat eivät räpäytä silmiään ja luottavat siihen, että kyseessä on todella Harvardin professorin Nature-artikkelin esipainos.

Veden sotkemiseksi entisestään, saalistuskustantajien ja fly-by-night-lehtien yleistyminen tarkoittaa sitä, että meemi voi linkittää artikkeliin, joka on todellisella ammattimaisen näköisellä lehden verkkosivustolla, jolla on arvovaltaiselta kuulostava nimi ja jossa luetellaan monia nimekkäitä tiedekunnan jäseniä toimituskunnassa (jotka eivät ehkä edes tiedä, että heidän nimiään käytetään). Vertaisarviointistandardit ovat usein olemattomat tällaisissa lehdissä, mikä tarkoittaa, että lähes mikä tahansa julkaisu hyväksytään.

Tänä päivänä ei siis tarvita kuin nopea Google-haku löytää arvostetulta kuulostavassa lehdessä julkaistu akateeminen julkaisu, jossa esitetään mikä tahansa haluamasi väite ja jossa väitetään, että sillä on tietoja, tilastoja ja lainauksia, jotka tukevat kyseistä väitettä tiukasti ja kyseenalaistamatta. Tavalliselle kansalaiselle ”vertaisarviointi” on tuntematon käsite, eikä Nature-lehdessä julkaistu artikkeli ole yhtään sen arvostetumpi kuin The Journal Of Prestigious And World Changing Research -lehdessä julkaistu.

Lisäksi suurin yksittäinen tekijä dataan perustuville ”valeuutisille” ovat lukemattomat tilastolliset harhaluulot, jotka niin helposti lankeavat jopa akateemisten tutkijoiden niskoille sellaisilla aloilla, joilla ei painoteta tiukkoja tilastollisia oppejaan (vaikkakaan tilastopainotteiset alatkaan eivät ole tilastollisille väitteille immuuneja). Ilmeisten ehdokkaiden, kuten kausaalisuutta implikoivan korrelaation ja tilastollisten tekniikoiden epäasianmukaisen käytön, lisäksi ehkä yksi suurimmista valeuutisten aiheuttajista niissä meemeissä, joihin törmään, on otantaharha ja valikoivat määritelmät.

Yksi esimerkki: määritelmät siitä, mikä tarkalleen ottaen on ”terrori-isku”, ovat tunnetusti kiistanalaisia. Oliko jokin ”joukkoampuminen”, ”terrori-isku” vai ”mielisairauden aiheuttama teko”? Näin hiljattain erään meemin, jossa väitettiin, ettei Yhdysvaltain maaperällä ole enää koskaan tapahtunut terroritekoa 9/11:n jälkeen, koska kaikki myöhemmät Yhdysvaltain iskut ovat olleet mielisairaiden yksilöiden eikä terrorismin seurausta. Toisessa hiljattain näkemässäni meemissä väitettiin, ettei yksikään amerikkalainen ole loukkaantunut tai kuollut ulkomaalaissyntyisen hyökkääjän toimesta Yhdysvaltojen maaperällä, ja vain pienellä painettuun alaviitteeseen oli merkitty, että analyysin aikaväliä oli rajoitettu siten, että siihen eivät sisältyneet syyskuun 11. päivän terrori-iskut, San Bernardinon terrori-isku ja muut tapaukset. Eräässä presidentinvaalikampanjan aikana näkemässäni valtakunnallisessa mielipidekyselyssä esitettiin rohkeita väitteitä Clintonin saamasta kansallisesta kannatuksesta, mutta sen metodologia paljasti, että yli 80 prosenttia otoksesta oli demokraatteja ja sitoutumattomia. Tämä herättää kriittisen kysymyksen – nimitämmekö nämä ”valeuutisiksi”, ”asiallisesti oikeiksi mutta harhaanjohtaviksi” vai ”täysin oikeiksi”?”

Tässä piilee yksi ”valeuutiskeskustelun” suurista haasteista – monet tietoon perustuvista meemeistä (ja uutisartikkeleista), jotka pyörivät ympärillä, ovat puhtaasti teknisten ansioidensa puolesta asiallisesti oikeita niiden käyttämän huolella rakennetun väestöotoksen perusteella. Kysymys kuuluukin, voidaanko jotakin, joka on asiallisesti tarkka, myös leimata ”valeuutiseksi”, kun kyse on yleisön harhaanjohtamisesta, sillä parhaidenkin kokeiden tulokset erotetaan liian nopeasti lukemattomista varoituksista, jotka lieventävät näitä päätelmiä. Yllättävä mielipidetutkimus, joka osoittaa selvästi, että otanta on ylivoimaisesti vinoutunut demokraattien suuntaan, muuttuu lopulta otsikoksi, jossa ei mainita lainkaan puoluepoliittista vinoutumaa. Väite, jonka mukaan Yhdysvaltojen maaperällä ei ole koskaan tehty terrori-iskua syyskuun 11. päivän jälkeen, leviää sosiaalisessa mediassa ja poistuu alaviitteestä, jossa selvitetään, että se koskee vain pientä osaa tuosta 15 vuoden ajanjaksosta.

Miten käsittelemme tilastollisia harhaluuloja maailmassa, jossa harvalla kansalaisella (ja jopa akateemisella tiedemiehellä) on edes peruskäsitystä tilastoista tai datasta? Vielä huolestuttavampaa on, miten käsittelemme asiallisesti oikeita väitteitä, joissa käytetään niin huolellisesti rakennettua väestöotosta, että niiden väite on lähes merkityksetön? Niitä ei voida teknisesti merkitä ”valeuutisiksi”, koska ne ovat asiallisesti oikeita, mutta on myös todennäköistä, että niiden levitessä nämä alaviitteet katoavat. Jos faktatieto jaetaan ilman sen alkuperäisiä varoituksia, tekeekö se siitä sitten väärän? Jos meemissä todetaan yksinkertaisesti, että ”Yhdysvaltojen maaperällä ei ole koskaan tehty terrori-iskua syyskuun 11. päivän jälkeen”, ja alaviitteet, joissa selvitetään ajanjaksot ja ”terrori-iskun” määritelmä, johon viitataan, ovat jo kauan sitten kadonneet, tekeekö se meemistä valheellisen, vai onko meemi silti totta, koska se on asiallisesti oikea alkuperäisen kirjoittajan käyttämien oletusten ja väestörakenteen perusteella?

Nämä ovat kiehtovia kysymyksiä, kun joudumme kohtaamaan kaksinaisuuden, joka muodostuu siitä, että tietojen saatavuus on lisääntynyt valtavasti ja että väestö, joka ei osaa käyttää tietoja, ei ole saanut tilastollista koulutusta ymmärtääkseen, miten tietoja käytetään asianmukaisesti johtopäätösten tekemiseen. Sosiaalinen media lisää tähän epävakaaseen yhdistelmään vielä sen, että jopa kaikkein vinoutunein faktatieto voidaan poimia tietokokonaisuudesta ja levittää, jolloin se menettää nopeasti yhteyden niihin lukemattomiin määritelmävaroituksiin, joiden avulla se pystyi pitämään kiinni totuudenmukaisuudestaan.

Jopa silloin, kun käytetään yksinkertaisia tekniikoita, kuten laskentaa ajan kuluessa, tietojen normalisoinnin kaltaiset kysymykset ja tietokokonaisuuksien rakentamisen ainutlaatuiset vivahteet ovat erityisen hämmentäviä jopa niille, joilla on syvä tilastollinen tausta, mikä tarkoittaa, että jopa kokeneet datajournalistit julkaisevat säännöllisesti havaintoja, jotka ovat syvästi virheellisiä ja johtavat edelleen vääriin ja harhaanjohtaviin otsikoihin ja tulkintoihin.

Kuten joulukuussa totesin, emme voi aloittaa valeuutisten torjuntaa, ennen kuin keskitymme lisäämään yhteiskunnan data- ja informaatiolukutaitoa.

Saat Forbesin parhaat uutiset postilaatikkoosi, jossa on viimeisimpiä näkemyksiä asiantuntijoilta eri puolilta maailmaa.

Lataus …

Vastaa Peruuta vastaus