Hazugságok, átkozott hazugságok és statisztikák:

Ez a cikk több mint 4 éves.

Leissl/Bloomberg)

Amint azt Mark Twain híressé tette a köztudatban: “Háromféle hazugság van: hazugság, átkozott hazugság és statisztika”. Akár rosszindulatból, rossz képzésből vagy egyszerű tudatlanságból ered, a “rossz statisztikáknak” gazdag és mesés öröksége van, amely visszanyúlik, amióta az emberek számolnak dolgokat. Számtalan könyv, tanulmány és blog krónikázza azt a számtalan módot, ahogyan az adatokkal és statisztikákkal visszaélnek, hogy hamis érveket támasszanak alá a tudományos világtól a közpolitikáig terjedő területeken. Mivel az adatvezérelt újságírás egyre nagyobb teret hódít, és egyre többen követelik a tényeken alapuló “tényellenőrzést”, érdemes hátralépni, és megkérdezni, hogy a minket ma körülvevő “álhírek” mekkora része alapul legalább részben rossz statisztikákon.

Nem múlik el nap anélkül, hogy a Facebook-hírfolyamomban ne futnának át az adatvezérelt mémek, ne vitorláznának el a Twitter-áramban, vagy ne landolnának figyelmeztetésként az e-mail postaládámban, amelyek megbízhatónak tűnő adathalmazokat idéznek, és azokat felhasználva meglepő következtetéseket vonnak le, jellemzően egy lenyűgöző infografikába csomagolva. Mégis, amikor véletlenszerűen kiválasztom bármelyik mém közül, és elmélyedek benne, azt tapasztalom, hogy valóban az a ritka mém az, amelyik kiállja a statisztikai vizsgálatot.

Egyes mémek, amelyekkel találkozom, könnyen elvethetők, mint egyenesen kitalációk, amelyek nem létező adathalmazokra, nem létező szerzőkre, nem létező folyóiratokra hivatkoznak, vagy valódi (általában nagyon prominens) kutatókat és intézeteket idéznek a területen, akik azonban a megkeresésemre azt mondják, hogy soha nem hallottak a kutatásról, amelynek állítólag ők a szerzői. A szöveges mémek a leggyakoribbak ebben a kategóriában, mivel olyan kevés erőfeszítést igényel egy olyan tweet elküldése, mint például “Egy friss Gallup-felmérés szerint az amerikaiak 80%-a úgy véli, hogy az éghajlatváltozás hamis”. Az ilyen mémek tekintélyesebbnek tűnhetnek, ha egy gyors grafikont készítenek az Excelben. Az ilyen vizuális mémek esetében néha elég a Google Chrome böngészőben a jobb gombbal a grafikonra kattintani, és a “Keresés a Google-ban a képhez” opciót választani, és máris megjelennek a tényellenőrző oldalak vagy tudományos blogok, amelyek utánanéztek a grafikonnak, és megerősítették, hogy az hamisítvány.

Még olyan mémeket is láttam, amelyek egy törvényes, “tudományosnak tűnő” grafikont vettek egy adott területről szóló tanulmányból, és egy másik területről származó állítás illusztrációjaként használták. Nemrégiben láttam egy mém menni a Facebook csatornámban, amely egy exponenciális görbét ábrázoló grafikont tartalmazott mindenféle statisztikai mérőszámokkal a háttérben, amelyet egy, az elmúlt 50 év globális felmelegedési tendenciáira vonatkozó állítás illusztrálására használtak. A furcsa az volt, hogy az X és Y tengelyek le voltak vágva, és a grafikonon lévő megjegyzések egy része az orvosi területre vonatkozott. Valójában némi keresgélés után sikerült kiderítenem, hogy a mém szerzője nyilvánvalóan csak egy szép exponenciálisnak tűnő grafikont ragadott ki egy teljesen független orvosi cikkből (amelyet talán egy gyors Google Scholar kereséssel talált meg).

A preprintek, postprintek és a blogokon keresztül történő tudományos publikálás elterjedése veszélyes hatással volt a tudományos bizalomra, mivel a nagyközönség hozzászokott ahhoz, hogy egy új tudományos előrelépést tárgyaló hírcikket a cikk preprintjére hivatkozva az oktató személyes blogján, nem pedig a folyóirat weboldalán láthat. Ez azt jelenti, hogy amikor a nagyközönség egy olyan mémre bukkan, amely egy állítólag a Nature legújabb számában megjelent tudományos cikkre hivatkozik, de a link egy véletlenszerű weboldalon található PDF-hez vezet, amely egy harvardi professzor személyes blogjának adja ki magát, sok olvasó szemrebbenés nélkül bízik abban, hogy a cikk valóban egy harvardi professzor új Nature-cikkének előnyomtatványa.

Még jobban összezavarja a helyzetet, hogy a ragadozó kiadók és a röpködő folyóiratok térhódítása azt jelenti, hogy egy mém egy valódi, professzionálisnak tűnő, tekintélyesnek hangzó nevű folyóirat weboldalán található tanulmányra is hivatkozhat, amelynek szerkesztőbizottságában számos neves oktató szerepel (akik talán nem is tudják, hogy a nevüket használják). Az ilyen folyóiratoknál gyakran lényegében nem léteznek a szakértői értékelés normái, ami azt jelenti, hogy szinte bármilyen beadványt elfogadnak.

Egy gyors Google-keresésnél manapság tehát nem kell több ahhoz, hogy megtaláljunk egy tekintélyesnek tűnő folyóiratban megjelent tudományos dolgozatot, amely bármilyen érvet felhoz, és azt állítja, hogy rendelkezik az adatokkal, statisztikákkal és hivatkozásokkal, amelyek szigorúan és megkérdőjelezhetetlenül alátámasztják ezt az érvet. Az átlagközönség számára a “szakértői értékelés” ismeretlen fogalom, és egy Nature-ben megjelent tanulmány semmivel sem tekintélyesebb, mint a The Journal Of Prestigious And World Changing Research-ben megjelent.

Az adatvezérelt “álhírek” legnagyobb egyedi tényezője azonban a számtalan statisztikai tévedés, amelyek még a szigorú statisztikai képzést nem hangsúlyozó területeken dolgozó tudósokat is olyan könnyen érik (bár még a statisztikával foglalkozó területek sem immunisak a statisztikai érvekre). A nyilvánvaló jelölteken túl, mint például az ok-okozati összefüggést feltételező korreláció és a statisztikai technikák helytelen használata, az általam ismert mémekben az álhírek talán egyik legnagyobb elősegítője a mintavételi torzítás és a szelektív definíciók.

Ez csak egy példa: annak meghatározása, hogy pontosan mi számít “terrortámadásnak”, közismerten ellentmondásos. Valami “tömeges lövöldözés”, “terrortámadás” vagy “elmebetegségből fakadó cselekmény” volt? Nemrég láttam egy olyan mement, amely azt állította, hogy 9/11 óta nem volt több terrorcselekmény az USA területén, mert az összes későbbi amerikai támadás nem terrorizmus, hanem elmebetegek következménye volt. Egy másik mém, amelyet nemrég láttam, azt állította, hogy egyetlen amerikait sem sebesített meg vagy ölt meg külföldi születésű támadó az USA területén, és csak apró betűkkel, egy kis lábjegyzetben volt egy nyilatkozat, amely az elemzés időkeretét úgy korlátozta, hogy ne tartalmazza a 9/11-es támadásokat, a San Bernardino-i támadást és más eseteket. Az egyik országos felmérés, amelyet az elnökválasztási kampány idején láttam, merész állításokat tett Clinton országos támogatottságáról, de módszertanában feltárta, hogy a minta több mint 80%-a demokrata és független volt. Ez felveti a kritikus kérdést – ezeket “álhírnek”, “tényszerűen pontosnak, de félrevezetőnek” vagy “teljesen igaznak” neveznénk?”

Ez a “fake news” vita egyik nagy kihívása – sok adatvezérelt mém (és hírcikk), amely körül kavarog, pusztán technikai szempontból tényszerűen pontos az általuk használt, gondosan felépített lakossági minta alapján. A kérdés az, hogy valami, ami tényszerűen pontos, “álhírnek” is nevezhető-e, amikor a nyilvánosság félrevezetéséről van szó, tekintve, hogy még a legjobban lefuttatott kísérletek eredményei is túl gyorsan elválnak a számtalan fenntartástól, amelyek ezeket a következtetéseket mérséklik. Egy meglepő közvélemény-kutatás, amely egyértelműen a demokraták felé irányuló elsöprő mintavételi torzítást jelez, végül olyan szalagcímmé alakul át, amelyben nincs szó a pártpolitikai ferdeségről. Egy állítás, miszerint 9/11 óta soha nem történt terrortámadás az Egyesült Államok területén, elterjed a közösségi médiában, majd lekerül róla a lábjegyzet, amely tisztázza, hogy a 15 éves időszaknak csak egy kis részére vonatkozik.

Hogyan kezeljük a statisztikai tévedéseket egy olyan világban, amelyben kevés polgár (és még az akadémikusok is) rendelkezik alapvető ismeretekkel a statisztikáról vagy az adatokról? Még aggasztóbb, hogyan kezeljük azokat a tényszerűen igaz állításokat, amelyek olyan gondosan felépített lakossági mintát használnak fel, hogy az érvük szinte értelmetlen? Technikailag nem lehet őket “álhírként” megjelölni, mivel tényszerűen helytállóak, de az is valószínű, hogy terjedésükkel ezek a lábjegyzetek elvesznek. Ha egy tényállást az eredeti fenntartások nélkül osztanak meg, akkor az hamisnak minősül? Ha egy mém egyszerűen azt állítja, hogy “9/11 óta soha nem történt terrortámadás az USA területén”, és a lábjegyzetek, amelyek tisztázzák a hivatkozott időszakokat és a “terrortámadás” definícióját, már rég elveszett, akkor ettől hamis lesz a mém, vagy a mém még mindig igaz, mivel tényszerűen helyes az eredeti szerzője által használt konkrét feltételezések és népességkonstrukció alapján?

Ezek izgalmas kérdések, mivel szembesülünk azzal a kettősséggel, hogy az adatokhoz való hozzáférés jelentősen megnövekedett, és az adatokhoz nem értő lakosság nem rendelkezik a statisztikai képzéssel ahhoz, hogy megértse, hogyan kell megfelelően felhasználni ezeket az adatokat a következtetések levonásához. Ezt a változékony keveréket tetézi, hogy a közösségi média biztosítja, hogy még a legferdébb tényadat is kivonható egy adathalmazból, és vírusként terjedhet, gyorsan elveszítve a kapcsolatot a számtalan definíciós kikötéssel, amelyek lehetővé tették, hogy ragaszkodjon az igazságtartalomhoz.

Még olyan egyszerű technikák alkalmazásakor is, mint az időbeli számlálások, az olyan kérdések, mint az adatok normalizálása és az adatkészlet felépítésének egyedi árnyalatai különösen zavaróak még a mély statisztikai háttérrel rendelkezők számára is, ami azt jelenti, hogy még a tapasztalt adatújságírók is rendszeresen közzétesznek olyan megállapításokat, amelyek mélyen hibásak, és további hamis és félrevezető címekhez és értelmezésekhez vezetnek.

Ezzel együtt, ahogyan azt decemberben kifejtettem, nem kezdhetünk hozzá az álhírek elleni küzdelemhez, amíg nem összpontosítunk a társadalom adat- és információs műveltségének növelésére.

Kapja meg a Forbes legjobb híreit a postaládájába a világ minden tájáról érkező szakértők legfrissebb meglátásaival.
Betöltés …

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.