Lži, zatracené lži a statistika:

Tento článek je více než 4 roky starý.

Leissl/Bloomberg)

Jak slavně zpopularizoval v povědomí veřejnosti Mark Twain: „Existují tři druhy lží: lži, zatracené lži a statistiky“. Ať už ze zlého úmyslu, špatné přípravy nebo prosté neznalosti, „špatná statistika“ má bohaté a historické dědictví, které se táhne tak dlouho, jak dlouho lidé počítají věci. Nespočet knih, článků a blogů popisuje nesčetné způsoby, jakými jsou data a statistiky zneužívány k poskytování falešné podpory argumentům v různých oblastech, od akademického světa až po veřejnou politiku. Vzhledem k tomu, že novinářská práce založená na datech je na vzestupu a stále sílí výzvy k většímu ověřování faktů na základě důkazů, stojí za to se zastavit a položit si otázku, jak velká část „falešných zpráv“, které nás dnes obklopují, je alespoň zčásti založena na špatných statistikách.

Neuplyne den, aby mým zpravodajským kanálem na Facebooku neproběhl příval memoárů založených na datech, které proplouvají mým proudem na Twitteru nebo přistávají jako upozornění v mé e-mailové schránce a citují zdánlivě seriózní datové soubory a na jejich základě nabízejí překvapivé závěry, obvykle zabalené do fascinující infografiky. Přesto, když si některý z těchto memů náhodně vyberu a ponořím se do něj, zjistím, že je to skutečně vzácný mem, který obstojí při statistickém zkoumání.

Některé memy, na které narazím, je snadné zavrhnout jako naprosté výmysly, které citují neexistující datové soubory, neexistující autory, neexistující časopisy nebo citují skutečné (obvykle velmi významné) výzkumníky a ústavy v oboru, kteří však po kontaktování tvrdí, že o výzkumu, jehož jsou údajně autory, nikdy neslyšeli. V této kategorii se nejčastěji vyskytují textové memy, protože rozeslání tweetu ve stylu „Nedávný průzkum Gallupova ústavu uvádí, že 80 % Američanů věří, že změna klimatu je falešná“ nevyžaduje velké úsilí. Takové memy mohou vypadat autoritativněji, když v Excelu vytvoříte rychlý graf. U takových vizuálních memů někdy stačí kliknout pravým tlačítkem myši na graf v prohlížeči Google Chrome a zvolit „Hledat obrázek na Googlu“, čímž se objeví weby ověřující fakta nebo akademické blogy, které graf prozkoumaly a potvrdily, že jde o výmysl.

Viděl jsem dokonce několik memů, které vzaly legitimní „vědecky vypadající“ graf z článku v jedné oblasti a použily ho jako ilustraci pro tvrzení v jiné oblasti. Zrovna nedávno jsem na svém Facebooku viděl mem, který obsahoval graf exponenciální křivky s nejrůznějšími statistickými mírami v pozadí, který byl použit jako ilustrace tvrzení o trendech globálního oteplování za posledních 50 let. Zvláštní na tom bylo, že osy X a Y byly odříznuté a některé anotace na grafu se týkaly lékařství. Ve skutečnosti se mi po chvíli pátrání podařilo zjistit, že autor memu zřejmě jen převzal pěkně exponenciálně vypadající graf z naprosto nesouvisejícího lékařského článku (možná nalezeného pomocí rychlého vyhledávání na Google Scholar).

Vzestup preprintů, postprintů a akademického publikování prostřednictvím blogů měl nebezpečný vliv na důvěru ve vědu, protože si široká veřejnost zvykla vidět novinový článek pojednávající o novém vědeckém pokroku, který odkazuje na preprint článku na osobním blogu člena fakulty, a nikoli na webové stránky časopisu. To znamená, že když veřejnost uvidí mem, který cituje vědecký článek údajně publikovaný v posledním čísle časopisu Nature, ale odkaz vede na PDF na náhodné webové stránce, která se vydává za osobní blog harvardského profesora, mnoho čtenářů ani nemrkne okem a jednoduše uvěří, že článek je skutečně preprintem nového článku harvardského profesora v časopise Nature.

Ještě více kalí vodu fakt, že vzestup dravých vydavatelů a létajících časopisů znamená, že meme může odkazovat na článek na skutečně profesionálně vypadající webové stránce časopisu s prestižně znějícím názvem a s uvedením mnoha významných profesorů v redakční radě (kteří si ani nemusí být vědomi, že jejich jména jsou použita). Standardy recenzního řízení v takových časopisech často v podstatě neexistují, což znamená, že je přijat téměř jakýkoli příspěvek.

V dnešní době tedy stačí jen rychlé vyhledávání na Googlu, abyste našli vědecký článek publikovaný v prestižně znějícím časopise, který předkládá jakýkoli argument a tvrdí, že má data, statistiky a citace, které tento argument důsledně a bez pochybností podporují. Pro běžného člena veřejnosti je „peer review“ neznámým pojmem a článek publikovaný v časopise Nature není o nic serióznější než článek publikovaný v časopise The Journal Of Prestigious And World Changing Research.

Největší podíl na „falešných zprávách“ založených na datech však mají nesčetné statistické omyly, které tak snadno postihnou i akademiky v oborech, které nekladou důraz na přísné statistické vzdělání (i když ani obory s velkým podílem statistiky nejsou vůči statistickým argumentům imunní). Kromě zjevných kandidátů, jako jsou náznaky korelace implikující příčinnou souvislost a nesprávné používání statistických technik, je možná jedním z největších podporovatelů falešných zpráv v memech, s nimiž se setkávám, zkreslení výběru vzorků a selektivní definice.

Jako jeden z příkladů lze uvést, že definice toho, co přesně představuje „teroristický útok“, jsou notoricky kontroverzní. Bylo něco „masovou střelbou“, „teroristickým útokem“ nebo „aktem duševní choroby“? Nedávno jsem viděl jeden mem, který tvrdil, že od 11. září už nikdy nedošlo k žádnému teroristickému činu na území USA, protože všechny následující útoky v USA byly spíše důsledkem duševně nemocných jedinců než terorismu. Jiný meme, který jsem nedávno viděl, tvrdil, že žádný Američan nebyl na území USA zraněn nebo zabit útočníkem narozeným v zahraničí, a pouze drobným písmem v malé poznámce pod čarou bylo uvedeno omezení časového rámce analýzy tak, aby nezahrnovala útoky z 11. září, útok v San Bernardinu a další případy. Jeden celostátní průzkum veřejného mínění, který jsem viděl v období prezidentské kampaně, odvážně tvrdil o celostátní podpoře Clintonové, ale ve své metodice odhalil, že více než 80 % jeho vzorku tvořili demokraté a nezávislí. To vyvolává zásadní otázku – označili bychom je za „falešné zprávy“, za „fakticky přesné, ale zavádějící“, nebo za „naprosto pravdivé“?“

V tom spočívá jeden z velkých problémů debaty o „falešných zprávách“ – mnohé z memech (a zpravodajských článcích), které kolují na základě dat, jsou z čistě technického hlediska fakticky přesné na základě pečlivě sestaveného vzorku populace, který používají. Otázkou je, zda něco, co je fakticky přesné, lze také označit za „fake news“, pokud jde o klamání veřejnosti, vzhledem k tomu, že výsledky i těch nejlépe provedených experimentů jsou až příliš rychle odděleny od nesčetných výhrad, které tyto závěry zmírňují. Překvapivý průzkum veřejného mínění, který jasně ukazuje na převažující příklon k demokratům, se nakonec promění v titulek, v němž není o stranickém vychýlení ani zmínka. Tvrzení, že od 11. září 2001 nedošlo na území USA k žádnému teroristickému útoku, se šíří sociálními sítěmi a zbavuje se poznámky pod čarou, která objasňuje, že se vztahuje pouze na malou část tohoto patnáctiletého období.

Jak se vypořádat se statistickými omyly ve světě, v němž jen málo občanů (a dokonce i akademiků) má alespoň základní znalosti statistiky nebo dat? Ještě znepokojivější je, jak si poradit s věcně pravdivými tvrzeními, která využívají tak pečlivě sestavený vzorek populace, že jejich argumentace téměř postrádá smysl? Technicky je nelze označit za „fake news“, protože jsou věcně správné, ale je také pravděpodobné, že s jejich šířením se tyto poznámky pod čarou ztratí. Pokud je nějaký faktografický údaj sdílen bez původních upozornění, znamená to, že je nepravdivý? Pokud meme jednoduše tvrdí, že „od 11. září nikdy nedošlo k teroristickému útoku na území USA“, a poznámky pod čarou objasňující časové období a definici „teroristického útoku“, na které odkazuje, se již dávno ztratily, činí to meme nepravdivým, nebo je meme stále pravdivý, protože je fakticky správný na základě konkrétních předpokladů a konstrukce populace použité jeho původním autorem?

Tyto otázky jsou fascinující, protože čelíme dualitě značně rozšířeného přístupu k datům a datově negramotné populace, která nemá statistické vzdělání, aby pochopila, jak tato data správně použít k vyvození závěrů. K této nestálé směsici se přidávají sociální média, která zajišťují, že i ten nejzkreslenější faktoid může být extrahován ze souboru dat a stát se virálním, přičemž rychle ztrácí spojení s nesčetnými definičními výhradami, které mu umožnily lpět na pravdivosti.

I při použití jednoduchých technik, jako jsou počty v čase, jsou otázky, jako je normalizace dat a jedinečné nuance konstrukce datového souboru, obzvláště matoucí i pro ty, kteří mají hluboké statistické vzdělání, což znamená, že i zkušení datoví novináři pravidelně publikují zjištění, která jsou hluboce chybná a vedou k dalším nepravdivým a zavádějícím titulkům a interpretacím.

Podle toho všeho, jak jsem tvrdil v prosinci, nemůžeme začít bojovat proti falešným zprávám, dokud se nezaměříme na zvýšení datové a informační gramotnosti společnosti.

Získejte to nejlepší z časopisu Forbes do své e-mailové schránky s nejnovějšími poznatky od odborníků z celého světa.

Načítá se …

Napsat komentář Zrušit odpověď na komentář