Leissl/Bloomberg)
După cum Mark Twain a popularizat în conștiința publică, „Există trei tipuri de minciuni: minciuni, minciuni blestemate și statistici”. Fie din cauza răutății, a unei pregătiri precare sau a simplei ignoranțe, „statisticile proaste” au o moștenire bogată și istorică care se întinde de când oamenii numără lucruri. Nenumărate cărți, lucrări și bloguri relatează nenumăratele moduri în care datele și statisticile sunt folosite în mod abuziv pentru a oferi un sprijin fals argumentelor în domenii care variază de la lumea academică la politicile publice. Pe măsură ce jurnalismul bazat pe date este în creștere, iar apelurile continuă să crească pentru o mai mare „verificare a faptelor” bazată pe dovezi, merită să facem un pas înapoi pentru a ne întreba cât de mult din „știrile false” care ne înconjoară astăzi se bazează, cel puțin în parte, pe statistici proaste.
Nu trece o zi fără ca o avalanșă de meme-uri bazate pe date să treacă prin fluxul meu de știri de pe Facebook, să navigheze pe fluxul meu de pe Twitter sau să aterizeze sub formă de alerte în căsuța mea de e-mail care citează ceea ce par a fi seturi de date demne de încredere și le folosesc pentru a oferi concluzii surprinzătoare, de obicei înfășurate într-un infografic hipnotizant. Cu toate acestea, atunci când aleg oricare dintre aceste meme-uri la întâmplare și le aprofundez, descopăr că este într-adevăr meme-ul rar care rezistă la o examinare statistică.
Câteva meme-uri pe care le întâlnesc sunt ușor de aruncat ca fiind pur și simplu fabulații, citând seturi de date inexistente, autori inexistenți, reviste inexistente sau citând cercetători și institute reale (de obicei foarte proeminente) din domeniu, dar care, atunci când sunt contactați, spun că nu au auzit niciodată de cercetarea despre care se pretinde că sunt autorii lor. Memele textuale sunt cele mai frecvente în această categorie, deoarece este nevoie de un efort atât de mic pentru a trimite un tweet de genul „Un sondaj Gallup recent afirmă că 80% dintre americani cred că schimbările climatice sunt false”. Astfel de meme-uri pot fi făcute să pară mai autoritare prin crearea rapidă a unui grafic în Excel. Pentru astfel de meme-uri vizuale, uneori, doar dând click dreapta pe grafic în browserul Google Chrome și selectând „Search Google for image” (Caută pe Google pentru imagine) se vor găsi site-uri de verificare a faptelor sau bloguri academice care au cercetat graficul și au confirmat că este o invenție.
Am văzut chiar câteva meme-uri care au luat un grafic legitim „cu aspect științific” dintr-o lucrare dintr-un domeniu și l-au folosit ca ilustrație pentru o afirmație dintr-un alt domeniu. Chiar recent am văzut un meme care a trecut în feed-ul meu de pe Facebook care prezenta un grafic al unei curbe exponențiale cu tot felul de măsuri statistice în fundal, care a fost folosit pentru a ilustra o afirmație despre tendințele încălzirii globale din ultimii 50 de ani. Partea ciudată este că axele X și Y erau tăiate, iar unele dintre adnotările de pe grafic se refereau la domeniul medical. De fapt, după câteva căutări, am reușit să aflu că autorul meme-ului se pare că tocmai preluase un grafic frumos cu aspect exponențial dintr-o lucrare medicală fără nicio legătură cu aceasta (poate găsită printr-o căutare rapidă pe Google Scholar).
Creșterea numărului de preprinturi, postprinturi și a publicării academice prin intermediul blogurilor a avut un efect periculos asupra încrederii științifice, obișnuind publicul larg să vadă un articol de știri care discută un nou progres științific și care face trimitere la un preprint al articolului pe blogul personal al membrului facultății, mai degrabă decât pe site-ul revistei. Acest lucru înseamnă că, atunci când un membru al publicului vede un meme care citează o lucrare academică care se presupune că a fost publicată în cel mai recent număr al revistei Nature, dar link-ul duce la un PDF de pe un site web oarecare care pretinde a fi blogul personal al unui profesor de la Harvard, mulți cititori nu vor clipi din ochi și vor crede pur și simplu că lucrarea este într-adevăr un preprint al unui nou articol din Nature al unui profesor de la Harvard.
Încurcă și mai mult apele, ascensiunea editorilor prădători și a revistelor de tip „fly-by-night” înseamnă că un meme ar putea avea un link către o lucrare de pe un site web al unei reviste cu aspect profesional real, cu un nume care sună prestigios și care enumeră multe facultăți proeminente în comitetul său editorial (care s-ar putea să nu fie conștiente că numele lor sunt folosite). Standardele de evaluare de către colegi sunt adesea practic inexistente la astfel de reviste, ceea ce înseamnă că aproape orice lucrare este acceptată.
În aceste zile este nevoie de puțin mai mult decât o căutare rapidă pe Google pentru a localiza o lucrare academică publicată într-o revistă cu un nume prestigios, care prezintă orice argument pe care îl doriți și care pretinde că are datele, statisticile și citatele necesare pentru a susține acest argument în mod riguros și fără îndoială. Pentru membrul mediu al publicului, „peer review” este un concept necunoscut, iar o lucrare publicată în Nature nu are mai multă reputație decât una publicată în The Journal Of Prestigious And World Changing Research.
Cu toate acestea, cel mai mare contributor la „știrile false” bazate pe date sunt nenumăratele erori statistice care se abat atât de ușor chiar și asupra cadrelor universitare din domenii care nu pun accentul pe o pregătire statistică riguroasă (deși chiar și domeniile cu multe statistici nu sunt imune la argumentele statistice). Dincolo de candidații evidenți, cum ar fi sugestiile de corelație care implică cauzalitate și utilizarea necorespunzătoare a tehnicilor statistice, poate că unul dintre cei mai mari facilitatori ai știrilor false în memoriile pe care le întâlnesc sunt prejudecățile de eșantionare și definițiile selective.
Ca un singur exemplu, definițiile a ceea ce constituie cu exactitate un „atac terorist” sunt în mod notoriu controversate. A fost ceva o „împușcătură în masă”, un „atac terorist” sau un „act de boală mintală”? Am văzut recent un meme care susținea că nu a mai existat niciodată un alt act de terorism pe teritoriul SUA de la 11 septembrie 2001, deoarece toate atacurile ulterioare din SUA au fost rezultatul unor indivizi bolnavi mintal, mai degrabă decât al terorismului. Un alt meme recent pe care l-am văzut susținea că niciun american nu a mai fost rănit sau ucis de un atacator de origine străină pe teritoriul SUA și doar cu litere de tipar, într-o mică notă de subsol, exista o declarație care limita intervalul de timp al analizei astfel încât să nu includă atacurile de la 11 septembrie 2001, atacul de la San Bernardino și alte cazuri. Un sondaj național pe care l-am văzut în timpul campaniei prezidențiale a făcut afirmații îndrăznețe cu privire la sprijinul național pentru Clinton, dar în metodologia sa a dezvăluit că mai mult de 80% din dimensiunea eșantionului său erau democrați și independenți. Acest lucru ridică întrebarea critică – am cataloga aceste sondaje ca fiind „știri false”, ca fiind „corecte din punct de vedere faptic, dar înșelătoare” sau ca fiind „absolut adevărate”?”
Aici se află una dintre marile provocări ale dezbaterii privind „știrile false” – multe dintre memoriile (și articolele de știri) bazate pe date care se învârt în jurul lor sunt, pe merite pur tehnice, corecte din punct de vedere faptic, pe baza eșantionului de populație atent construit pe care îl folosesc. Întrebarea este dacă ceva care este precis din punct de vedere faptic poate fi, de asemenea, etichetat drept „fake news” atunci când vine vorba de inducerea în eroare a publicului, având în vedere că rezultatele chiar și ale celor mai bine conduse experimente sunt prea repede separate de nenumăratele avertismente care temperează aceste concluzii. Un sondaj surprinzător care indică în mod clar o prejudecată de eșantionare covârșitoare în favoarea democraților este transformat în cele din urmă într-un titlu lipsit de orice mențiune despre înclinația partizană. O afirmație conform căreia nu a existat niciodată un atac terorist pe teritoriul SUA de la 11 septembrie 2001 se răspândește prin rețelele de socializare și se desprinde de nota de subsol care clarifică faptul că se referă doar la o mică parte din acea perioadă de 15 ani.
Cum gestionăm erorile statistice într-o lume în care puțini cetățeni (și chiar și cadre universitare) au măcar o înțelegere de bază a statisticilor sau a datelor? Chiar mai îngrijorător, cum gestionăm afirmațiile adevărate din punct de vedere faptic care utilizează un eșantion de populație atât de atent construit încât argumentul lor este aproape lipsit de sens? Din punct de vedere tehnic, acestea nu pot fi etichetate drept „știri false”, deoarece sunt corecte din punct de vedere faptic, dar este, de asemenea, probabil că, pe măsură ce se răspândesc, acele note de subsol se vor pierde. Dacă o știre este împărtășită fără avertismentele sale originale, înseamnă că este falsă? Dacă un meme afirmă pur și simplu „Nu a existat niciodată un atac terorist pe teritoriul SUA de la 11 septembrie 2001”, iar notele de subsol care clarifică perioadele de timp și definiția „atacului terorist” la care se referă s-au pierdut de mult timp, acest lucru face ca meme-ul să fie fals sau meme-ul este în continuare adevărat, deoarece este corect din punct de vedere faptic în baza ipotezelor specifice și a construcției populației utilizate de autorul său original?
Aceste sunt întrebări fascinante pe măsură ce ne confruntăm cu dualitatea dintre accesul mult sporit la date și o populație analfabetă în materie de date, care nu are pregătirea statistică necesară pentru a înțelege cum să utilizeze în mod corespunzător acele date pentru a trage concluzii. Adăugând la acest amestec volatil, rețelele de socializare asigură faptul că până și cel mai distorsionat factoid poate fi extras dintr-un set de date și poate deveni viral, pierzând rapid legătura cu miriadele de avertismente definitorii care i-au permis să se agațe de veridicitate.
Inclusiv atunci când se utilizează tehnici simple, cum ar fi numărătorile în timp, probleme precum normalizarea datelor și nuanțele unice ale construcției seturilor de date sunt deosebit de perplexe chiar și pentru cei cu o pregătire statistică profundă, ceea ce înseamnă că până și jurnaliștii de date experimentați publică în mod regulat rezultate care sunt profund eronate și conduc la alte titluri și interpretări false și înșelătoare.
Punând toate acestea cap la cap, așa cum am susținut în decembrie, nu putem începe să luptăm împotriva știrilor false până când nu ne concentrăm pe creșterea nivelului de alfabetizare a societății în materie de date și informații.
.