Leissl/Bloomberg).
Comme Mark Twain l’a popularisé dans la conscience publique, « Il y a trois sortes de mensonges : les mensonges, les maudits mensonges et les statistiques. » Que ce soit par malveillance, par mauvaise formation ou par simple ignorance, les « mauvaises statistiques » ont un héritage riche et légendaire qui remonte aussi loin que les humains comptent les choses. D’innombrables livres, articles et blogs relatent les innombrables façons dont les données et les statistiques sont utilisées de manière abusive pour étayer des arguments dans des domaines allant du monde universitaire à la politique publique. Alors que le journalisme axé sur les données est en plein essor et que les appels ne cessent de se multiplier en faveur d’une » vérification des faits » accrue fondée sur des preuves, il vaut la peine de prendre du recul pour se demander dans quelle mesure les » fake news » qui nous entourent aujourd’hui sont fondées, au moins en partie, sur de mauvaises statistiques.
Il ne se passe pas un jour sans qu’une rafale de mèmes axés sur les données ne passe par mon fil d’actualité Facebook, ne navigue sur mon flux Twitter ou n’atterrisse sous forme d’alertes dans ma boîte aux lettres électronique, citant ce qui semble être des ensembles de données réputés et les utilisant pour offrir des conclusions surprenantes, généralement enveloppées dans une infographie hypnotique. Pourtant, lorsque je prends l’un de ces mèmes au hasard et que je l’approfondis, je constate que c’est le rare mème qui résiste à un examen statistique.
Certains mèmes que je rencontre sont faciles à écarter comme étant des fabrications pures et simples, citant des ensembles de données inexistants, des auteurs inexistants, des revues inexistantes ou citant des chercheurs et des instituts réels (généralement très éminents) dans le domaine, mais qui, lorsqu’on les contacte, disent qu’ils n’ont jamais entendu parler de la recherche dont ils sont censés être l’auteur. Les mèmes textuels sont les plus courants dans cette catégorie, car il suffit de peu d’efforts pour envoyer un tweet du type « Un récent sondage Gallup indique que 80 % des Américains pensent que le changement climatique est faux ». Il est possible de donner à ces mèmes un aspect plus officiel en créant rapidement un graphique dans Excel. Pour ces mèmes visuels, il suffit parfois de cliquer avec le bouton droit de la souris sur le graphique dans le navigateur Google Chrome et de sélectionner « Rechercher l’image dans Google » pour faire apparaître des sites de vérification des faits ou des blogs universitaires qui ont fait des recherches sur le graphique et confirmé qu’il s’agissait d’une fabrication.
J’ai même vu quelques mèmes qui ont pris un graphique légitime « d’apparence scientifique » d’un article dans un domaine et l’ont utilisé comme illustration d’une affirmation dans un domaine différent. Récemment, j’ai vu passer dans mon flux Facebook un mème qui présentait un graphique d’une courbe exponentielle avec toutes sortes de mesures statistiques en arrière-plan, utilisé pour illustrer une affirmation sur les tendances du réchauffement climatique au cours des 50 dernières années. Ce qui est étrange, c’est que les axes X et Y étaient coupés et que certaines des annotations sur le graphique concernaient le domaine médical. En fait, après un peu de recherche, j’ai pu découvrir que l’auteur du mème avait apparemment juste saisi un joli graphique d’apparence exponentielle à partir d’un article médical sans aucun rapport (peut-être trouvé via une recherche rapide dans Google Scholar).
L’essor des preprints, postprints et de la publication académique par le biais de blogs a eu un effet dangereux sur la confiance scientifique, habituant le grand public à voir un article d’actualité discutant d’une nouvelle avancée scientifique qui renvoie à un preprint de l’article sur le blog personnel du membre de la faculté, plutôt que sur le site Web de la revue. Cela signifie que lorsqu’un membre du public voit un mème qui cite un article universitaire censé être publié dans le dernier numéro de Nature, mais que le lien renvoie à un PDF sur un site Web aléatoire qui prétend être le blog personnel d’un professeur de Harvard, de nombreux lecteurs ne sourcilleront pas et croiront simplement que l’article est vraiment une préimpression d’un nouvel article de Nature par un professeur de Harvard.
Pour brouiller encore plus les pistes, l’essor des éditeurs prédateurs et des revues » fly-by-night » signifie qu’un mème pourrait renvoyer à un article publié sur le site d’une véritable revue d’apparence professionnelle, au nom prestigieux et listant de nombreux professeurs éminents dans son comité éditorial (qui pourraient même ne pas être conscients que leur nom est utilisé). Les normes d’examen par les pairs sont souvent essentiellement inexistantes dans ces revues, ce qui signifie que presque toutes les soumissions sont acceptées.
Il ne faut donc guère plus qu’une recherche rapide sur Google de nos jours pour localiser un article universitaire publié dans une revue à consonance prestigieuse qui présente n’importe quel argument que vous voulez et prétend avoir les données, les statistiques et les citations pour soutenir cet argument rigoureusement et sans question. Pour le membre moyen du public, le « contrôle par les pairs » est un concept inconnu et un article publié dans Nature n’est pas plus réputé qu’un article publié dans The Journal Of Prestigious And World Changing Research.
Cependant, le plus grand contributeur unique aux « fake news » basées sur les données sont les myriades de sophismes statistiques qui tombent si facilement sur même les universitaires dans des domaines qui ne mettent pas l’accent sur une formation statistique rigoureuse (bien que même les domaines à forte teneur en statistiques ne soient pas à l’abri des arguments statistiques). Au-delà des candidats évidents comme les suggestions de corrélation impliquant la causalité et l’utilisation inappropriée des techniques statistiques, peut-être l’un des plus grands facilitateurs de fake news dans les mèmes que je rencontre est le biais d’échantillonnage et les définitions sélectives.
Pour ne citer qu’un exemple, les définitions de ce qui constitue précisément une « attaque terroriste » sont notoirement controversées. Est-ce que quelque chose était une « fusillade de masse », une « attaque terroriste » ou un « acte de maladie mentale » ? J’ai récemment vu un mème qui soutenait qu’il n’y avait jamais eu d’autre acte de terrorisme sur le sol américain depuis le 11 septembre parce que toutes les attaques américaines ultérieures étaient le résultat de malades mentaux, plutôt que du terrorisme. Un autre mème récent que j’ai vu prétendait qu’aucun Américain n’avait été blessé ou tué par un agresseur né à l’étranger sur le sol américain et ce n’est qu’en tout petits caractères dans une petite note de bas de page qu’il y avait une déclaration limitant la période d’analyse afin de ne pas inclure les attaques du 11 septembre, l’attaque de San Bernardino et d’autres cas. Un sondage national que j’ai vu pendant la campagne présidentielle a fait des déclarations audacieuses sur le soutien national à Clinton, mais dans sa méthodologie, il a révélé que plus de 80 % de son échantillon était constitué de démocrates et d’indépendants. Cela soulève une question cruciale : qualifierions-nous ces affirmations de » fake news « , de » factuellement exactes mais trompeuses » ou d' » absolument vraies » ? «
C’est là que réside l’un des grands défis du débat sur les » fake news » – de nombreux mèmes (et articles de presse) fondés sur des données qui tourbillonnent sont, sur des mérites purement techniques, factuellement exacts sur la base de l’échantillon de population soigneusement construit qu’ils utilisent. La question est de savoir si une information exacte sur le plan factuel peut également être qualifiée de « fake news » lorsqu’il s’agit d’induire le public en erreur, étant donné que les résultats des expériences, même les mieux menées, sont trop rapidement séparés de la myriade de mises en garde qui tempèrent ces conclusions. Un sondage surprenant qui indique clairement un biais d’échantillonnage écrasant en faveur des démocrates est finalement transformé en un titre dépourvu de toute mention de biais partisan. Une affirmation selon laquelle il n’y a jamais eu d’attaque terroriste sur le sol américain depuis le 11 septembre se répand dans les médias sociaux et se défait de sa note de bas de page précisant qu’elle ne se réfère qu’à une petite partie de cette période de 15 ans.
Comment gérer les sophismes statistiques dans un monde où peu de citoyens (et même d’universitaires) ont une compréhension même élémentaire des statistiques ou des données ? Encore plus troublant, comment gérer les déclarations factuellement vraies qui utilisent un échantillon de population si soigneusement construit que leur argument est presque sans signification ? Techniquement, elles ne peuvent pas être qualifiées de « fake news » puisqu’elles sont correctes sur le plan factuel, mais il est également probable qu’au fur et à mesure de leur diffusion, ces notes de bas de page seront perdues. Si un fait est partagé sans les avertissements originaux, est-ce que cela le rend faux ? Si un mème dit simplement « Il n’y a jamais eu d’attaque terroriste sur le sol américain depuis le 11 septembre » et que les notes de bas de page clarifiant les périodes et la définition d' »attaque terroriste » auxquelles il se réfère ont été perdues depuis longtemps, cela rend-il le mème faux ou le mème est-il toujours vrai puisqu’il est factuellement correct dans le cadre des hypothèses spécifiques et de la construction de la population utilisées par son auteur original ?
Ce sont des questions fascinantes alors que nous sommes confrontés à la dualité d’un accès largement accru aux données et d’une population analphabète en matière de données qui n’a pas la formation statistique nécessaire pour comprendre comment utiliser correctement ces données pour tirer des conclusions. Ajoutant à ce mélange volatile, les médias sociaux garantissent que même le factoïde le plus biaisé peut être extrait d’un ensemble de données et devenir viral, perdant rapidement le lien avec la myriade de mises en garde définitionnelles qui lui permettaient de s’accrocher à la véracité.
Même lorsqu’on utilise des techniques simples comme les comptages dans le temps, des questions comme la normalisation des données et les nuances uniques de la construction des ensembles de données sont particulièrement perplexes, même pour ceux qui ont une formation statistique approfondie, ce qui signifie que même les journalistes de données chevronnés publient régulièrement des conclusions qui sont profondément faussées et conduisent à d’autres titres et interprétations faux et trompeurs.
En mettant tout cela ensemble, comme je l’ai soutenu en décembre, nous ne pouvons pas commencer à lutter contre les fake news tant que nous ne nous concentrons pas sur l’augmentation de la culture des données et de l’information de la société.
.