Lügen, verdammte Lügen und Statistiken: How Bad Statistics Are Feeding Fake News

Dieser Artikel ist mehr als 4 Jahre alt.

Leissl/Bloomberg)

Wie Mark Twain im öffentlichen Bewusstsein bekannt machte: „Es gibt drei Arten von Lügen: Lügen, verdammte Lügen und Statistiken.“ Ob aus Böswilligkeit, schlechter Ausbildung oder schlichter Unwissenheit, „schlechte Statistiken“ haben ein reiches und geschichtsträchtiges Erbe, das so lange zurückreicht, wie Menschen Dinge zählen. Unzählige Bücher, Abhandlungen und Blogs berichten über die unzähligen Möglichkeiten, wie Daten und Statistiken missbraucht werden, um Argumente in Bereichen von der akademischen Welt bis hin zur öffentlichen Politik zu untermauern. Da der datengestützte Journalismus auf dem Vormarsch ist und der Ruf nach einer verstärkten evidenzbasierten „Faktenüberprüfung“ immer lauter wird, lohnt es sich, einen Schritt zurückzutreten und zu fragen, wie viele der „Fake News“, die uns heute umgeben, zumindest teilweise auf schlechten Statistiken beruhen.

Es vergeht kein Tag, an dem nicht eine Flut von datengestützten Memes meinen Facebook-Newsfeed durchläuft, in meinem Twitter-Stream vorbeisegelt oder als Warnmeldungen in meinem E-Mail-Posteingang landet, die scheinbar seriöse Datensätze zitieren und daraus überraschende Schlussfolgerungen ziehen, in der Regel verpackt in einer faszinierenden Infografik. Wenn ich jedoch eines dieser Meme wahllos herausgreife und näher untersuche, stelle ich fest, dass es sich in der Tat um die seltenen Meme handelt, die einer statistischen Prüfung standhalten.

Einige Meme, auf die ich stoße, sind leicht als reine Erfindungen zu verwerfen, da sie nicht existierende Datensätze, nicht existierende Autoren und nicht existierende Zeitschriften zitieren oder echte (in der Regel sehr prominente) Forscher und Institute auf dem Gebiet anführen, die aber auf Nachfrage sagen, dass sie noch nie von der Forschung gehört haben, deren Autor sie angeblich sind. Textmemes sind in dieser Kategorie am häufigsten anzutreffen, da es nur wenig Aufwand erfordert, einen Tweet nach dem Muster „Eine aktuelle Gallup-Umfrage besagt, dass 80 % der Amerikaner glauben, dass der Klimawandel falsch ist“ zu versenden. Solche Memes können durch eine schnelle Grafik in Excel noch aussagekräftiger wirken. Bei solchen visuellen Memen reicht manchmal ein Rechtsklick auf das Diagramm im Google Chrome-Browser und die Auswahl von „Google nach Bild durchsuchen“, um Websites zur Faktenüberprüfung oder akademische Blogs aufzurufen, die das Diagramm untersucht und bestätigt haben, dass es eine Fälschung ist.

Ich habe sogar schon ein paar Meme gesehen, die ein legitimes „wissenschaftlich aussehendes“ Diagramm aus einer Arbeit in einem Bereich genommen und es als Illustration für eine Behauptung in einem anderen Bereich verwendet haben. Erst kürzlich habe ich in meinem Facebook-Feed ein Mem gesehen, das ein Diagramm einer Exponentialkurve mit allen möglichen statistischen Messwerten im Hintergrund zeigte, die zur Veranschaulichung einer Behauptung über die Entwicklung der globalen Erwärmung in den letzten 50 Jahren verwendet wurde. Das Merkwürdige daran war, dass die X- und Y-Achse abgeschnitten waren und einige der Anmerkungen auf dem Diagramm sich auf den medizinischen Bereich bezogen. Tatsächlich konnte ich nach einiger Suche herausfinden, dass der Autor des Memes anscheinend einfach eine schöne exponentiell aussehende Grafik aus einem völlig unzusammenhängenden medizinischen Artikel entnommen hatte (vielleicht über eine schnelle Google Scholar-Suche gefunden).

Die Zunahme von Preprints, Postprints und akademischen Veröffentlichungen über Blogs hat eine gefährliche Auswirkung auf das Vertrauen in die Wissenschaft, da sich die Öffentlichkeit daran gewöhnt hat, dass ein Nachrichtenartikel, in dem ein neuer wissenschaftlicher Fortschritt diskutiert wird, mit einem Link zu einem Preprint des Artikels auf dem persönlichen Blog des Fakultätsmitglieds verlinkt ist, anstatt auf der Website der Zeitschrift. Das heißt, wenn ein Mitglied der Öffentlichkeit ein Meme sieht, in dem eine wissenschaftliche Arbeit zitiert wird, die angeblich in der neuesten Ausgabe von Nature veröffentlicht wurde, der Link aber zu einer PDF-Datei auf einer zufälligen Website führt, die vorgibt, der persönliche Blog eines Harvard-Professors zu sein, werden viele Leser nicht mit der Wimper zucken und einfach darauf vertrauen, dass es sich bei der Arbeit wirklich um einen Vorabdruck eines neuen Nature-Artikels eines Harvard-Professors handelt.

Der Aufstieg räuberischer Verlage und unkonventioneller Zeitschriften führt dazu, dass ein Meme zu einem Artikel auf einer professionell aussehenden Zeitschriften-Website mit einem prestigeträchtigen Namen und vielen prominenten Mitgliedern des Redaktionsausschusses (die möglicherweise nicht einmal wissen, dass ihre Namen verwendet werden) verlinkt werden kann, was die Sache noch schwieriger macht. Peer-Review-Standards sind bei solchen Zeitschriften oft nicht vorhanden, was bedeutet, dass fast jede Einreichung akzeptiert wird.

Heutzutage genügt also eine schnelle Google-Suche, um eine wissenschaftliche Arbeit zu finden, die in einer angesehenen Zeitschrift veröffentlicht wurde, die jedes beliebige Argument vorbringt und behauptet, die Daten, Statistiken und Zitate zu haben, um dieses Argument rigoros und ohne Zweifel zu unterstützen. Für den Durchschnittsbürger ist „Peer Review“ ein unbekanntes Konzept, und eine in Nature veröffentlichte Arbeit ist nicht seriöser als eine, die im Journal of Prestigious And World Changing Research veröffentlicht wurde.

Der größte Einzelbeitrag zu datengesteuerten „Fake News“ sind jedoch die unzähligen statistischen Irrtümer, die selbst Akademikern in Bereichen, die keinen Wert auf eine strenge statistische Ausbildung legen, so leicht unterlaufen (obwohl auch statistiklastige Bereiche nicht gegen statistische Argumente immun sind). Abgesehen von den offensichtlichen Kandidaten wie der Annahme, dass Korrelation Kausalität impliziert, und der unsachgemäßen Anwendung statistischer Verfahren, ist vielleicht einer der größten Ermöglicher von Fake News in den Memen, auf die ich stoße, die Voreingenommenheit bei der Auswahl von Stichproben und selektive Definitionen.

Um nur ein Beispiel zu nennen: Definitionen dessen, was genau einen „Terroranschlag“ ausmacht, sind notorisch umstritten. War etwas eine „Massenerschießung“, ein „Terroranschlag“ oder ein „Akt einer Geisteskrankheit“? Kürzlich sah ich ein Meme, in dem behauptet wurde, dass es seit dem 11. September nie wieder einen Terroranschlag auf US-amerikanischem Boden gegeben habe, weil alle nachfolgenden Anschläge in den USA auf psychisch kranke Personen und nicht auf Terrorismus zurückzuführen seien. Ein anderes Meme, das ich kürzlich sah, behauptete, dass kein Amerikaner von einem im Ausland geborenen Angreifer auf amerikanischem Boden verletzt oder getötet worden sei, und nur im Kleingedruckten in einer kleinen Fußnote war eine Erklärung zu finden, die den Zeitrahmen der Analyse einschränkte, um die Anschläge vom 11. September 2001, den Anschlag von San Bernardino und andere Fälle auszuschließen. Eine landesweite Umfrage, die ich während des Präsidentschaftswahlkampfes gesehen habe, stellte kühne Behauptungen über die landesweite Unterstützung für Clinton auf, enthüllte aber in ihrer Methodik, dass mehr als 80 % der Stichprobengröße Demokraten und Unabhängige waren. Dies wirft die entscheidende Frage auf: Würden wir diese als „Fake News“, als „sachlich richtig, aber irreführend“ oder als „absolut wahr“ bezeichnen?

Darin liegt eine der großen Herausforderungen der „Fake News“-Debatte – viele der datengesteuerten Meme (und Nachrichtenartikel), die im Umlauf sind, sind rein technisch gesehen sachlich richtig, basierend auf der sorgfältig zusammengestellten Bevölkerungsstichprobe, die sie verwenden. Die Frage ist, ob etwas, das sachlich korrekt ist, auch als „Fake News“ bezeichnet werden kann, wenn es um die Irreführung der Öffentlichkeit geht, da die Ergebnisse selbst der besten Experimente nur allzu schnell von den unzähligen Vorbehalten getrennt werden, die diese Schlussfolgerungen abschwächen. Eine überraschende Umfrage, die eindeutig auf eine überwältigende Stichprobenverzerrung zugunsten der Demokraten hindeutet, wird schließlich in eine Schlagzeile umgewandelt, die keinerlei Hinweis auf eine parteipolitische Verzerrung enthält. Eine Behauptung, dass es seit dem 11. September 2001 nie einen Terroranschlag auf amerikanischem Boden gegeben hat, verbreitet sich in den sozialen Medien und verliert ihre Fußnote, die klarstellt, dass sie sich nur auf einen kleinen Teil dieses 15-jährigen Zeitraums bezieht.

Wie gehen wir mit statistischen Irrtümern in einer Welt um, in der nur wenige Bürger (und sogar Akademiker) auch nur ein grundlegendes Verständnis von Statistiken oder Daten haben? Noch beunruhigender ist die Frage, wie wir mit faktisch wahren Aussagen umgehen, die sich auf eine so sorgfältig konstruierte Bevölkerungsstichprobe stützen, dass ihr Argument fast bedeutungslos ist. Technisch gesehen kann man sie nicht als „Fake News“ bezeichnen, da sie sachlich korrekt sind, aber es ist auch wahrscheinlich, dass diese Fußnoten bei ihrer Verbreitung verloren gehen. Wenn ein Faktum ohne seine ursprünglichen Vorbehalte weitergegeben wird, ist es dann falsch? Wenn ein Meme einfach besagt: „Seit dem 11. September gab es keinen Terroranschlag mehr auf amerikanischem Boden“, und die Fußnoten, die die Zeiträume und die Definition von „Terroranschlag“, auf die es sich bezieht, verdeutlichen, längst verloren gegangen sind, macht das das Meme dann falsch, oder ist es immer noch wahr, da es unter den spezifischen Annahmen und der Bevölkerungskonstruktion, die sein ursprünglicher Autor verwendet hat, sachlich korrekt ist?

Dies sind faszinierende Fragen, denn wir stehen vor der Herausforderung, dass wir einerseits immer mehr Daten zur Verfügung haben und andererseits eine Bevölkerung, die nicht über die nötige statistische Ausbildung verfügt, um diese Daten richtig zu nutzen und Schlussfolgerungen zu ziehen. Hinzu kommt, dass die sozialen Medien dafür sorgen, dass selbst die verzerrtesten Fakten aus einem Datensatz extrahiert werden und sich verbreiten können, wobei sie schnell den Bezug zu den unzähligen definitorischen Vorbehalten verlieren, die es ihnen ermöglichten, sich an die Wahrhaftigkeit zu klammern.

Selbst bei der Verwendung einfacher Techniken wie der Zählung im Zeitverlauf sind Fragen wie die Datennormalisierung und die einzigartigen Nuancen der Datensatzkonstruktion selbst für Personen mit fundierten statistischen Kenntnissen besonders verwirrend, was bedeutet, dass selbst erfahrene Datenjournalisten regelmäßig Ergebnisse veröffentlichen, die zutiefst fehlerhaft sind und zu weiteren falschen und irreführenden Schlagzeilen und Interpretationen führen.

All dies zusammengenommen zeigt, dass wir Fake News erst dann bekämpfen können, wenn wir uns darauf konzentrieren, die Daten- und Informationskompetenz der Gesellschaft zu verbessern.

Holen Sie sich das Beste von Forbes in Ihren Posteingang mit den neuesten Erkenntnissen von Experten aus aller Welt.
Laden …

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.