嘘、呪われた嘘、そして統計。 How Bad Statistics Are Feeding Fake News

この記事は4年以上前のものです。

Leissl/Bloomberg)

マーク・トウェインが有名に世間に広めたように、”嘘には3種類ある：嘘、呪われた嘘、そして統計 “である。悪意によるものであれ、訓練不足によるものであれ、あるいは単なる無知であれ、「悪い統計」は、人間がものを数えるのと同じくらい長い間、豊かで歴史的な遺産を持っています。数え切れないほどの書籍、論文、ブログが、学問の世界から公共政策に至るまで、データや統計が誤った裏付けを与えるために悪用された無数の方法を記録している。データ駆動型ジャーナリズムが台頭し、証拠に基づく「ファクトチェック」の強化を求める声が高まる中、今日私たちを取り囲む「フェイクニュース」のうち、少なくとも一部は誤った統計に基づいているのではないかと、一歩引いて考えてみる価値はあるのではないだろうか。

データ駆動型のミームが、Facebookのニュースフィードを通過したり、Twitterのストリームを通過したり、Eメールの受信トレイにアラートとして届いたりしない日は一日たりともありません。存在しないデータセット、存在しない著者、存在しないジャーナルを引用していたり、その分野の実在の（通常は非常に著名な）研究者や研究機関を引用しているのに、その研究者に問い合わせると「自分が著者だと主張している研究については聞いたことがない」と答えたりして、まったくのでっち上げだと簡単に切り捨ててしまうミームがあります。テキストミームは、このカテゴリーで最も一般的なものです。”A recent Gallup poll states that 80% of Americans believe that climate change is false “という内容のツイートを送信するのにそれほど労力はかからないからです。このようなミームは、エクセルで簡単にグラフを作成することで、より権威あるものに見せることができる。このような視覚的なミームでは、Google Chrome ブラウザでグラフを右クリックして、「Google で画像を検索」を選択するだけで、そのグラフを調査して捏造であることを確認した事実確認サイトや学術ブログがヒットすることもあります

ある分野の論文から「科学っぽく見える」正当なグラフを取って、それを別の分野の主張を説明するために使用したミームさえ、何度か目にしました。つい最近、私のFacebookのフィードで、過去50年間の地球温暖化の傾向についての主張を説明するために使われた、あらゆる種類の統計的指標を背景にした指数曲線のグラフを特徴とするミームが流れているのを見かけました。奇妙なのは、X軸とY軸が切り取られていることと、グラフ上の注釈の一部が医療分野に関連していることです。実際、少し検索したところ、このミームの作成者は、どうやらまったく関係のない医学論文 (おそらく Google Scholar で検索して見つけたもの) から、指数関数的に見える素敵なグラフをつかんだだけだということがわかりました。

プレプリント、ポストプリント、ブログによる学術出版の増加は、科学の信頼に危険な影響を与え、新しい科学の進歩を議論するニュース記事が、雑誌のウェブサイトではなく教員の個人ブログの論文のプレプリントにリンクするのを一般人が見ることに慣れてしまっています。つまり、一般の人が、Natureの最新号に掲載されたと思われる学術論文を引用するミームを見たときに、そのリンク先がハーバード大学教授の個人ブログと称するランダムなウェブサイトのPDFであっても、多くの読者は瞬きもせず、その論文が本当にハーバード大学教授による新しいNature論文のプレプリントであると信じるだけだろうということです。

さらに水を差すと、略奪的な出版社や一夜限りのジャーナルの台頭により、一流と思われる名前を持ち、編集委員会に多くの著名な教授が名を連ねる実際の専門誌のウェブサイト上の論文に、ミームがリンクする可能性があります（彼らは自分の名前が使われていることさえ気づいていないかもしれません）。 3585>

そのため、最近では、一流の学術雑誌に掲載された学術論文を見つけるのに、Google ですばやく検索するだけで、どんな主張でもでき、その主張を厳密かつ問題なくサポートするデータ、統計、引用を持っていると主張することができます。しかし、データ駆動型の「フェイクニュース」の最大の原因は、厳密な統計トレーニングを重視しない分野の学者でさえも簡単に陥る、無数の統計的誤りです（ただし、統計学を多用する分野でも統計的議論と無縁ではありません）。因果関係を示唆する相関関係や、統計手法の不適切な使用といった明らかな候補に加え、私が出会ったミームの中で、おそらくフェイクニュースを最も助長するものの1つは、サンプリングバイアスと選択的な定義です。何かが「大量殺戮」であったのか、「テロ攻撃」であったのか、「精神病の行為」であったのか。最近見たミームでは、9.11以降、米国内でテロ行為が起きたことはない、なぜならその後の米国の攻撃はすべてテロではなく精神障害者の結果だからだ、と主張していました。私が最近見た別のミームでは、アメリカ国内で外国生まれの攻撃者によって負傷したり死亡したりしたアメリカ人はいないと主張し、小さな脚注にだけ、9/11テロやサンバーナーディーノ攻撃やその他の事件を含まないように分析の時間枠を限定する記述があった。大統領選挙期間中に見たある全米世論調査は、クリントン支持を大胆に主張したが、その方法論で、サンプル数の80％以上が民主党と無党派層であることを明らかにした。 3585>

そこで、「フェイクニュース」論争の大きな課題の 1 つがあります。問題は、どんなに優れた実験結果であっても、その結論に影響を与える無数の注意事項からあまりにも早く切り離されてしまうことを考えると、事実上正確なものも、一般大衆を欺く「フェイクニュース」というレッテルを貼れるかどうかである。民主党に圧倒的なサンプリングの偏りがあることが明らかな驚くべき世論調査も、結局は党派的偏向についての言及を一切排除した見出しに変容してしまう。 3585>

統計やデータの基本的な理解を持っている市民（そして学者でさえ）がほとんどいない世界で、私たちはどのように統計的誤謬を扱うのでしょうか。さらに厄介なことに、その論拠がほとんど意味をなさないほど慎重に構成された母集団サンプルを利用した、事実上真実の記述をどう扱えばいいのでしょうか。事実上正しいのだから、技術的に「フェイクニュース」と決めつけることはできないが、拡散するにつれて、その脚注が失われる可能性もある。もし、ある事実が元の注意書きなしに共有されたら、それは嘘になるのでしょうか？あるミームが単に「9.11以降、アメリカ国内でテロ攻撃は一度も起きていない」と述べていて、そのミームが言及している期間と「テロ攻撃」の定義を明確にする脚注が失われて久しい場合、それはそのミームを偽りにするのでしょうか、それともそのミームは元の作者が用いた特定の仮定と人口構成の下では事実上正しいので、まだ真実なのでしょうか。

これらは、データへのアクセスが大幅に増加した一方で、そのデータを使って結論を導き出す方法を正しく理解するための統計的トレーニングを受けていないデータ音痴の人々という二面性に直面する、魅力的な問題です。この不安定なミックスに加え、ソーシャルメディアは、最も歪んだ事実でさえもデータセットから抽出され、瞬く間に真実性を保つことを可能にした無数の定義上の注意事項との関係を失い、流行することを保証しています。

経時的な数のような単純なテクニックを使う場合でも、データの正規化やデータセット構築の独特のニュアンスといった問題は、深い統計的背景を持つ人にとっても特に不可解です。つまり、熟練のデータジャーナリストでさえ、深い欠陥があり、さらに誤った、誤解を招く見出しや解釈につながるような調査結果を定期的に発表していることになるのです。

これらを総合すると、12月に私が主張したように、社会のデータと情報リテラシーを高めることに注力しない限り、フェイクニュースとの戦いは始まらない。

世界中の専門家から最新の洞察を得て、Forbesのベスト版をあなたの受信箱にお届けします。

読み込み中 …

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル