Mentiras, Malditas Mentiras e Estatísticas: How Bad Statistics Are Feeding Fake News

Este artigo tem mais de 4 anos de idade.

Leissl/Bloomberg)

Como Mark Twain famoso popularizado na consciência pública, “Há três tipos de mentiras: mentiras, mentiras malditas, e estatísticas.” Seja através de malícia, treinamento pobre ou simples ignorância, “más estatísticas” tem um legado rico e armazenado que se estende desde que os humanos têm contado as coisas. Inúmeros livros, jornais e blogs relatam as inúmeras formas de abuso de dados e estatísticas para dar falso apoio a argumentos em campos que vão desde o mundo acadêmico até as políticas públicas. Como o jornalismo orientado por dados está em ascensão e os apelos continuam a crescer para o aumento da “verificação de fatos” baseada em evidências, vale a pena recuar para perguntar o quanto das “notícias falsas” que nos rodeiam hoje se baseia, pelo menos em parte, em estatísticas ruins.

Não passa um dia sem que uma enxurrada de memes impulsionados por dados passe pelo meu feed de notícias do Facebook, navegue pelo meu Twitter ou aterrisse como alertas na minha caixa de entrada de e-mail que citam o que parecem ser conjuntos de dados respeitáveis e os usam para oferecer conclusões surpreendentes, normalmente embrulhados em um infográfico hipnotizante. No entanto, quando eu escolho qualquer um desses memes ao acaso e me aprofundo nele, descubro que é o raro meme que realmente resiste ao escrutínio estatístico.

Alguns memes que eu encontro são fáceis de descartar como sendo verdadeiras fabricas, citando conjuntos de dados inexistentes, autores inexistentes, revistas inexistentes ou citando pesquisadores e institutos reais (tipicamente muito proeminentes) na área, mas que quando contatados dizem que nunca ouviram falar da pesquisa da qual se diz ser o autor. As memes textuais são as mais comuns nesta categoria, uma vez que requer tão pouco esforço para enviar um tweet, na linha de “Uma recente pesquisa Gallup afirma que 80% dos americanos acreditam que as mudanças climáticas são falsas”. Essas memes podem ser feitas para parecer mais autoritárias, através de um gráfico rápido em Excel. Para tais memes visuais, às vezes basta clicar com o botão direito do mouse no gráfico no navegador Google Chrome e selecionar “Pesquisar imagem no Google” para ver os fatos em sites ou blogs acadêmicos que pesquisaram o gráfico e o confirmaram como sendo uma fabricação.

Eu já vi até alguns memes que pegaram um gráfico legítimo de “aparência científica” de um artigo em um campo e o usaram como ilustração para uma reivindicação em um campo diferente. Recentemente eu vi um meme passar no meu feed do Facebook que apresentava um gráfico de uma curva exponencial com todos os tipos de medidas estatísticas no fundo que foi usado para ilustrar uma reivindicação sobre as tendências de aquecimento global nos últimos 50 anos. A parte estranha é que os eixos X e Y foram cortados e algumas das anotações no gráfico relacionadas com o campo médico. Na verdade, depois de um pouco de pesquisa consegui descobrir que o autor do meme tinha, aparentemente, acabado de pegar um gráfico de aparência exponencial de um artigo médico completamente não relacionado (talvez encontrado através de uma pesquisa rápida no Google Scholar).

O aumento das pré-impressões, postprints e publicações acadêmicas através de blogs teve um efeito perigoso na confiança científica, acostumando o público em geral a ver um artigo de notícia discutindo um novo avanço científico que se liga a uma pré-impressão do artigo no blog pessoal do membro do corpo docente, em vez de no site da revista. Isso significa que quando um membro do público vê um meme que cita um artigo acadêmico supostamente publicado na última edição da Nature, mas o link vai para um PDF em um site aleatório que se diz ser o blog pessoal de um professor de Harvard, muitos leitores não piscam os olhos e simplesmente confiam que o artigo é realmente uma pré-impressão de um novo artigo da Nature de um professor de Harvard.

Muddying the waters even further, the rise of predatory publishers and fly-by-night journals means that a meme could link to a paper on an real professional lookoking journal website with a prestigious-sounding name and listing many prominent faculty in its editorial board (who may be not even be aware their names are being used). Os padrões de revisão por pares são muitas vezes essencialmente inexistentes em tais revistas, o que significa que praticamente qualquer submissão é aceite.

Assim, é necessário pouco mais do que uma pesquisa rápida no Google nos dias de hoje para localizar um artigo académico publicado numa revista de prestígio que apresente qualquer argumento que deseje e afirme ter os dados, estatísticas e citações para apoiar esse argumento rigorosamente e sem questionar. Para o público médio, “revisão por pares” é um conceito desconhecido e um artigo publicado na Nature não é mais respeitável do que um publicado no The Journal Of Prestigious And World Changing Research.

No entanto, o maior contribuinte individual para as “notícias falsas” impulsionadas por dados são as miríades de falácias estatísticas que caem tão facilmente até mesmo acadêmicos em campos que não enfatizam o treinamento estatístico rigoroso (embora até mesmo os campos pesados de estatísticas não sejam imunes a argumentos estatísticos). Para além dos candidatos óbvios como as sugestões de correlação que implicam a causa e o uso impróprio de técnicas estatísticas, talvez um dos maiores facilitadores de notícias falsas nos memes com que me deparo seja o preconceito amostral e definições selectivas.

Como exemplo, as definições do que constitui precisamente um “ataque terrorista” são notoriamente controversas. Foi algo um “tiroteio em massa”, um “ataque terrorista”, ou um “acto de doença mental”? Recentemente vi um meme que argumentava que nunca mais tinha havido outro acto de terrorismo em solo americano desde o 11 de Setembro, porque todos os ataques subsequentes nos EUA foram o resultado de indivíduos mentalmente doentes, em vez de terrorismo. Outro memorando recente que vi afirmou que nenhum americano tinha sido ferido ou morto por um atacante nascido no estrangeiro em solo americano e apenas em letras minúsculas numa pequena nota de rodapé havia uma declaração que limitava o período de análise de modo a não incluir os ataques de 11 de Setembro, o ataque de San Bernardino e outros casos. Uma sondagem nacional que vi durante a campanha presidencial fez afirmações ousadas sobre o apoio nacional a Clinton, mas na sua metodologia revelou que mais de 80% do seu tamanho de amostra eram Democratas e Independentes. Isto levanta a questão crítica – será que os rotularíamos como “notícias falsas”, como “factualmente precisos, mas enganosos” ou como “absolutamente verdadeiros”?”

Há um dos grandes desafios do debate sobre “notícias falsas” – muitos dos memes (e artigos de notícias) movimentados por dados são, por méritos puramente técnicos, factualmente precisos com base na amostra de população cuidadosamente construída que eles usam. A questão é se algo que é factualmente exato também pode ser rotulado como “notícia falsa” quando se trata de enganar o público, dado que os resultados até mesmo das experiências mais bem conduzidas são rapidamente separados das miríades de advertências que temperam essas conclusões. Uma surpreendente sondagem que indica claramente um esmagador enviesamento de amostras para os Democratas acaba por se transformar numa manchete sem qualquer menção a um enviesamento partidário. Uma afirmação de que nunca houve um ataque terrorista em solo norte-americano desde o 11 de Setembro espalha-se através das redes sociais e lança a sua nota de rodapé esclarecendo que se refere apenas a uma pequena parte desse período de 15 anos.

Como lidamos com falácias estatísticas num mundo em que poucos cidadãos (e mesmo académicos) têm sequer uma compreensão básica de estatísticas ou dados? Ainda mais preocupante, como lidar com afirmações factualmente verdadeiras que utilizam uma amostra populacional tão cuidadosamente construída que seu argumento é quase inútil? Tecnicamente não podem ser sinalizadas como “notícias falsas”, uma vez que são factualmente corretas, mas também é provável que ao espalharem essas notas de rodapé, se percam. Se um factoid é partilhado sem as suas advertências originais, isso faz com que seja falso? Se um meme simplesmente diz “Nunca houve um ataque terrorista em solo americano desde o 11 de Setembro” e as notas de rodapé esclarecendo os períodos de tempo e a definição de “ataque terrorista” a que se refere já se perderam há muito tempo, isso torna o meme falso ou será que o meme ainda é verdadeiro, uma vez que é factualmente correcto sob as suposições específicas e a construção populacional usada pelo seu autor original?

Estas são questões fascinantes à medida que nos confrontamos com a dualidade de um vasto aumento do acesso aos dados e uma população analfabeta de dados que carece de formação estatística para compreender como utilizar correctamente esses dados para tirar conclusões. Acrescentando a esta mistura volátil, as redes sociais asseguram que mesmo os factóides mais enviesados podem ser extraídos de um conjunto de dados e tornar-se virais, perdendo rapidamente a ligação às miríades de advertências definitivas que lhe permitiram agarrar-se à veracidade.

Aven ao usar técnicas simples como contagens ao longo do tempo, questões como a normalização de dados e as nuances únicas da construção de conjuntos de dados são particularmente perplexas mesmo para aqueles com profundos antecedentes estatísticos, o que significa que mesmo jornalistas de dados experientes publicam regularmente descobertas que são profundamente defeituosas e levam a mais manchetes e interpretações falsas e enganosas.

Pondo isto tudo junto, como eu argumentei em dezembro, não podemos começar a combater notícias falsas até que nos concentremos em aumentar a alfabetização de dados e informação da sociedade.

Leve o melhor da Forbes à sua caixa de entrada com as últimas percepções de especialistas de todo o mundo.
Loading …

Deixe uma resposta

O seu endereço de email não será publicado.