Mentiras, malditas mentiras y estadísticas: Cómo las malas estadísticas están alimentando las noticias falsas

Este artículo tiene más de 4 años.

Leissl/Bloomberg)

Como popularizó Mark Twain en la conciencia pública, «Hay tres clases de mentiras: las mentiras, las malditas mentiras y las estadísticas». Ya sea por malicia, mala formación o simple ignorancia, las «malas estadísticas» tienen un rico e histórico legado que se remonta a la época en que los humanos han contado cosas. Innumerables libros, artículos y blogs relatan las innumerables formas en que se abusa de los datos y las estadísticas para dar un falso apoyo a los argumentos en campos que van desde el mundo académico hasta la política pública. Dado que el periodismo basado en datos está en auge y que siguen aumentando los llamamientos a una mayor comprobación de los hechos basada en pruebas, merece la pena dar un paso atrás para preguntarse hasta qué punto las «noticias falsas» que nos rodean hoy en día se basan, al menos en parte, en malas estadísticas.

No pasa un día sin que una ráfaga de memes basados en datos pasen por mi feed de noticias de Facebook, naveguen por mi flujo de Twitter o aterricen como alertas en mi bandeja de entrada de correo electrónico que citan lo que parecen ser conjuntos de datos reputados y los utilizan para ofrecer conclusiones sorprendentes, normalmente envueltas en una infografía fascinante. Sin embargo, cuando elijo cualquiera de estos memes al azar y los analizo, descubro que son raros los memes que resisten el escrutinio estadístico.

Algunos de los memes con los que me encuentro son fáciles de descartar como auténticas invenciones, ya que citan conjuntos de datos inexistentes, autores inexistentes, revistas inexistentes o citan a investigadores e institutos reales (normalmente muy destacados) en el campo, pero que cuando se les contacta dicen que nunca han oído hablar de la investigación de la que dicen ser autores. Los memes textuales son los más comunes en esta categoría, ya que requiere muy poco esfuerzo enviar un tuit del tipo «Una reciente encuesta de Gallup afirma que el 80% de los estadounidenses cree que el cambio climático es falso». Este tipo de memes pueden tener un aspecto más fidedigno si se elabora un rápido gráfico en Excel. En el caso de estos memes visuales, a veces basta con hacer clic con el botón derecho del ratón sobre el gráfico en el navegador Google Chrome y seleccionar «Buscar imagen en Google» para que aparezcan sitios de comprobación de hechos o blogs académicos que han investigado el gráfico y han confirmado que se trata de una invención.

Incluso he visto algunos memes que han tomado un gráfico legítimo de aspecto «científico» de un artículo en un campo y lo han utilizado como ilustración de una afirmación en un campo diferente. Hace poco vi un meme en mi Facebook que mostraba un gráfico de una curva exponencial con todo tipo de medidas estadísticas de fondo que se utilizaba para ilustrar una afirmación sobre las tendencias del calentamiento global en los últimos 50 años. Lo curioso es que los ejes X e Y estaban cortados y algunas de las anotaciones del gráfico estaban relacionadas con el campo de la medicina. De hecho, después de un poco de búsqueda pude encontrar que el autor del meme aparentemente sólo había tomado un bonito gráfico de aspecto exponencial de un documento médico completamente no relacionado (tal vez encontrado a través de una rápida búsqueda en Google Scholar).

El aumento de los preprints, postprints y publicaciones académicas a través de blogs ha tenido un efecto peligroso en la confianza científica, acostumbrando al público en general a ver un artículo de noticias que discute un nuevo avance científico que enlaza con una preimpresión del artículo en el blog personal del miembro de la facultad, en lugar de en el sitio web de la revista. Esto significa que cuando un miembro del público ve un meme que cita un artículo académico supuestamente publicado en el último número de Nature, pero el enlace va a un PDF en un sitio web aleatorio que pretende ser el blog personal de un profesor de Harvard, muchos lectores no pestañearán y simplemente confiarán en que el artículo realmente es una preimpresión de un nuevo artículo de Nature de un profesor de Harvard.

El aumento de las editoriales depredadoras y de las revistas de poca monta hace que un meme pueda enlazar con un artículo en la página web de una revista de aspecto profesional con un nombre que parezca prestigioso y que incluya a muchos profesores prominentes en su consejo editorial (que puede que ni siquiera sepan que se están utilizando sus nombres). Las normas de revisión por pares son a menudo esencialmente inexistentes en tales revistas, lo que significa que casi cualquier presentación es aceptada.

Por lo tanto, se necesita poco más que una rápida búsqueda en Google en estos días para localizar un artículo académico publicado en una revista de prestigio que hace cualquier argumento que usted desea y afirma tener los datos, estadísticas y citas para apoyar ese argumento rigurosamente y sin duda. Para el público medio, la «revisión por pares» es un concepto desconocido y un artículo publicado en Nature no tiene más reputación que uno publicado en The Journal Of Prestigious And World Changing Research.

Sin embargo, el mayor contribuyente a las «noticias falsas» basadas en datos son las innumerables falacias estadísticas que tan fácilmente caen incluso en los académicos de campos que no enfatizan una formación estadística rigurosa (aunque incluso los campos con mucha estadística no son inmunes a los argumentos estadísticos). Más allá de los candidatos obvios, como las sugerencias de correlación que implican causalidad y el uso inadecuado de las técnicas estadísticas, quizás uno de los mayores facilitadores de las noticias falsas en los memes que encuentro es el sesgo de muestreo y las definiciones selectivas.

Por ejemplo, las definiciones de lo que constituye precisamente un «ataque terrorista» son notoriamente controvertidas. ¿Se trata de un «tiroteo masivo», de un «ataque terrorista» o de un «acto de enfermedad mental»? Hace poco vi un meme que argumentaba que nunca había habido otro acto de terrorismo en suelo estadounidense desde el 11-S porque todos los ataques posteriores en Estados Unidos eran el resultado de individuos con enfermedades mentales, en lugar de terrorismo. Otro meme reciente que vi afirmaba que ningún estadounidense había sido herido o asesinado por un atacante de origen extranjero en suelo estadounidense y sólo en letra pequeña en una pequeña nota a pie de página había una declaración que limitaba el marco temporal del análisis para no incluir los ataques del 11-S, el ataque de San Bernardino y otros casos. Una encuesta nacional que vi durante la temporada de la campaña presidencial hizo audaces afirmaciones sobre el apoyo nacional a Clinton, pero en su metodología reveló que más del 80% del tamaño de su muestra eran demócratas e independientes. Esto plantea la pregunta fundamental: ¿calificaríamos esto como «noticias falsas», como «factualmente precisas pero engañosas» o como «absolutamente ciertas»?»

Aquí radica uno de los grandes desafíos del debate sobre las «noticias falsas»: muchos de los memes basados en datos (y artículos de noticias) que circulan son, por méritos puramente técnicos, factualmente precisos sobre la base de la muestra de población cuidadosamente construida que utilizan. La cuestión es si algo que es preciso desde el punto de vista de los hechos también puede ser etiquetado como «noticias falsas» cuando se trata de engañar al público, dado que los resultados de incluso los experimentos mejor realizados se separan con demasiada rapidez de las innumerables advertencias que atenúan esas conclusiones. Una encuesta sorprendente que indica claramente un sesgo de muestreo abrumador hacia los demócratas se transforma finalmente en un titular sin ninguna mención a la inclinación partidista. Una afirmación de que nunca ha habido un atentado terrorista en suelo estadounidense desde el 11-S se extiende por las redes sociales y se desprende de su nota a pie de página aclarando que sólo se refiere a una pequeña parte de ese periodo de 15 años.

¿Cómo manejamos las falacias estadísticas en un mundo en el que pocos ciudadanos (e incluso académicos) tienen siquiera una comprensión básica de las estadísticas o los datos? Y lo que es aún más preocupante, ¿cómo manejamos las afirmaciones objetivamente ciertas que utilizan una muestra de población tan cuidadosamente construida que su argumento carece prácticamente de sentido? Técnicamente no se pueden calificar de «noticias falsas», ya que son objetivamente correctas, pero también es probable que, a medida que se difundan, se pierdan esas notas a pie de página. Si un hecho se comparte sin sus advertencias originales, ¿eso lo convierte en falso? Si un meme dice simplemente «Nunca ha habido un ataque terrorista en suelo estadounidense desde el 11 de septiembre» y las notas a pie de página que aclaran los periodos de tiempo y la definición de «ataque terrorista» a los que se refiere se han perdido hace tiempo, ¿hace eso que el meme sea falso o el meme sigue siendo cierto ya que es factualmente correcto bajo las suposiciones específicas y la construcción de la población utilizada por su autor original?

Estas son preguntas fascinantes, ya que nos enfrentamos a la dualidad de un acceso cada vez mayor a los datos y a una población analfabeta en materia de datos que carece de la formación estadística para entender cómo utilizar adecuadamente esos datos para sacar conclusiones. Además de esta mezcla volátil, las redes sociales garantizan que incluso el dato más sesgado pueda extraerse de un conjunto de datos y hacerse viral, perdiendo rápidamente la conexión con las innumerables advertencias de definición que le permitieron aferrarse a la veracidad.

Incluso cuando se utilizan técnicas sencillas como los recuentos a lo largo del tiempo, cuestiones como la normalización de los datos y los matices únicos de la construcción de conjuntos de datos son particularmente desconcertantes incluso para aquellos con profundos conocimientos estadísticos, lo que significa que incluso los periodistas de datos experimentados publican regularmente hallazgos que son profundamente defectuosos y conducen a más titulares e interpretaciones falsas y engañosas.

Poniendo todo esto junto, como argumenté en diciembre, no podemos empezar a luchar contra las noticias falsas hasta que nos centremos en aumentar la alfabetización de la sociedad en materia de datos e información.

Recibe lo mejor de Forbes en tu bandeja de entrada con las últimas opiniones de expertos de todo el mundo.
Cargando …

Deja una respuesta

Tu dirección de correo electrónico no será publicada.