Cómo el Big Data ha creado una gran crisis en la ciencia

Cómo el Big Data ha creado una gran crisis en la ciencia

Existe una creciente preocupación entre los estudiosos de que, en muchas áreas de la ciencia, los resultados publicados tienden a ser imposibles de reproducir.

Esta crisis puede ser severa. Por ejemplo, en 2011, Bayer HealthCare revisó 67 proyectos internos y descubrió que podían replicar menos del 25 por ciento. Además, más de dos tercios de los proyectos tenían grandes inconsistencias. Más recientemente, en noviembre, una investigación de 28 importantes artículos de psicología descubrió que solo la mitad podía ser replicada.

Se han encontrado hallazgos similares en otros campos, incluidos la medicina y la economía. Estos resultados sorprendentes ponen la credibilidad de todos los científicos en graves problemas.

¿Qué está causando este gran problema? Hay muchos factores que contribuyen. Como estadístico, veo grandes problemas con la forma en que se hace la ciencia en la era del big data. La crisis de reproducibilidad se debe en parte a análisis estadísticos no válidos que se basan en hipótesis basadas en datos, lo opuesto a cómo se hacen las cosas tradicionalmente.

Método científico


En un experimento clásico, el estadístico y el científico primero forman una hipótesis. Luego, los científicos realizan experimentos para recopilar datos, que luego son analizados por los estadísticos.

Un ejemplo famoso de este proceso es la historia de "Lady tasting tea". En la década de 1920, en una fiesta de académicos, una mujer afirmaba ser capaz de distinguir la diferencia de sabor si el té o la leche se agregaban primero en una taza. El estadístico Ronald Fisher dudaba que ella tuviera tal talento. Él planteó la hipótesis de que, de ocho tazas de té, preparadas de tal manera que cuatro tazas tenían leche agregada primero y las otras cuatro tazas tenían té agregado primero, la cantidad de conjeturas correctas seguiría un modelo de probabilidad llamado distribución hipergeométrica.

Tal experimento se realizó con ocho tazas de té enviadas a la dama en un orden aleatorio y, según la leyenda, clasificó las ocho correctamente. Esta fue una fuerte evidencia contra la hipótesis de Fisher. Las posibilidades de que la dama hubiera logrado todas las respuestas correctas a través de adivinanzas al azar fueron un extremadamente bajas: 1.4%.

Ese proceso (plantear hipótesis, luego recopilar datos, luego analizar) es raro en la era del big data. La tecnología actual puede recopilar grandes cantidades de datos, del orden de 2,5 exabytes por día.

Si bien esto es bueno, la ciencia a menudo se desarrolla a una velocidad mucho más lenta, por lo que es posible que los investigadores no sepan cómo dictar la hipótesis correcta en el análisis de los datos. Por ejemplo, los científicos ahora pueden recopilar decenas de miles de expresiones genéticas de personas, pero es muy difícil decidir si se debe incluir o excluir un gen en particular en la hipótesis.

En este caso, es atractivo formar la hipótesis basada en los datos. Si bien tales hipótesis pueden parecer convincentes, las inferencias convencionales de estas hipótesis generalmente son inválidas. Esto se debe a que, en contraste con el proceso de “Lady tasting tea”, el orden de construir la hipótesis y ver los datos se invirtió.

Problemas de datos


¿Por qué esta reversión puede causar un gran problema? Consideremos una versión de big data de tea lady: un ejemplo de "100 lady tasting tea".

Supongamos que hay 100 mujeres que no pueden distinguir la diferencia entre el té, pero adivinen después de probar las ocho tazas. En realidad, hay un 75.6% de probabilidades de que al menos una mujer adivine afortunadamente todas las órdenes correctamente.

Ahora, si un científico vio a una dama con un resultado sorprendente de todas las copas correctas y realizó un análisis estadístico para ella con la misma distribución hipergeométrica anterior, entonces podría concluir que esta dama tenía la capacidad de distinguir la diferencia entre cada copa. Pero este resultado no es reproducible. Si la misma dama hiciera el experimento otra vez, es muy probable que clasificara las tazas equivocadamente, no teniendo tanta suerte como su primera vez, ya que realmente no podía distinguir la diferencia entre ellas.

Este pequeño ejemplo ilustra cómo los científicos pueden "afortunadamente" ver señales interesantes pero espurias de un conjunto de datos. Pueden formular hipótesis después de estas señales, luego usar el mismo conjunto de datos para sacar conclusiones, afirmando que estas señales son reales. Puede pasar un tiempo antes de que descubran que sus conclusiones no son reproducibles. Este problema es particularmente común en el análisis de big data debido al gran tamaño de los datos, por casualidad, algunas señales espurias pueden ocurrir "por suerte".

Lo que es peor, este proceso puede permitir a los científicos manipular los datos para producir el resultado más publicable. Los estadísticos bromean sobre tal práctica: “Si torturamos los datos lo suficiente, te dirán algo”. Sin embargo, ¿es este “algo” válido y reproducible? Probablemente no.

Análisis más fuertes


¿Cómo pueden los científicos evitar el problema anterior y lograr resultados reproducibles en el análisis de grandes datos? La respuesta es simple: tener más cuidado.

Si los científicos desean resultados reproducibles a partir de hipótesis basadas en datos, deben tener en cuenta cuidadosamente el proceso basado en datos en el análisis. Los estadísticos necesitan diseñar nuevos procedimientos que proporcionen inferencias válidas. Hay algunos ya en marcha.

La estadística se trata de la manera óptima de extraer información de los datos. Por esta naturaleza, es un campo que evoluciona con la evolución de los datos. Los problemas de la era del big data son solo un ejemplo de tal evolución. Creo que los científicos deberían aceptar estos cambios, ya que darán lugar a oportunidades para desarrollar nuevas técnicas estadísticas, que a su vez proporcionarán descubrimientos científicos válidos e interesantes.


Cómo el Big Data ha creado una gran crisis en la ciencia Cómo el Big Data ha creado una gran crisis en la ciencia Reviewed by Rafael Medina on 25.2.19 Rating: 5
Con tecnología de Blogger.