Existe
una creciente preocupación entre los estudiosos de que, en muchas áreas de la
ciencia, los resultados publicados tienden a ser imposibles de reproducir.
Esta
crisis puede ser severa. Por ejemplo, en 2011, Bayer HealthCare revisó 67
proyectos internos y descubrió que podían replicar menos del 25 por ciento.
Además, más de dos tercios de los proyectos tenían grandes inconsistencias. Más
recientemente, en noviembre, una investigación de 28 importantes artículos de
psicología descubrió que solo la mitad podía ser replicada.
Se
han encontrado hallazgos similares en otros campos, incluidos la medicina y la economía.
Estos resultados sorprendentes ponen la credibilidad de todos los científicos
en graves problemas.
¿Qué
está causando este gran problema? Hay muchos factores que contribuyen. Como
estadístico, veo grandes problemas con la forma en que se hace la ciencia en la era del big data. La crisis de
reproducibilidad se debe en parte a análisis estadísticos no válidos que se
basan en hipótesis basadas en datos, lo opuesto a cómo se hacen las cosas
tradicionalmente.
Método científico
En
un experimento clásico, el estadístico y el científico primero forman una
hipótesis. Luego, los científicos realizan experimentos para recopilar datos,
que luego son analizados por los estadísticos.
Un
ejemplo famoso de este proceso es la historia de "Lady tasting tea". En la década de 1920, en una fiesta de
académicos, una mujer afirmaba ser capaz de distinguir la diferencia de sabor
si el té o la leche se agregaban primero en una taza. El estadístico Ronald
Fisher dudaba que ella tuviera tal talento. Él planteó la hipótesis de que, de
ocho tazas de té, preparadas de tal manera que cuatro tazas tenían leche
agregada primero y las otras cuatro tazas tenían té agregado primero, la
cantidad de conjeturas correctas seguiría un modelo de probabilidad llamado
distribución hipergeométrica.
Tal
experimento se realizó con ocho tazas de té enviadas a la dama en un orden
aleatorio y, según la leyenda, clasificó las ocho correctamente. Esta fue una
fuerte evidencia contra la hipótesis de Fisher. Las posibilidades de que la
dama hubiera logrado todas las respuestas correctas a través de adivinanzas al
azar fueron un extremadamente bajas: 1.4%.
Ese
proceso (plantear hipótesis, luego recopilar datos, luego analizar) es raro en
la era del big data. La tecnología actual puede recopilar grandes cantidades de
datos, del orden de 2,5 exabytes por día.
Si
bien esto es bueno, la ciencia a menudo se desarrolla a una velocidad mucho más
lenta, por lo que es posible que los investigadores no sepan cómo dictar la
hipótesis correcta en el análisis de los datos. Por ejemplo, los científicos
ahora pueden recopilar decenas de miles de expresiones genéticas de personas,
pero es muy difícil decidir si se debe incluir o excluir un gen en particular
en la hipótesis.
En
este caso, es atractivo formar la hipótesis basada en los datos. Si bien tales
hipótesis pueden parecer convincentes, las inferencias convencionales de estas
hipótesis generalmente son inválidas. Esto se debe a que, en contraste con el
proceso de “Lady tasting tea”, el
orden de construir la hipótesis y ver los datos se invirtió.
Problemas de datos
¿Por
qué esta reversión puede causar un gran problema? Consideremos una versión de
big data de tea lady: un ejemplo de "100 lady tasting tea".
Supongamos
que hay 100 mujeres que no pueden distinguir la diferencia entre el té, pero
adivinen después de probar las ocho tazas. En realidad, hay un 75.6% de
probabilidades de que al menos una mujer adivine afortunadamente todas las
órdenes correctamente.
Ahora,
si un científico vio a una dama con un resultado sorprendente de todas las
copas correctas y realizó un análisis estadístico para ella con la misma
distribución hipergeométrica anterior, entonces podría concluir que esta dama
tenía la capacidad de distinguir la diferencia entre cada copa. Pero este
resultado no es reproducible. Si la misma dama hiciera el experimento otra vez,
es muy probable que clasificara las tazas equivocadamente, no teniendo tanta
suerte como su primera vez, ya que realmente no podía distinguir la diferencia
entre ellas.
Este
pequeño ejemplo ilustra cómo los científicos pueden "afortunadamente"
ver señales interesantes pero espurias de un conjunto de datos. Pueden formular
hipótesis después de estas señales, luego usar el mismo conjunto de datos para
sacar conclusiones, afirmando que estas señales son reales. Puede pasar un
tiempo antes de que descubran que sus conclusiones no son reproducibles. Este
problema es particularmente común en el análisis de big data debido al gran tamaño
de los datos, por casualidad, algunas señales espurias pueden ocurrir "por
suerte".
Lo
que es peor, este proceso puede permitir a los científicos manipular los datos
para producir el resultado más publicable. Los estadísticos bromean sobre tal
práctica: “Si torturamos los datos lo suficiente, te dirán algo”. Sin embargo,
¿es este “algo” válido y reproducible? Probablemente no.
Análisis más fuertes
¿Cómo
pueden los científicos evitar el problema anterior y lograr resultados
reproducibles en el análisis de grandes datos? La respuesta es simple: tener
más cuidado.
Si
los científicos desean resultados reproducibles a partir de hipótesis basadas
en datos, deben tener en cuenta cuidadosamente el proceso basado en datos en el
análisis. Los estadísticos necesitan diseñar nuevos procedimientos que
proporcionen inferencias válidas. Hay algunos ya en marcha.
La
estadística se trata de la manera óptima de extraer información de los datos.
Por esta naturaleza, es un campo que evoluciona con la evolución de los datos.
Los problemas de la era del big data
son solo un ejemplo de tal evolución. Creo que los científicos deberían aceptar
estos cambios, ya que darán lugar a oportunidades para desarrollar nuevas
técnicas estadísticas, que a su vez proporcionarán descubrimientos científicos
válidos e interesantes.