Capítulo 12 Análisis de datos
La estadística tiene mucho que decir sobre la recopilación de datos: el muestreo de encuestas y el diseño de experimentos son campos bien establecidos respaldados por décadas de investigación. La estadística, sin embargo, tiene poco que decir acerca de recopilar y refinar las preguntas. Las buenas preguntas son cruciales para un buen análisis, pero hay poca investigación en estadística sobre cómo solicitar y pulir buenas preguntas, y es una habilidad que rara vez se enseña en los planes de estudio.
Una vez que se han recopilado los datos, es necesario ordenarlos (o normalizarlos) en un formato que se pueda analizar. Organizar los datos en la “forma” correcta es esencial para un análisis de datos fluido: si tiene la forma incorrecta, se pasará la mayor parte del tiempo luchando contra sus herramientas, no cuestionando los datos.
Cualquier análisis de datos reales implica la manipulación de datos, visualización y modelado.
La visualización y el modelado son complementarios. Las visualizaciones pueden ayudar a refinar preguntas vagas. Sin embargo, las visualizaciones se basan en la interpretación humana, por lo que la capacidad de escalar está fundamentalmente restringida.
Los modelos se escalan mucho mejor, pero están limitados por sus supuestos: en esencia, un modelo no puede sorprender.
En cualquier análisis real puede utilizar tanto visualizaciones como modelos. La gran mayoría de la investigación estadística se centra en el modelado, menos en la visualización y menos aún en cómo iterar entre el modelado y la visualización para llegar a un buen lugar.
El producto final de un análisis no es un modelo: es retórica.
Un análisis no tiene sentido a menos que convenza a alguien para que actúe. En los centros educativos, significa convencer a docentes o a inspectores, que puede que tengan poca experiencia estadística.
La comunicación no es el hilo conductor principal de la investigación estadística. La comunicación tiene que centrarse en la comunicación con personas que tienen experiencia sustancial en otros dominios.
En los centros educativos, el análisis debería realizarse una y otra vez a medida que ingresan nuevos datos. Estos productos de datos deben ser sólidos tanto en el sentido estadístico (es decir, a los cambios en las distribuciones/suposiciones subyacentes) como en el sentido de la ingeniería de software (es decir, a los cambios en la infraestructura tecnológica subyacente).
Las estadísticas son una parte de la ciencia de datos, no todo. La investigación estadística se centra en la recopilación y el modelado de datos, y se trabaja poco en desarrollar buenas preguntas, pensar en la forma de los datos, comunicar resultados o crear productos de datos. Hay personas en estadística que hacen un gran trabajo en todas estas áreas, pero no son estadísticas convencionales. Si está interesado en estas áreas, es más difícil obtener una titularidad, más difícil obtener subvenciones y la mayoría de las revistas de estadísticas “principales” no están disponibles para usted. Intentar afirmar que la ciencia de datos es “solo” estadística hace que los estadísticos parezcan fuera de lugar y menosprecia las muchas otras contribuciones fuera de las estadísticas.
Fuente: Adaptado de Hadley Wickham