La estadística descriptiva es la estadística que recolecta, ordena, analiza y presenta datos colectados de una población, para describir las características de esta. Esta descripción es básica, solo se enfoca en mostrar como los datos se agrupan o se dispersan en torno a un valor central.
Sus componentes principales son las medidas de tendencia central y medidas de dispersión. Los parámetros que calcula la estadística descriptiva
son llamados estadísticos.
La media de una variable es una medida numérica que representa el centro de gravedad de los valores. Es la suma de todos los datos dividida para su conteo.
La mediana de una variable es el valor de la mitad cuando los datos se ordenan de forma ascendente. Es una medida ordinal de tendencia central.
Los cuartiles dividen los datos en cuatro grupos. Cada grupo contiene el 25% de los datos, se distribuyen de forma ascendente.
Los cuantiles dividen los datos proporcionalmente donde n es el porcentaje de los datos cuando están ordenados de forma ascendente.
El rango de una variable es la diferencia entre el dato de mayor valor y el menor. Es una medida de distribución de los datos.
El rango intercuartiles de una variable es la diferencia entre el cuartil superior y el inferior. Es una medida de como se distribuye la porción media de la muestra.
El diagrama de cajas o boxplot es una representación gráfica de los cuartiles, así como de el valor más pequeño y el el más grande. Nos representa la distribución de una forma visual y basada en mediana.
La varianza es una medida numérica que muestra como se dispersan los datos alrededor de la media. La varianza de una muestra se calcula con la siguiente fórmula:
La desviación estándar es la raíz cuadrada de la varianza. Muy útil para evaluar datos a primera vista.
La covarianza de dos variables (x,y), es una medida de como están relacionadas linealmente. Una covarianza positiva indica una relación lineal positiva, una covarianza negativa indica lo contrario. La covarianza de una muestra esta definida en términos de las medias de las variables:
El coeficiente de correlación (Pearson) es el resultado de la covarianza dividida para el producto de las dos desviaciones estándar . Es una medida de que tanto las dos variables están linealmente relacionados. Se define con la siguiente fórmula, donde sxy sy son las desviaciones estándar, y sxy es la covarianza.
rxy=sxy / (sx*sy)
El sesgo es una medida de simetría. Un sesgo negativo indica que la media es menor a la mediana y el sesgo se va hacia la izquierda, un sesgo positivo indica lo contrario.
La curtosis es una medida de la altura de la campana de distribución de una variable. Una curtosis negativa indica una campana plana y se llama platocúrtica. Una curtosis positiva indica una campana alta y se llama leptocúrtica. Una distribución normal (ej: media 0,sd 1) presenta una curtosis de 0 y se llama mesocúrtica.
Hagamos unos gráficos