El OLD otra vez
El OLD otra vez

La estadística descriptiva es  la estadística que recolecta, ordena, analiza y presenta datos colectados de una población, para describir las características de esta. Esta descripción es básica, solo se enfoca en mostrar como los datos se agrupan o se dispersan en torno a un valor central.

Sus componentes principales son  las medidas de tendencia central y medidas de dispersión. Los parámetros que calcula la estadística descriptiva son llamados estadísticos.


La media de una variable es una medida numérica que representa el centro de gravedad de los valores. Es la suma de todos los datos dividida para su conteo.

  • duracion = faithful$eruptions     #Duración de las erupciones
  • mean(duracion)                    #Usamos la función mean

La mediana de una variable es el valor de la mitad cuando los datos se ordenan de forma ascendente. Es una medida ordinal de tendencia central.

  • median (duracion)     #Usamos la función median

Los cuartiles dividen los datos en cuatro grupos. Cada grupo contiene el 25% de los datos, se distribuyen de forma ascendente. 

  • quantile (duracion)        #Usamos la función quantile

Los cuantiles dividen los datos proporcionalmente donde n es el porcentaje de los datos cuando están ordenados de forma ascendente.

  •  quantile (duracion, c (.32, .57, .98))      #Usamos la función quantile pero asignamos valores

El rango de una variable es la diferencia entre el dato de mayor valor y el menor. Es una medida de distribución de los datos.

  • range (duracion)    #Usamos la función range
  • max(duracion)− min(duracion)  #Alternativa a la función range

El rango intercuartiles de una variable es la diferencia entre el cuartil superior y el inferior.  Es una medida de como se distribuye la porción media de la muestra.

  • IQR (duracion)      #Usamos la función IQR  

El diagrama de cajas o boxplot es una representación gráfica de los cuartiles, así como de el valor más pequeño y el el más grande. Nos representa la distribución de una forma visual y basada en mediana.

  • boxplot(duracion, horizontal=TRUE)  #Hacemos un boxplot horizontal 

La varianza es una medida numérica que muestra como se dispersan los datos alrededor de la media. La varianza de una muestra se calcula con la siguiente fórmula:

s^2 = \frac{\displaystyle \sum_{i=1}^n \left( x_i - \overline{x} \right) ^ 2 }{n-1}

  • var (duracion) #Calculamos la varianza usando la función var

 

La desviación estándar es la raíz cuadrada de la varianza. Muy útil para evaluar datos a primera vista. 

  • sd (duracion) #Calculamos la desviación estándar usando la función sd

 

 

La covarianza de dos variables (x,y), es una medida de como están relacionadas linealmente. Una covarianza positiva indica una relación lineal positiva, una covarianza negativa indica lo contrario. La covarianza de una muestra esta definida en términos de las medias de las variables:

{\displaystyle s_{xy}={1 \over n}\sum _{i=1}^{n}{(x_{i}-{\overline {x}})(y_{i}-{\overline {y}})}}

  • duracion = faithful$eruptions     #Definimos duración de las erupciones
  • espera= faithful$waiting     #Definimos espera
  • cov(duracion, espera)          #Aplicamos la función cov

El coeficiente de correlación (Pearson) es el resultado de la covarianza dividida para el producto de las dos desviaciones estándar . Es una medida de que tanto las dos variables están linealmente relacionados. Se define con la siguiente fórmula, donde sxy sy son las desviaciones estándar, y sxy es la covarianza.

rxy=sxy / (sx*sy)

  • cor(duracion, espera)   #Usamos la función cor 

El sesgo es una medida de simetría. Un sesgo negativo indica que la media es menor a la mediana y el sesgo se va hacia la izquierda, un sesgo positivo indica lo contrario. 

  • library(e1071)                    # Cargamos el paquete e1071 
  • skewness(duracion)                # Usamos la función skewness

La curtosis es una medida de la altura de la campana de distribución de una variable. Una curtosis negativa indica una campana plana y se llama platocúrtica. Una curtosis positiva indica una campana alta y se llama leptocúrtica. Una distribución normal (ej: media 0,sd 1) presenta una curtosis de 0 y se llama mesocúrtica.

 

  • library(e1071)                    # Cargamos el paquete e1071 
  • kurtosis(duracion)                # Usamos la función kurtosis

 

Hagamos unos gráficos

  • par(mfrow=c(2,2))  # Vamos a hacer 4 gráficos en una figura
  • hist(duracion,main="Histograma de Erupciones", ylab="Frecuencia",xlab="Tiempo (mn)") # El histograma que ya vimos
  • hist(duracion, breaks=16, col=2, freq=FALSE,main="Histograma de Erupciones", ylab="Frecuencia",xlab="Tiempo (mn)") # Histograma mejorado con 16 breaks
  • cortes <- seq(1.5, 5.5, by=0.1) #Definimos otros breaks
  • hist(duracion, breaks=cortes,main="Histograma de Erupciones", ylab="Frecuencia",xlab="Tiempo (min)") #Histograma con otros breaks
  • plot(density(duracion),main="Diagrama de densidad", ylab="Densidad",xlab="Tiempo (min)") #Hacemos un gráfico de densidad