miércoles, 16 de mayo de 2012

Tema 8

En este tema vamos a hablar acerca de las medidas de tendencia central (dan idea de la magnitud o tamaño de los datos) como son la media aritmética, la mediana y la moda, y medidas de posición (dan información acerca de la heterogeneidad de nuestras observaciones) como pueden ser los cuantiles dentro de los cuales incluimos los percentiles, deciles y cuartiles. Por una parte hablaremos de las medidas de tendencia central. En primer lugar la media aritmética se calcula para variables cuantitativas y se trata del centro geométrico o de gravedad de nuestros datos. Es la suma de todos los valores de la variable observada entre el total de observaciones, se calcula mediante la fórmula: x= Ʃx/n; aunque cuando los datos son agrupados se utiliza la siguiente fórmula: x= Ʃmcfi/n. La mediana es otra medida de tendencia central es el valor de la observación tal que el 50% de los datos es menor y otro 50% es mayor.


- Si el número de observaciones es impar el valor de la observación será justamente la observación que ocupa la posición (n/2)+1.
- Si el número de observaciones es par, el valor de la mediana corresponde a la media entre los dos valores centrales, es decir, la media entre la observación n/2 y la observación (n/2)+1.
La moda es el valor con mayor frecuencia, es decir, el valor que más veces se repite. Cuando hay dos modas se llama bimodal, si hay más de dos se denomina multimodal y si no hay ningún valor que se repita se llama amodal.
Por último vamos a hablar un poquito de los cuantiles que se clasifican en tres tipos:


-          Percentiles:
o   Dividen la muestra ordenada en 100 partes.
o   El percentil “i” (Pi), es aquél valor que, ordenadas las observaciones en forma creciente, el i% de ellas son menores que él y el (100-i)% restante son mayores.
o   Para buscar la posición de un percentil en una serie de datos agrupados, buscamos el intervalo en el que la frecuencia relativa acumulada (Hi) sea superior al valor del percentil.
o   El valor del P50 corresponde al valor de la mediana.

-          Deciles:
o   Dividen la muestra ordenada en 10 partes.
o   El decil “i” (Di), es aquél valor que, ordenadas las observaciones en forma creciente, el i/10% de ellas son menores que él y el (100-i)/10% restante son mayores.
o   El valor del D5 corresponde al valor de la mediana y, por tanto, al del P50.
-          Cuartil:
o   Dividen la muestra ordenada en 4 partes.
o   El Q1, primer cuartil indica el valor que ocupa una posición en la serie numérica de forma que el 25% de las observaciones son menores y que el 75% son mayores.
o   El Q2, segundo cuartil indica el valor que ocupa una posición en la serie numérica de forma que el 50% de las observaciones son menores y que el 50% son mayores. Por tanto, el Q2 coincide con el valor del D5, con el valor de la mediana P50.
o   El Q3, tercer cuartil indica el valor que ocupa una posición en la serie numérica de forma que el 75% de las observaciones son menores y que el 25% son mayores.
o   El Q4, cuarto cuartil indica el valor mayor que se alcanza en la serie numérica.






Por otra parte también hablamos de las medidas de dispersión que son el rango o recorrido, la desviación media, la desviación típica, la varianza y el coeficiente de variación. Vamos a ir hablando de cada una de ellas en este mismo orden. Primero voy a hablaros del rango o recorrido que es la diferencia entre el mayor y el menor valor de la muestra lXn-X1l. La desviación media es la media aritmética de cada observación con respecto a la muestra para lo cual utilizamos la fórmula: d_m=(∑ |xi-x| )/n. La desviación típica sirve para cuantificar el error que cometemos si representamos una muestra únicamente por su media y para ello se usa la siguiente fórmula: S=√((∑(xi-x)^2 )/(n-1)). Para el cálculo de la varianza se utiliza la fórmula S^2=∑((x_i-x^2 ))/(n-1) y por último hablaré del coeficiente de variación que es una medida de dispersión relativa y que nos sirve para comparar la heterogeneidad de dos series numéricas con independencia de las unidades de medidas. Para poder realizar su cálculo podemos utilizar esta fórmula c.v.=s/x. 

Además estudiamos las distribuciones normales que se define como una de las distribuciones de probabilidad de variable continua que con más frecuencia aparece en fenómenos reales, la distribución normal también puede denominarse distribución de Gauss o distribución gaussiana y es una gráfica con una forma acampanada y simétrica respecto a los valores de posición central. Dentro de estas distribuciones están incluidas las asimetrías y la curtosis o apuntamiento.



Asimetrías.Los resultados pueden ser los siguientes:
- g1=0 (distribución simétrica; existe la misma concentración de valores a la derecha y a la izquierda de la media).
- g1>0 (distribución asimétrica positiva; existe mayor concentración de valores  a la derecha de la media que a su izquierda).
- g1<0 (distribución asimétrica negativa; existe mayor concentración de valores a la izquierda de la media que a su derecha).



La curtosis o apuntamiento sirve para medir el grado de concentración de los valores que toma en torno a su media.Se elige como referencia una variable con distribución normal, de modo que para ella el coeficiente de curtosis es 0.


Los resultados pueden ser los siguientes:
- g2=0 (distribución mesocúrtica). Presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución normal).
- g2>0 (distribución leptocúrtica). Presenta un elevado grado de concentración alrededor de los valores centrales de la variable.
- g<0 (distribución platicúrtica). Presenta un reducido grado de concentración alrededor de los valores centrales de la variable.

No hay comentarios:

Publicar un comentario