[MUSIC] En esta sesión veremos lo que se conoce en estadística como medidas de dispersión. Si nos limitáramos solamente a fijarnos en las medidas de tendencia central, media, mediana, moda, no vamos a tener una idea acabada de cómo se distribuyen los datos. A modo de ejemplo imaginemos que queremos comparar la cantidad de llamadas recibidas en un call center por trimestre en 2011 y en 2012 y observamos la siguiente tabla. Es decir, en el primer trimestre de 2011 entraron 1200 llamadas all call center, mientras que en 2012 entraron 1070. Si calculan la media y la mediana de estas dos variables, estos dos años van a ver que son exactamente las mismas. ¿Se puede decir que los dos grupos son parecidos? Claramente no. En el primer caso los datos son bastante más homogéneos que en el segundo caso. Entonces la medida de dispersión son medidas estadísticas que muestran la variabilidad en la distribución de los datos. Las principales medidas que veremos son la varianza y desvío estándar, el coeficiente de variación y el rango, y rango intercuartil. Dado que estamos interesados en analizar la dispersión de los datos, resulta natural fijarnos en la diferencia que tiene cada uno de estos valores respecto a la media. Es decir, ¿cuánto se aleja cada observación respecto del promedio? Como algunos valores estarán por encima de la media, y otros por debajo de ésta, algunas de las diferencias serán positivas y otras negativas, aunque van a estar equilibradas. Esto es, van a sumar a 0. Para analizar la dispersión de los datos, no nos interesa el signo de las diferencias. Entonces, las trataremos de igual forma elevando las diferencias al cuadrado. El promedio de los cuadrados de la diferencia nos proporciona la medida de la varianza. En el ejemplo de los salarios teníamos soete analistas, teníamos observadors esta variable X, que eran sus salarios mensuales medidos en miles de pesos. Lo que tenemos que hacer es a cada una de esas observaciones restarle el promedio, 33,7, algunas diferencias respecto de la media son positivas, otras negativas. Luego lo elevamos al cuadrado. Y deberíamos tomar un promedio de ello. Es decir, sumar todas esas diferencias y dividir por n. Sin embargo, cuando la muestra es pequeña, esto es cuando el n, la cantidad de observaciones es menor a 30, se divide por n- 1 en lugar de por n, como una forma de penalización porque trabajamos con muestra chica. Si bien la varianza es una medida de dispersión, resulta difícil interpretar su valor. Sé que las unidades quedaron elevadas al cuadrado a nuestro ejemplo, la varianza sería miles de pesos al cuadrado. Una forma sencilla de volver a las unidades de medida originales es tomar la raíz cuadrada positiva de la varianza y esto es lo que se conoce como el desvío estándar. Que vamos a denotar con una S. Es decir, en nuestro caso, el desvío estándar es de 1,61 miles de pesos. Por otro lado, hablaremos de coeficiente de variación. Es una medida de dispersión que se utiliza fundamentalmente para comparar la variabilidad entre dos o más conjuntos de datos con distintas unidades de medida o distintas medias. El coeficiente de variación no es más que el ratio entre el desvío estándar S y la media X raya. Por lo generalm se multiplica por 100 para expresarlo en términos porcentuales. A modo de ejemplo, imaginen que tienen una variable, que es la temperatura medida en grados centígrados, y disponen de otra variable que es la cantidad de lluvia semanal, medida en milímetros. Si quieren saber cuál de estas dos variables tiene más dispersión, no está bien comparar los desvíos estándares, you que dirían que la temperatura tiene mayor desvío que la cantidad de lluvia. Pero la temperatura está en grados centígrados y la cantidad de lluvia en milímetros. Entonces, lo que deberíamos hacer en estos casos es computar el coeficiente de variación, o sea calcular para cada caso el ratio entre el desvío estándar y la media. Si hacen los cálculos, verán que hay mayor dispersión en la cantidad de lluvia que en la temperatura. Luego veremos lo que se conoce como el rango o recorrido. Es quizás la medida de dispersión más simple y obvia porque básicamente lo que hace es tomar la diferencia entre el valor máximo que toma esta variable y su valor mínimo. En el caso de los salarios, el máximo es de 36,000 pesos y el mínimo es de 31,000 pesos, con lo que el recorrido o rango es de 5,000 pesos. A pesar de su sencillez, el rango tiene el problema de que puede verse afectado por la presencia de algún valor extremo a izquierda o derecha de la distribución. Además, no tiene en cuenta la dispersión del resto de las observaciones que no son los extremos. Entonces, lo que vamos a hacer es trabajar con lo que se llama los cuartiles, quintiles, deciles o percentiles. Básicamente lo que tenemos que hacer es ordenar en forma ascendente o descendente el conjunto de datos. Y si queremos calcular los cuartiles, lo que vamos a hacer es segmentar en cuatro partes iguales la distribución donde cada parte va a representar el 25% de esta distribución. Entonces, el primer cuartil, lo que va a hacer es dejarme a izquierda si ordenamos de menor a mayor, el 25% de los menores valores que toma esta variable. Mientras que el cuartil tres me va a dejar a la derecha el 25% de los mayores valores que toma esta variable. Y así podríamos calcular los quintiles, deciles o percentiles donde en vez de dividir en 4 segmentos iguales, estaremos dividiendo en 5, 10 ó 100 segmentos iguales. Donde cada segmento va a representar un 20%, 10% ó 1% de la distribución respectivamente. Entonces, podemos calcular lo que se llama el rango intercuartil. El rango puede ser una medida insatisfactoria you que compara el valor máximo con el valor mínimo. Una medida alternativa, y que solventa en parte este problema, es el rango intercuartil. El rango intercuartil descarta el 25% de las observaciones más altas y más bajas, y halla el rango entre las restantes. En el ejemplo de los salarios, que es bastante sencillo, pues son tan sólo siete datos, si ordenamos de menor a mayor los salarios 33 va a ser el cuartil 1, 35 va a ser el cuartil 3. Y si hacemos la diferencia entre el tercer y el primer cuartil, vamos a tener la medida del rango intercuartil que, en este caso, es de 2,000 pesos. Obviamente esto toma más relevancia cuando uno trabaja con un conjunto más amplio de datos.