[MUSIC] En esta sesión vamos a dar cómo trabajar con datos agrupados. En la práctica la mayor parte de los conjuntos de datos contienen muchas observaciones. Es decir, tenemos tamaños de muestras muy muy grandes por lo que cuando la cantidad de información es muy grande resulta conveniente reducirla agrupando las observaciones en intervalos o tablas de frecuencias. Muchas veces no solo se representan los datos en forma agrupada para reducir la cantidad de información sino también porque hay variables que son sensibles a la no respuesta. Es decir, es más probable que una persona en una encuesta conteste cierta información cuando se le pide que se ubique en un rango que cuando se le pide el valor exacto. A modo de ejemplo, si vamos a encuestar una serie de personas y vamos a preguntar su nivel de ingresos, nivel salarial es más probable que conteste cuando se quiere ubicar en un rango que cuando le pedimos el valor exacto. Hay otras variables que también son sensibles a la no respuesta como por ejemplo la edad de las mujeres. La siguiente tabla tiene datos de ingreso mensual en dólares de 3200 individuos en cierta ciudad. ¿Cómo se lee esto? Estamos diciendo que de los 3200 individuos hay 250 que perciben un salario entre 150 dólares y 450 dólares y hay 800 individuos que tienen un salario entre 450 dólares y 750 dólares. Pero estos intervalos o clases tienen que ser mutuamente excluyentes. ¿Qué quiere decir esto? Si un individuo que tiene un salario de exactamente de 450 dólares no puede estar en el primero y segundo intervalo a la vez. Es decir, fíjense cómo está la anotación: el paréntesis lo que hace es excluir el valor y el corchete lo incluye, que quiere decir que un individuo que tiene un salario de exactamente 450 dólares está registrado en el primer intervalo pero no en el segundo intervalo. Si sumamos todas las frecuencias o todas las observaciones para cada uno de los intervalos vamos a llegar a 3200, es decir, el n, el tamaño de la muestra. Entonces, vamos a llamar frecuencia al número de observaciones de cada intervalo clase y vamos a llamar frecuencia acumulada al número total de observaciones que hay en ese intervalo y en los anteriores. ¿Qué quiere decir esto? Si me paro en el segundo intervalo que va de 450 a 750 la frecuencia es de 800 individuos que perciben un salario dentro de ese rango. Y la frecuencia acumulada es de 1050, es decir, sumamos los 800 más los 250 del intervalo anterior. De esta forma si avanzamos a lo largo de los intervalos el último intervalo va a tener una frecuencia acumulada igual a n, es decir, a los 3200 casos. Vamos a llamar frecuencia relativa a la proporción de observaciones de cada intervalo o clase. En sí lo que queremos hacer es expresar la frecuencia en términos porcentuales. Pensemos en otro ejemplo, lo que queremos observar es los días de ausentismo laboral en el último trimestre y supongamos que esta compañía tiene 1440 empleados y que estos en el último trimestre no faltaron nunca o faltaron una vez, dos, tres, cuatro o cinco veces. No hay otro caso posible. Es decir, no hay individuos que hayan faltado 6 o más veces. ¿Qué quiere decir esto? Que hay 410 empleados que nunca faltaron en el último trimestre. Que eso representa el 28,5 % del total de empleados. O sea, lo que estoy haciendo es 410 dividido entre 1440 por cien para expresarlo en términos porcentuales. Entonces, lo que uno puede hacer es graficar un histograma. El histograma nos permite hacernos una idea visual rápida y adecuada de la proporción de observaciones que se encuentra dentro de un determinado intervalo ¿sí? Entonces acá tenemos graficado el histograma de los días de ausentismo laboral, donde en el eje Y está la cantidad de empleados, pero podría estar también la frecuencia relativa. Un histograma sirve, entre otras cosas, para tener una primera vista de los datos de cómo estos se distribuyen para poder detectar casos extremos a derecha o a izquierda de la distribución, para poder detectar problemas con los datos y para ver qué es lo que sucede con mayor frecuencia. Vamos a ver dos medidas que a veces se denominan medidas de forma que se refieren a la forma de la distribución. Una es la asimetría y otra es la curtosis. La distribución de los datos puede ser simétrica o asimétrica. Cuando la distribución es simétrica, la media va a coincidir con la mediana y va a coincidir con la moda como se muestra en el primer gráfico. Es decir, tenemos igual igual proporción de observaciones a izquierda y a derecha de la media que coincide con la mediana y con la moda por ser el valor más frecuente. En cambio, podríamos tener casos de distribuciones asimétricas a derecha y a izquierda. Cuando la distribución es asimétrica derecha quiere decir que es asimétrica positiva, que el coeficiente de asimetría es positivo. Es decir, existen unos pocos valores extremos a la derecha de la distribución que hace que se sesge la media de forma tal que la media es mayor que la mediana, que resulta ser mayor que la moda. La mayor concentración de los datos está a la izquierda de esta distribución pero hay unos pocos valores extremos a su derecha. En caso contrario vamos a hablar de asimetría de izquierda y de un coeficiente de asimetría negativa. En esos casos la media va a ser menor que la mediana que va a ser menor que la moda. La otra medida de forma que vamos a ver es la que se conoce como la curtosis. La curtosis mide el grado de concentración que presentan los valores en la región central de la distribución. Y lo que vamos a hacer es usar como referencia la distribución normal. Se dice que la distribución normal es mesocúrtica, que sería el primero de los gráficos. Si tenemos una distribución de datos que tiene una mayor curtosis que la normal, o exceso de curtosis respecto de la normal, la vamos a llamar leptocúrtica. Hay un mayor grado de concentración en los valores en la región central. En cambio si hay una menor curtosis respecto de una distribución normal, lo que vamos a hacer es decir que esta variable es platicúrtica. Es decir hay un menor grado de concentración de los valores en torno de la media o la región central. Si entonces vamos a considerar como punto de referencia la famosa campana de Gauss o distribución normal.