[MUSIC] En esta sesión veremos distintos estadísticos para medir la relación entre dos variables. Hasta ahora hemos discutido cómo utilizar las medidas de tendencia central, medidas de dispersión para resumir un conjunto de datos. También podríamos estar interesados en medir la fuerza de la relación entre dos conjuntos de datos. Por ejemplo, ¿cómo se relaciona los gastos de publicidad con las ventas de una compañía? ¿Cómo se relaciona el precio de una bebida o un producto en particular con la cantidad consumida de éste? La relación lineal entre dos conjuntos de datos se puede medir a través de la correlación o el coeficiente de correlación. A continuación se reportan tres gráficos de dispersión o nubes de puntos, donde en cada eje X e Y, eje de las absisas y eje de las ordenadas, se pone una variable y cada punto corresponde a una observación. En el primer gráfico observamos una correlación positiva, o una asociación positiva que parece bastante lineal entre una variable y la otra. Es decir, en la medida en que X se incrementa, Y tiende a incrementarse. En cambio, en el segundo gráfico, observamos una correlación negativa, una asociación inversa entre X e Y. En la medida en que X tiende a incrementarse, Y tiende a disminuir, y esa relación parece bastante lineal. En cambio, en el último gráfico no hay una correlación clara, es decir, no hay una asociación lineal clara entre estas dos variables. La nube de puntos es bien dispersa. El coeficiente de correlación de Pearson, lo que intenta medir es cuán asociadas en forma lineal están dos variables, y se le denomina con la letra r. Coeficiente de correlación es el ratio de la covarianza entre X e Y, dividido el desvío de X por el desvío de Y. Es decir, observo dos variables, mido su covarianza, y la divido por el desvío estándar de cada una de ellas. Bien, la covarianza para calcular el coeficiente de correlación, vimos que necesitamos calcular la covarianza. La covarianza es una medida que indica el co-movimiento de dos variables respecto a su media. Formalmente, la fórmula indica que a cada valor que toma X, la tengo que restar su media. Que a cada valor que toma Y, le tengo que restar su media, tengo que multiplicar entre sí estas dos diferencias respecto de cada media, y tomar un promedio de ello. O si trabajo en muestra chica, dividir por n- 1 en vez de por n. En el Excel, la fórmula de la covarianza es COVAR, y dentro de esa fórmula pondrán todos los datos X y todos los datos de Y. La covarianza va a ser un número que puede llegar a ser positivo o negativo. Si es positivo, va a indicar una dependencia lineal directa entre las dos variables, mientras que si es negativo, una dependencia lineal inversa entre las dos. Al igual que la varianza, no es un estadístico que esté libre de las unidades de medidas. Esto es, si X está medida en pesos, Y está medida en grados centígrados, tendremos una medida que estará expresada en pesos por grados centígrados. Y puede ser que esa medida no tenga una interpretación económica o intuitiva. Por eso, el coeficiente de correlación es preferible, you que es una medida libre de unidades. De hecho, es invariante al cambio de unidades. Si yo paso de medir X en miles de dólares a millones de dólares, no va a cambiar el coeficiente de correlación. De hecho, el coeficiente de correlación r va a estar acotado entre -1 y 1, you que está normalizado por el desvío estándar de X y por el desvío estándar de Y. Su signo va a estar dado por el signo de la covarianza, es decir, si la covarianza es positiva, el coeficiente de correlación tiene que ser positivo. Y si la covarianza es negativa, el coeficiente de correlación tiene que ser negativo. Y lo que va a medir este número es la dependencia lineal, es decir, si los datos X e Y tienden a caer sobre una recta, cuantifica la fuerza de la relación pero no la forma de la recta, es decir, su pendiente ni su ordenada al origen. ¿Qué sería un r = 1, es decir, un coeficiente de correlación igual a 1? Sería un caso de correlación positiva perfecta, es decir, la nube de puntos quedó perfectamente alineada y montada sobre una recta. En cambio un r de -1 sería un caso de correlación negativa perfecta, y una relación perfectamente inversa y de tipo lineal entre estas dos variables. Correlación 0 es lo que habíamos visto, no hay asociación lineal entre estas dos variables, pero podría haber casos de fuerte asociación no lineal, como en este último caso. Se hizo una relación que es cuadrática, una fuerte asociación, pero no de tipo lineal. Entonces, recordar que el coeficiente de correlación mide un tipo de asociación, y es el tipo lineal. Y ojo, que la correlación implica causalidad, y aquí hay una serie de ejemplos que encontré en una página que se llama tylervigen.com. Pueden meterse y buscar otros ejemplos. Y por ejemplo, tenemos una variable que es el gasto de Estados Unidos en ciencia, espacio y tecnología, que correlaciona fuertemente con la cantidad de suicidios por ahorcamiento, estrangulación y sofocación. Si mira los datos, y calcula en el coeficiente de correlación les da 0,99789, muy cercano a 1. Pero uno no esperaría que acá es una relación causal, que haya una variable que esté causando a la otra. Estos son casos de lo que se llama correlación espuria, encontrar una relación estadística donde no hay una relación causal. Otro ejemplo es el número de personas que mueren ahogadas en una pileta, que correlaciona con la cantidad de películas en las que aparece Nicolas Cage. Si calculan la correlación entre estas dos variables, entre el 99 y el 2009, van a ver que la correlación es considerable. Es de 0,67 redondeando, pero uno no esperaría que haya una correlación de tipo causal entre estas variables. Entonces, esto a modo de advertencia. Ojo, que encontrar correlación no implica que haya causalidad entre estas variables.