[MUSIC] Una vez que hemos estimado el modelo, nos interesa responder las siguientes preguntas. ¿Qué porcentaje de la variabilidad en y, en la variable dependiente en las ventas, está siendo explicada por X, por los gastos de publicidad? ¿Son las observaciones cercanas a la recta estimada? Para responder a estas preguntas podemos calcular lo que se llama el R cuadrado o el coeficiente de determinación. El R cuadrado es la medida más utilizada, pero no la única, como medida de bondad del ajuste del modelo, y se calcula como la fracción de la varianza muestral de Y, de la variable dependiente, que está siendo explicada por X. El R cuadrado nos va a indicar ¿qué proporción de la variabilidad total de esta variable dependiente está siendo explicada por el modelo? El R cuadrado entonces será un número que estar acotado entre 0 y 1. Si tenemos una R cuadrado de 1, estaríamos diciendo que nuestro modelo explica en un 100% la variabilidad en la variable dependiente, cosa que en la práctica no va a suceder, porque sería como encontrar el predictor perfecto. En cambio, en el otro extremo, si el R cuadrado es igual a 0, quiere decir que nuestro modelo explica en un 0% la variabilidad en la variable dependiente. En nuestro ejemplo, el R cuadrado es de 0.82. ¿Qué implica esto? Que nuestro modelo, es decir, en este caso el inversión en publicidad, está explicando en un 82% la variabilidad que hay en las ventas. Se puede anotar que en el caso de regresión simple, el R cuadrado va a ser igual al coeficiente de correlación al cuadrado, es decir ese 0,904, que habíamos calculado, al cuadrado. Acá les estoy mostrando una salida de regresión en Excel, a partir de los mismos datos que había utilizado antes de las ventas y de la inversión en publicidad. En un video aparte, hay un instructivo de cómo hacer para obtener esta salida de regresión. Noten lo que está iluminado en amarillo. Por un lado el R cuadrado de 0.82 que les había comentado, y por el otro lado los coeficientes estimados. Es decir, el coeficiente de la constante que a veces también se lo conoce como intercepción o intercepto, y el coeficiente de la pendiente, es decir, del impacto que tiene la inversión en publicidad sobre las ventas. Son exactamente los mismos números que les había mostrado antes. Vamos a profundizar entonces en el análisis del resto de la salida de regresión. Es decir, para hacer inferencia estadística en el contexto de regresión, necesitamos conocer la distribución de los estimadores de mínimos cuadrados ordinarios, es decir, del beta 0 sombrero y del beta 1 sombrero. Para ello, vamos a necesitar hacer algunos supuestos que en la práctica pueden no darse, y que entonces tendremos luego que ver cómo lo resolvemos. El primero supuesto dice lo siguiente. Que la distribución condicional del error aleatorio al modelo, dado X, tiene una media de 0. Es decir, una vez que X es conocido, los errores serán positivos o negativos pero queremos que media sean 0, que compensen. El supuesto 2 dice que tanto X como Y son variables aleatorias independientes e idénticamente distribuidas a través de las observaciones. Es decir, estamos haciendo muestreo aleatorio. En el supuesto 3 vamos a asumir que los outliers, esto es los valores extremos, son poco probables. Si se dan estos supuestos, se puede probar mediante el teorema central del límite que la distribución de estos estadísticos va a ser normal. Con una media igual al parámetro poblacional que se quiere estimar, y una varianza que va a estar dada principalmente a través de la varianza del error. Es decir, de aquello que no mido, por eso a veces se llama la heterogeneidad no observada, y de la varianza de los datos. Noten que en realidad la varianza del estimador de mínimos cuadrados es desconocida. ¿Por qué? Porque al observar el error, tampoco podemos calcular sigma cuadrado de épsilon, es decir, la varianza poblacional del error. ¿En esos casos, qué se hace? Se estima. Lo que tendremos que hacer en realidad es estimar la varianza del residuo que es lo que sí podemos medir. Entonces, en este caso, épsilon en realidad es el residuo estimado, lo que antes habíamos llamado E, que se puede calcular como en la sumatoria de los residuos al cuadrado, dividido n- 2. Es decir, el tamaño de la muestra o cantidad de observaciones menos 2. ¿Por qué en este caso menos 2? Porque necesitamos, para calcular los recibos, haber estimado tanto la constante como la pendiente.