[MÚSICA] [MÚSICA] En este video, vamos a discutir acerca del modelo de regresión lineal simple, específicamente sobre cómo se representan los datos, la ecuación asociada al modelo y sus parámetros, los supuestos del modelo y, finalmente, sus principales propiedades y la estimación de sus parámetros. Se trata de explicar el comportamiento de una variable aleatoria Y a través de una variable aleatoria X. La metodología supone que entre estas dos variables existe una relación lineal que se puede expresar a través de una ecuación. Vamos a hablar sobre algunos casos ilustrativos de aplicación de un modelo de regresión lineal. Caso 1. Y, variable dependiente, definida como el número promedio de días en mora por mes de los clientes de un crédito bancario. X, variable independiente definida como el puntaje asignado al cliente con base a la información disponible sobre esto. Caso 2. Y, variable dependiente, correspondiente a las ventas de determinado producto en el primer año. Y X, variable independiente, definida como la inversión en publicidad para dicho producto. Caso 3. Y, variable dependiente, definida como el precio de una acción en el mercado de valores. Y X, variable independiente, definida como la utilidad por acción o retorno a los accionistas. Notemos en cada uno de estos tres casos se trata de pronosticar, estimar, el valor que toma la variable aleatoria Y si se conoce el valor que toma la variable aleatoria X. Para construir un modelo de regresión lineal y producir el modelo estimado es necesario, uno, entender cómo se representan los datos. Dos, formular el modelo y los supuestos. Tres, saber cómo se estiman los parámetros del modelo. Cuatro, conocer las hipótesis estadísticas de interés y las pruebas asociadas. Cinco, utilizar un programa computacional, en nuestro caso el paquete SPSS, que con base en las especificaciones del modelo de regresión y los datos, permita estimar el modelo y producir los resultados de mayor interés. Y finalmente, seis, realizar el análisis e interpretación de los resultados de la estimación. Vamos a ver ahora un ejemplo ilustrativo sobre la formulación de un modelo de regresión lineal. El número de días en mora de un cliente de un banco es una medida de desempeño del comportamiento de los clientes con relación a una obligación bancaria. Un banco está interesado en estimar el número de días en mora de un cliente con base en el score de crédito que el banco le ha calculado al cliente en el momento de su vinculación. El presente caso busca analizar si el score de crédito es una buena medida para explicar el número de días en mora de un cliente en determinada obligación de pago. Con este objetivo en mente, se toma una muestra de 22 clientes seleccionados al azar, registrando las variables antes mencionadas. Nos interesa, por tanto, analizar la relación que existe entre estas dos variables y, en particular, construir el modelo de regresión lineal simple para explicar el comportamiento del cliente medido como el número de días de mora por medio de la variable score de crédito del cliente. Se trata entonces de realizar la estimación del efecto que produce cada punto adicional en el score de crédito sobre el número de días de mora. Es decir, estimar el valor de los parámetros B0 y B1 del modelo Y igual a B0 más B1X más E. ¿De dónde partimos? De n observaciones Y1, X1, Y2, X2, Yn, Xn de las variables aleatorias X y Y. En SPSS y en Excel cada una de las variables corresponde a una columna y cada observación a una fila, tal como se ilustra en la tabla que aparece en la pantalla. Por otro lado, la gráfica que observamos en la pantalla representa en el plano cartesiano cada una de las observaciones acorde con los valores que toman en las variables X y Y. La línea recta que aparece en color verde en la gráfica es la que correspondería al modelo estimado que escribiremos más adelante. La ecuación del modelo de regresión lineal está dada por Y igual a B0 más B1X más E; o en términos de las observaciones, Yi es igual a B0 más B1Xi más Ei para i igual a 1 hasta n. En donde B0 y B1 son parámetros desconocidos que es necesario estimar con base en las n observaciones de las variables X y Y, mientras que el término Ei es un valor aleatorio que se conoce como el error asociado a la i-ésima observación, es decir, lo que se aleja al valor Yi del valor B0 más B1Xi ubicado sobre la recta. Los supuestos que se utilizan en la formulación y estimación de un modelo de regresión lineal simple son los siguientes. X es una variable controlada. El valor esperado del error de las observaciones es 0 y la varianza de la variable asociada al error es constante. Los errores de las observaciones son independientes entre sí, por lo cual se tiene que covarianza de Ei con Ej es igual a 0 para i diferente de j. Y adicionalmente, se conoce como supuesto fuerte a la condición de que Ei, el error de la i-ésima observación, tiene distribución normal de media 0 y varianza sigma cuadrado. Como consecuencia de dichos supuestos, tenemos que el valor esperado de Y dado que X es igual a X es igual a B0 más B1 por X. B0 y B1 y sigma cuadrado son parámetros del modelo no observables con valor desconocido que deben ser estimado con base en los datos. Se trata, por tanto, de estimar los parámetros B0 y B1 con base en los valores de la muestra. Supongamos que los valores estimados son B0 sombrero y B1 sombrero. Entonces, el modelo estimado está dado por Y estimado igual a B0 estimado más B1 estimado por X. Y en términos de las observaciones, estaría expresado por Yi estimado es igual a B0 estimado más B1 estimado por Xi, que corresponde al valor estimado para la i-ésima observación de la variable Y, dado que la variable independiente correspondiente a esa observación tomó el valor Xi. Se define el error de estimación para la observación i-ésima como la diferencia entre el valor de la variable dependiente Y para la i-ésima observación de la muestra y el valor estimado para la variable Y a través del modelo para la i-ésima observación. Es decir, Ei estimado es igual a Yi menos Yi estimado. Tiene particular interés lo que se conoce como la suma de los cuadrados de los errores, que está dado por sumas de los cuadrados de los errores igual a la sumatoria desde i igual a 1 hasta n de Ei estimado al cuadrado. Puesto que para un conjunto de observaciones dado, el modelo estimado será mejor en la medida en que la suma de los cuadrados de los errores sea más pequeña, lo que está indicando que el error total de estimación es menor. A continuación, aparece en una gráfica ilustrativa la situación que acabamos de describir sobre un modelo de regresión lineal. En el plano cartesiano X, Y aparecen cada una de las observaciones Xi, Yi representadas por puntos. La recta estimada Y estimado igual a B0 estimado más B1 estimado, en donde se resalta B1 estimado, que corresponde a la pendiente de la recta de regresión y B0 estimado, que corresponde al intercepto de la recta con el eje Y. Adicionalmente, observamos para el valor Xi correspondiente valor Yi, el valor Yi estimado y el error estimado, que es igual a la diferencia entre Yi menos Yi estimado. Estimación de los parámetros B0 y B1 del modelo de regresión. En el contexto antes descrito, los estimadores B0 estimado y B1 estimado, que minimizan la suma de los cuadrados de los errores para el conjunto de observaciones Y1, X1, Y2, X2, hasta Yn, Xn, de las variables aleatorias X y Y, están dados por B0 estimado es igual a Y barra menos X barra por beta 1 estimado, en donde beta 1 estimado es igual a la suma ajustada de productos cruzados de las variables X y Y, dividido por la suma ajustada de cuadrados de la variable X, lo cual se representa por SXY dividido por SXX. X barra y Y barra corresponden a las medias muestrales de las variables X y Y, respectivamente. Es importante resaltar que los estimadores beta 0 estimado y beta 1 estimado, se pueden calcular utilizando únicamente los valores de la muestra y que son variables aleatorias, puesto que son combinaciones lineales de las variables y1, y2, hasta y sub n. Veamos ahora cuál es la interpretación del valor de los parámetros. Beta 0 estimado corresponde al intercepto, es decir, al punto en el que la recta del modelo corta al eje Y. Mientras que beta 1 estimado corresponde al cambio esperado de la variable Y, por incremento de una unidad en la variable X, lo cual coincide con la pendiente de la recta. Como resultado de las propiedades del modelo, se obtiene que los estimadores son combinaciones lineales de los y sub i, que son centrados, es decir, que el valor esperado de beta 0 estimado es igual a beta 0, y el valor esperado de beta 1 estimado es igual a beta 1, y su varianza está dada por. [MÚSICA] [MÚSICA] La varianza de los errores, sigma cuadrado, igual a varianza de E sub i, se estima a través de la estadística, sigma cuadrado estimado es igual a la suma de los cuadrados de los errores sobre n menos 2, el cual es un estimador centrado del parámetro sigma cuadrado. Adicionalmente, si se suman los supuestos fuertes del modelo de regresión lineal, entonces la suma de los cuadrados de los errores sobre sigma cuadrado tiene una distribución X cuadrado de n menos 2 grados de libertad. Una característica fundamental del modelo de regresión lineal es lo que se conoce como la ecuación de ANOVA para el modelo de regresión lineal, la cual aparece a continuación en la pantalla. [MÚSICA] [MÚSICA] Dicha ecuación es muy importante en el análisis de la calidad del modelo de regresión lineal puesto que descompone la variabilidad de la variable dependiente, suma de los cuadrados totales, en dos grandes factores. La suma de los cuadrados de la regresión, que corresponde a lo que el modelo explica de la variabilidad de la variable Y, y la suma de los cuadrados de los errores que es lo que el modelo de regresión no está en capacidad de explicar a través de la variable X. Veamos ahora cuáles son las hipótesis de interés en el modelo de regresión lineal. Para establecer si el modelo es significativo para explicar la variable Y a través de la variable X, se deben confrontar las hipótesis estadísticas dadas por H0, beta 1, es igual a 0, y H1, beta 1, es diferente de 0. H0 corresponde a la afirmación, el modelo no es significativo, y H1 corresponde a la afirmación, el modelo es significativo. Prueba asociada. Bajo el supuesto de que H0 es verdadera, la estadística, suma de los cuadrados de la regresión, sobre la suma de los cuadrados de los errores, dividido por n menos 2, tiene una distribución F de un grado de libertad en el numerador, y n menos 2 grados de libertad en el denominador. Notemos que en la medida en que la suma de los cuadrados de la regresión domina la suma de los cuadrados de los errores, debemos tender a rechazar la hipótesis nula. Si el valor calculado de la estadística cae en la región crítica correspondiente por ejemplo al percentil del 5% superior, entonces debemos rechazar la hipótesis nula de que beta 1 es igual a 0, lo cual significa que el modelo de regresión sí es relevante para explicar la variable Y, con un nivel de significancia del 5%. Un indicador importante para analizar la bondad del modelo de regresión lineal es el llamado coeficiente de determinación, definido por R cuadrado igual a la suma de los cuadrados de la regresión, dividido por la suma de los cuadrados totales, el cual se interpreta como el porcentaje de variabilidad de la variable Y que es explicada por el modelo de regresión. Por último, el intervalo de confianza de confiabilidad 100 veces 1 menos alfa porciento, para el parámetro beta 1, está dado por la expresión [MÚSICA] donde t n menos 2, 1 menos alfa medios, corresponde al valor de una variable aleatoria con distribución t, con n menos 2 grados de libertad, que acumula una probabilidad de 1 menos alfa medios, correspondiente al nivel de confianza del intervalo. [AUDIO_EN_BLANCO] [AUDIO_EN_BLANCO] [AUDIO_EN_BLANCO] [MÚSICA]