[AUDIO_EN_BLANCO] [MÚSICA] Hola. Vamos a proceder ahora con herramientas complementarias al Modelo de Regresión Múltiple. Estas herramientas tienen que ver, están relacionadas con la selección de variables en el modelo y con la construcción del mismo. Para empezar, capturamos los datos, los leemos como es habitual, la base de datos cinco conteniendo los datos procesados, generamos a continuación las variables que pueden ser de interés: horario 1, horario 2, horario 3, también generamos la variable retraso en la salida al cuadrado y la variable retraso por distancia. Tres variables, decidimos considerarlas en la propuesta de modelo. Ahora mismo también es necesario empaquetar todas estas variables generando un vector de columnas que se llame features. De igual manera, La variable objetivo ArrDelay debe ser reetiquetada y debe ser llamada label. De esta forma, lo que vimos en la sesión anterior es que podemos aplicar el modelo de regresión por defecto generando el ajuste y generando las predicciones. Podemos obtener el término independiente, los coeficientes del modelo, interpretar cada una de las cosas, aquí veríamos los diferentes de los coeficientes para cada una de las variables explicativas y obtener también un índice resumen de la calidad del ajuste, por ejemplo, R cuadrado. En este caso, R cuadrado es 91,8 % A partir de aquí, un paso que puede ser interesante, sobre todo, cuando el conjunto de variables explicativas es muy elevado y existen muchas variables cuyo sentido no queda claro del todo, el paso que puede ser interesante consiste en filtrar aquellos coeficientes y, por tanto, eliminar aquellas variables del modelo que no contribuyen especialmente a la predicción de los casos. Tendría sentido eliminar coeficientes de magnitud relativamente pequeña. No obstante, los coeficientes también tienen que ver con la magnitud de la variable explicativa en cuestión. Variables expresadas en magnitudes elevadas normalmente conllevarán coeficientes pequeños y al revés. Por lo tanto, necesitamos alguna herramienta que sepa distinguir cuándo coeficientes de cierta magnitud no contribuyen especialmente a la predicción de nuestro objetivo. Para ello. se aplican técnicas de regularización. Las técnicas de regularización, por lo tanto, permiten seleccionar las variables de interés. Esta estrategia se basa en obtener la función de interés penalizando por su complejidad. you que se trata de un modelo de regresión, la complejidad solo se puede obtener a partir de los coeficientes del modelo. La función es esta, la complejidad del modelo se va a obtener a partir de una transformación de una función que pondere el peso de todos estos coeficientes. El parámetro landa aquí representado que va a penalizar, en función de los coeficientes, el criterio de maximización para obtener la función de ajuste, el parámetro landa se refiere al parámetro de regularización. Cuando este parámetro landa es cero, no hay penalización. Por lo tanto, se está aplicando el modelo de regresión estándar. Cuando el parámetro landa es diferente de cero, sí hay regularización. No obstante, la regularización puede ir vinculada a un criterio de peso. La penalización en norma L2 se llama penalización Ridge o regresión Ridge, la penalización en norma L1 se llama regresión Lasso. Estas dos estrategias de penalización dan lugar a diferentes aproximaciones y, por lo tanto, buscarán encontrar parámetros beta que minimicen justamente este criterio. verdad que entre estos dos criterios de penalización en el parámetro elasticNetParam existen más posibilidades. Cualquier valor comprendido entre 0 y 1 también es válido para incorporarse, como propuesta de criterio de penalización. Por ejemplo, vamos a examinar Ridge Regression, lo que sería el ajuste del modelo, la definición del modelo, indicamos que el parámetro de regularización es 5. Esto es arbitrario, tendríamos que regular parámetros para establecer qué propuesta podría ser la más idónea. Definimos que el parámetro de penalización es 0, por lo tanto, estamos en el contexto de Ridge Regression y ajustamos el modelo, generamos los valores predichos, comprobamos los coeficientes ajustados. Vemos como estos coeficientes son distintos de los anteriores y vemos cómo la penalización ha provocado un menor ajuste. Esto es natural puesto que estamos dando y estamos encogiendo la magnitud de los coeficientes para satisfacer la propuesta de modelización. Vemos aquí algunos coeficientes que prácticamente son 0, aquí de nuevo, aquí de nuevo, el término R cuadrado es sensiblemente menor. Podríamos probar distintos parámetros de regularización buscando optimizar este coeficiente R cuadrado. A continuación podemos explorar el comportamiento del modelo si, en lugar de Ridge Regression, consideramos Lasso. Recordad que Lasso se corresponde con una penalización en valor absoluto, mientras que Ridge se corresponde con una penalización en términos cuadráticos de los coeficientes clave. Tras indicar Lasso Regression proponemos un parámetro de regularización de esta magnitud. Esto también sería susceptible de ser modificado y examinamos los resultados tras el ajuste. Definimos el modelo, ajustamos, predecimos. En todo caso, aquí veríamos cómo el coeficiente de determinación R cuadrado, esta magnitud de la calidad del ajuste no se ha visto tan perjudicada, por lo tanto, da resultados mejores. No obstante, tras aplicar este tipo de regularización, algunos de los coeficientes han sido transformados a 0. En este caso sí desaparecen del modelo algunas variables. Puesto que la regularización se aplica a los coeficientes, esto genera alguna duda. Genera la duda sobre si la regularización se aplica a los coeficientes y la magnitud en la que se han medido las variables, puesto que determina también la magnitud de los coeficientes, puede tener algún tipo de efecto. La pregunta es qué pasa si las variables introducidas en el modelo son estandarizadas. Lo que vemos o lo que tenemos es una opción en la definición del modelo donde, por defecto, está activada el valor True. La estandarización se aplica por defecto, es decir, la estrategia de regularización se basará siempre en los coeficientes de las variables estandarizadas de forma que las magnitudes en las que se miden las variables no va a afectar el resultado. Podemos comprobarlo simplemente modificando en lugar de True, False. Podemos comprobar y comparar el resultado anterior, podéis ver que los coeficientes son distintos, en parte porque el parámetro de regularización es diferente, aquí lo vemos, dejad también comentar que esta forma de presentar los coeficientes es un poco particular, lo que nos está indicando es que este vector tiene exactamente nueve componentes y para los componentes 0, 1 y 8, los valores son estos que aparecen a continuación, mientras que el resto de componentes tiene como valores 0. Vemos que, en este caso, tras indicar que el parámetro de regularización 1, solo permanecen en el modelo tres coeficientes, por lo tanto, tres variables, por lo tanto, el resto de variables son eliminadas, y el coeficiente R cuadrado continúa siendo de una magnitud considerable. Cuando ahora modificamos el parámetro standardization e indicamos False, los coeficientes son regularizados sin ningún tipo de estandarización y podemos comprobar cómo el resultado es sensiblemente diferente. Esto indica que estandarizar las variables puede ser recomendable. No obstante, el modelo lo va a llevar a cabo por defecto. Hasta aquí las explicaciones sobre el Modelo de Regresión Múltiple y la sección dedicada a la regularización de estos modelos. [MÚSICA]