[SONIDO] Bienvenidos al nuevo video de nuestro curso de Minería de Datos. En este video conversaremos sobre el manejo de variables continuas en los árboles de decisión. La motivación principal de este video es entender cómo debemos combinar el pre procesamiento de datos con el algoritmo de construcción de un árbol de decisión para lidiar con las variables continuas. Consideremos la tabla de datos que se ve en la diapositiva. Tenemos entonces las variables Edad y Género y la Clase tipo de cliente. Para efectos didácticos, manejaremos la variable Edad con bastante detalle, es decir con un decimal de precisión. Dado el tipo de dato que estamos usando en la variable Edad, no es posible usar un brazo saliendo del nodo Edad para cada valor posible de la variable, you que serían demasiados brazos. Lo que típicamente se hace es elegir un punto de corte o split dentro del rango de números que puede tomar la variable con la idea de transformarla en una variable binaria. Por ejemplo, si nuestro punto de corte es el número 15, la variable tomaría dos valores posibles, mayor que 15 o menos igual que 15. ¿Cómo elegimos el valor del corte? Una opción es probar varios valores posibles dentro de una grilla definida en el rango de la variable y para cada valor calcular la ganancia información de dicha variable, de tal modo de elegir el corte que genera una mayor ganancia de información. Debemos tener en consideración que si probamos demasiados cortes posibles, nuestro algoritmo puede terminar siendo demasiado lento. Otra opción es probar un corte que coincida con cada uno de los valores posibles que efectivamente vemos en los datos. Por ejemplo calcular la ganancia de información para la variable Edad si el corte fuese 30.5 luego calcular la ganancia de información si el corte fuese 20.7 y así sucesivamente. De tal forma de elegir el corte que genera una mayor ganancia de información. Dado que aún la opción anterior puede ser muy lenta si tenemos muchos datos distintos, una tercera opción puede ser elegir aleatoriamente un sub conjunto de valores posibles dentro de los datos y calcular la ganancia de información solo para esos casos como si fuesen el corte. Al igual que antes, vamos a elegir el corte que genera una mayor ganancia de información. Me imagino que están pensando en todo el nivel de detalle que estamos desperdiciando al transformar una variable continua en básicamente una variable binaria. En realidad no es una mala transformación, tenemos que pensar que lo único que nos importa es que el árbol de decisión tenga un buen rendimiento en la clasificación de nuevos datos. En la práctica esta transformación sí funciona bien porque si ocurre el caso de que una variable continua perdió mucha información relevante para la clasificación al ser binarizada, esta obtendrá una baja ganancia de información por lo tanto lo más probable es que no será elegida por el proceso de construcción del árbol. Podemos apreciar visualmente que un árbol lo que hace es generar cortes lineales en cada una de las variables, de tal forma de tratar de dejar solo datos de la misma clase dentro de cada sub cubo que queda al cortar los ejes. Otra consideración importante es que un nodo que corresponde a una variable continua binarizada puede volver a ser elegido más abajo en el árbol, you que podemos realizar nuevos cortes más finos dentro de un corte previamente realizado. Por ejemplo, si el nodo A fuese binarizado con los valores mayor que 10 y menor igual a 10, una vez que bajamos por el brazo menor o igual a 10, podríamos volver a elegir el nodo, considerando como cortes posibles los valores menor o igual a 5 y mayor que 5, es decir una división más fina dentro de un pedazo you cortado de la variable. Notar que esto no ocurre para las variables que son binarias desde un principio. En este video vimos que las variables continuas en general se transforman a variables binarias a través de la elección de un corte, de tal forma de que el árbol tenga sólo dos caminos posibles a seguir, una vez que pasamos por una variable continua. También apreciamos que un árbol puede ser visto como una serie de cortes lineales realizados sobre el espacio de las variables donde viven los datos. [AUDIO_EN_BLANCO]