[MÚSICA] ¡Bienvenidos a un nuevo video a nuestro curso de Minería de Datos! En este video, estudiaremos en detalle el concepto de entropía, término clave para la selección de variables durante la construcción de un árbol de decisión. Lo que nos motiva en este video es entender bajo qué criterio se evalúa la calidad de las variables de nuestra base de datos, a la hora de seleccionar los mejores nodos durante el proceso de construcción del árbol. Lo primero es entender que, en el contexto de clasificación automática, la calidad de una variable tiene que ver con su capacidad de separar los elementos entre las distintas clases posibles, una vez que esa variable toma alguno de esos valores. Por ejemplo, distintos valores de la variable [INCOMPRENSIBLE] distintos valores de la clase. Si hay una relación directa entre los valores de la variable y las posibles clases, significa que la variable es muy buena para clasificar. La calidad de una variable entonces tiene que ver con cuán bien se separan las clases, cada vez que instanciamos ese atributo. Las clases se separan bien cuando cada subgrupo generado por la división del atributo es homogéneo, es decir, en cada subgrupo todos pertenecen a la misma clase. Por ejemplo, en la figura tenemos la variable edad. Vemos que toma dos valores posibles entre 18 y 25 y mayor que 25. ¡Marquemos con colores los distintos valores que puede tomar la variable! En los casos en que los clientes tienen entre 18 y 25 años, las clases que aparecen son Frecuente y Ocasional, es decir, el estar entre 18 y 25 años no nos deja claro a qué clase pertenece el cliente. Por otro lado, si la edad es mayor que 25, las clases también quedan divididas, es decir, cuando los clientes tienen más de 25 años, tampoco nos queda claro al que clase pertenecen. Por lo tanto, la variable es mala para clasificar. Ahora tenemos otro ejemplo. La variable género. Los valores posibles son hombre o mujer. Marquemos con colores los distintos valores que puede tomar la variable. Si seleccionamos de los datos, los casos en que los clientes son mujeres, vemos que en ambos casos, la clase es ocasional, por lo tanto, cuando el género del cliente es mujer, es un buen predictor para los clientes ocasionales. Ahora, si seleccionamos de los datos, los casos en que los clientes son hombres, vemos que todos pertenecen a la clase Frecuente. Por lo tanto, los clientes hombres son un buen predictor para la clase Frecuente. Finalmente, podemos concluir que la variable género es buena, you que cuando la instanciamos, genera un buen grado de homogeneidad de la clase. Dado que you notamos que la calidad de una variable tiene que ver con la homogeneidad de la clase, una vez que instanciamos la variable, necesitamos una métrica de homogeneidad. Veamos un ejemplo, un poco más complejo. Supongamos que tenemos dos clases posibles sí y no. Si existen 100 registros en nuestra base de datos, donde cada clase tiene la mitad de los registros, y supongamos que al revisar los casos en que A vale 0, nos encontramos con 48 filas que pertenecen a la clase Sí y dos filas que pertenecen a la clase No. Al mirar ahora los casos en que A vale 1, vemos que quedan dos casos de la clase Sí y 48 de la clase No. Entonces, la variable A logró mayormente separar bien las clases cuando esta fue instanciada. Ahora revisemos la variable B. Supongamos que al instanciar la variable B en su valor 0, nos da que 26 registros pertenecen a la clase Sí y 24 a la clase No. Esto no es bueno, you que significa que la variable B en su valor 0, no logró homogeneizar la clase. Al revés, los dejó aproximadamente mitad de una clase y mitad de la otra. Algo similar ocurre cuando la variable B se instancia en el valor 1. 24 casos quedan de la clase Sí y 26 casos quedan de la clase No. Aquí también la variable dejó una mala homogeneización de la clase. Nuevamente, tenemos el caso de una variable buena y una mala, pero aquí vemos que la homogeneización toma valores intermedios, es decir, necesitamos una medida que nos entregue un valor de homogeneización para cada posible proporción de elementos que pertenezcan a una clase y a la otra. Dado que you entendimos de los ejemplos que es necesario poder medir la homogeneidad de la clase cada vez que instanciamos la variable que estamos evaluando, estamos en condiciones de estudiar el concepto de entropía. La entropía proviene de la teoría de la información, es un indicador que nos permite medir el grado de desorden en un conjunto de datos. La entropía la denotaremos por H y corresponde a menos la suma del término p log p, para cada clase posible, donde p indica la proporción de casos que pertenecen a cada valor de la clase en cuestión. Veamos un ejemplo del uso de entropía. Consideremos los datos que aparecen en la diapositiva. Primero, notemos que existen dos posibles clases, Frecuente y Ocasional. Marcamos las filas con distintos colores, para que sea más fácil visualizarlas. Si queremos calcular la entropía de la clase, aplicando la fórmula que vimos anteriormente, debemos observar las proporciones de casos que ocurren para cada uno de los posibles valores que toma la clase, en este caso, Frecuente y Ocasional. En el caso Frecuente, tenemos una fila de un total de cuatro, y en el caso de Ocasional, tenemos tres filas de un total de cuatro. Aplicando esas proporciones en la fórmula, vemos en pantalla el resultado. La entropía es igual a 1, en el caso en que tenemos un 50% de los datos perteneciendo a cada una de las dos clases posibles. En este video aprendimos el concepto de entropía, que mide el grado de homogeneidad en un conjunto de valores. Típicamente, nosotros medimos homogeneidad en la columna de la clase de los datos que corresponde al target que queremos predecir en la clasificación automática.