[SONIDO] Bienvenidos a un nuevo video de nuestro curso de minería de datos. En este video estudiaremos en detalle el concepto de ganancia de información, término clave para la selección de variables durante la construcción de un árbol de decisión. Lo que nos motiva en este video es entender cómo, finalmente, evaluamos la calidad de una variable, principalmente usando el concepto de entropía, visto en el video anterior. Dado que you conocemos el concepto de entropía, veremos ahora entonces cómo usarla directamente para poder calcular la calidad de una variable. Recordemos que para evaluar la calidad de una variable mirábamos qué tan homogéneas van quedando las clases de los grupos de datos que se arman una vez que vamos instanciando la variable en cada uno de sus posibles valores. En este ejemplo, al evaluar la variable género, separamos los datos según sus valores y nos queda la parte izquierda con tres casos de la clase ocasional y dos casos de la clase frecuente, lo cual no es bueno you que no es homogéneo. En la parte derecha, quedan dos casos de la clase ocasional y un caso de la clase frecuente, lo cual tampoco es tan homogéneo. Al evaluar la variable ingreso, dado que tiene tres valores posibles, generamos las tres separaciones. Vemos que la parte que corresponde al valor menor que 100 tiene todos los casos de la misma clase, eso es muy bueno. La parte que corresponde al rango 100- 200 tiene dos casos de la clase frecuente y un caso de la clase ocasional, eso no es homogéneo. Y finalmente, la parte que corresponde al valor mayor que 200 tiene un caso de la clase ocasional y un clase de la clase frecuente, también una situación muy desfavorable para poder llevar a cabo una buena clasificación. Vemos entonces, que para una misma variable se van generando distintas calidades de separaciones para los distintos valores que la variable puede tomar. Esto sugiere entonces el uso de un promedio ponderado de homogeneidad para cada variable que considere la homogeneidad. Es decir, la entropía de la clase en cada valor que toma la variable ponderado por la cantidad relativa de filas en las que esa variable toma ese valor. Teniendo entonces esto claro, podemos definir lo qué es la ganancia de información. La ganancia de información es el indicador que mide la calidad de una variable. Lo que hace, en palabras simples, es calcular cuánto se reduce la entropía de la clase que corresponde al primer término del lado derecho de la ecuación cuando vamos instanciando la variable A en cuestión. Si miramos el segundo término del lado derecho de la ecuación, vemos que lo que hace es calcular la entropía de la clase en cada una de las tablas de datos que van quedando, una vez que vamos instanciando la variable en cuestión. Una vez que calcula todas esas entropías, saca su promedio ponderado. Los ponderadores del promedio, simplemente, asignan un peso relacionado con el número de filas en que la variable toma ese valor, el valor B en partícular, dividido por el total de filas. Podemos ver también a la ganancia de información, como la diferencia en la entropía de la clase una vez que bajamos en el árbol por el atributo que estamos evaluando. Veamos un ejemplo concreto, entonces. Vamos a calcular la ganancia de información de la variable género usando la tabla de datos que vemos en la diapositiva. Siguiendo la ecuación que vimos para la definición de ganancia de información, lo primero es calcular la entropía de la clase, es decir, cuán homogénea es la distribución de la clase antes de instanciar cualquier variable. En este caso vemos que hay ocho filas, cinco de ellas pertenecen a la clase ocasional y tres de ellas a la clase frecuente. Por lo tanto, la entropía es la que vemos en la ecuación en pantalla. Ahora nos falta el segundo término de la ecuación de la definición de la ganancia de información. Para obtenerlo tenemos que instanciar la variable género en sus posibles valores y medir la entropía de la clase según las filas que quedan una vez que instanciamos la variable. Vemos, entonces, que al instanciar la variable en el valor hombre nos quedan dos casos de la clase ocasional y un caso de la clase frecuente. Por lo tanto, la entropía se obtiene reemplazando las proporciones dos tercios y un tercio en la fórmula, esto resulta 0.91. Ahora instanciamos la variable género en el valor mujer, y vemos que quedan tres casos en la clase ocasional y dos casos en la clase frecuente. Por lo tanto, calculamos la entropía con las proporciones tres quintos y dos quintos. Esta entropía resulta 0.97. Finalmente entonces, para obtener la ganancia de información de la variable género, debemos obtener primero el promedio ponderado de las dos entropías que calculamos anteriormente, donde cada ponderador tiene que ver con el número de filas que se consideraron para calcular cada entropía. En el caso de la entropía igual a 0.91, se usaron tres de las ocho filas, y en el caso de la entropía igual a 0.97 se usaron cinco de las ocho filas. Estos cálculos se señalan con círculos verdes en la diapositiva. El primer término del lado derecho es, simplemente, la entropía inicial de la clase. you la calculamos y vale 0.95, la señalamos con un círculo verde en la diapositiva. Finalmente entonces, la ganancia de información de la variable género nos da el valor de 0.0025. Para practicar un poco más, calculemos la ganancia de información de la variable ingreso. Separamos entonces los datos instanciando cada uno de los valores que esta variable puede tomar. Para el caso en que la variable ingreso toma el valor menor que 100, vemos que nos quedan todos los datos en la clase ocasional. Por lo tanto, la entropía es cero. En el caso en que la variable ingreso toma el valor entre 100 y 200, vemos que nos quedan dos casos de la clase frecuente y un caso de la clase ocasional. Por lo tanto, la entropía se calcula con las proporciones un tercio y dos tercios. Finalmente, para el caso en que la variable ingreso vale mayor que 200, tenemos un caso para la clase ocasional y un caso para la clase frecuente. Por lo tanto, la entropía se calcula con las proporciones un medio y un medio, lo que genera una entropía igual a 1. para obtener la ganancia de información de la variable ingreso, aplicamos la misma ecuación que you conocemos, reemplazando la entropía inicial en el primer término del lado izquierdo de la ecuación, y el promedio ponderado de las entropías que recién calculamos, eso en el segundo término de la parte derecha de la ecuación. Esto nos genera una ganancia de información de 0.35 para la variable ingreso. Les dejo como desafío calcular la ganancia de información de la variable lugar. Eso sí les adelanto, el resultado les debería dar 0.265. Ahora si queremos decidir cuál es la mejor variable entre todas las variables de la tabla, simplemente, tenemos que elegir la variable que tiene la ganancia de información más alta. es decir, la variable ingreso, que nos dio una ganancia de información de 0.35. En este video, aprendimos lo qué es la ganancia de información, que corresponde al indicador final con el cual evaluamos la calidad de una variable para ser seleccionada durante la construcción del árbol. [AUDIO_EN_BLANCO]