[MÚSICA] Bienvenidos al nuevo video de nuestro curso de minería de datos. El objetivo principal de este video es entender todos los indicadores de rendimiento que hay detrás de las reglas de asociación, para así poder evaluar el grado de credibilidad que le asignamos a cualquier decisión que dependa de las reglas encontradas. Recordemos que el soporte de un item set corresponde a la frecuencia relativa de un item set dentro de una base de datos. De la misma forma, el soporte de una regla corresponde a la frecuencia relativa del item set que contiene todos los ítems presentes en la regla. Por ejemplo, el soporte de la regla Leche, Pañales Flecha, Cerveza, corresponde al soporte del item set leche, pañales y cerveza. Para calcular ese soporte, tenemos que contar el número de transacciones que contiene el item set leche, pañales y cerveza. En este caso, podemos ver que las transacciones tres y cuatro son las únicas que contienen al item set en cuestión. Como tenemos un total de cinco transacciones, el soporte de nuestra regla sería de 2/5. En este caso, si tenemos un soporte de 0,4, significa que el 40% de las transacciones mostraron que leche, pañales y cerveza se compraron juntos. La confianza de una regla de asociación, X, flecha, Y, nos dice la probabilidad empírica de que se compre el item set Y, dado que sabemos que se compró el X. En otras palabras, de las transacciones que compraron X, ¿cuántas también compraron Y? Siguiendo con el mismo ejemplo anterior, para la regla Leche, Pañales, flecha, Cerveza, la confianza se calcularía contando el número de transacciones que contienen leche y pañales, esa cantidad iría en el denominador. Luego de esas transacciones, ¿cuántas también contienen cerveza? En este ejemplo, podemos ver que para calcular la confianza de la regla Leche, Pañales, flecha, Cerveza, tenemos que contar el número de filas donde ocurren los tres ítems a la vez. En este caso, las filas tres y cuatro, es decir, dos ocurrencias. Ese dos va, entonces, en el numerador. Para calcular el denominador, simplemente contamos el número de filas que contienen los ítems leche y pañales. Dado que el conjunto leche, pañales es un subconjunto del conjunto leches, pañales y cerveza, al menos sabemos que leche y pañales ocurre en las filas que you detectamos anteriormente para leche, pañales y cerveza, es decir, las filas tres y cuatro. Por eso aparecen ahí las flechas azules. Además, vemos que el conjunto leche, pañales también ocurre en la fila cinco, como indica la tercera flecha azul. Para el denominador tendremos, entonces, el conteo de tres ocurrencias. Podemos ver que hay una relación directa entre la forma en que calculamos la confianza de una regla X, flecha, Y, y la forma en que calculamos la probabilidad de que ocurra un item set Y, dado que sabemos que ocurrió X. Usando la fórmula de probabilidad condicional que se muestra en la pantalla, podemos apreciar que la probabilidad condicional se calcula también como la probabilidad conjunta de Y con X, dividido por la probabilidad de X. Si tenemos suficientes datos, esas probabilidades pueden ser estimadas directamente desde las transacciones, simplemente contando el número de transacciones en que ocurre Y con X, dividido por el número de transacciones en que ocurre X. Podemos decir, entonces, que si una regla tiene una confianza de 0,67, significa que de los consumidores que compraron leche y pañales, el 67% también compró cerveza. Existen casos en que valores altos de confianza se deben a que el producto del lado derecho de la regla tiene un soporte alto independiente del soporte del producto del lado izquierdo. Por ejemplo, para la regla Leche, flecha, Cerveza, supongamos que su confianza es de 0,7, esto quiere decir que la probabilidad empírica de comprar cerveza, dado que el cliente compró leche, es de un 70%. ¿Pero qué ocurre si nos damos cuenta de que la probabilidad a priori de comprar cerveza es de un 70%? Es decir, no me aporta información el hecho de saber que el consumidor compró leche para inferir la probabilidad de que el consumidor también compre cerveza. En otras palabras, la cerveza por sí sola you se vendía con un 70% de probabilidad. El Lift nos ayuda a detectar esos casos, you que corresponde al incremento de la probabilidad de venta del lado derecho de la regla, una vez que sabemos que el cliente compró del lado izquierdo. Veamos un ejemplo de cómo calcular el Lift. Si queremos calcular el Lift de la regla Leche, Pañales, flecha, Cerveza, tenemos que calcular la confianza de la regla y dividir por el soporte de la cerveza. you habíamos calculado la confianza anteriormente, nos dio 0,67. Para calcular el soporte de la cerveza, simplemente calculamos el número de filas que contienen a la cerveza dentro de la lista de productos, en este caso es tres. Luego, el soporte es 3/5. Finalmente, Lift será 0,67 dividido por 0,6, lo que resulta en 1,117. Podemos ver, entonces, que la probabilidad de comprar cerveza aumenta de 0,6 a 0,67 cuando sabemos que el cliente compra leche y pañales. Podemos apreciar, entonces, que si el Lift es mayor que uno, significa que la probabilidad del consecuente de la regla aumentó una vez que sabemos que el consumidor compró los ítems del antecedente. Si el Lift es igual a uno, significa que esa probabilidad no se vio afectada, por lo tanto, el antecedente no aporta nada de información respecto a la compra u ocurrencia del consecuente. Si el Lift es menor que uno, significa que el antecedente tuvo un efecto negativo en la ocurrencia del consecuente, haciendo que su probabilidad baje. Por ejemplo, si la regla Leche, flecha, Cerveza, tiene un Lift menor que uno, significa que la gente que compra leche tiene una menor probabilidad de comprar cerveza comparado con la probabilidad a priori de comprar cerveza. El Lift también tiene una interpretación probabilística. Supongamos nuevamente el ejemplo de la regla Leche, flecha, Cerveza. Si el Lift es uno, por la fórmula presentada anteriormente, significa que la confianza de la regla es igual al soporte de la cerveza. En otras palabras, significa que la probabilidad condicional de comprar cerveza, dada la compra de leche, es igual a la probabilidad de comprar cerveza. Eso significa que la leche y la cerveza son variables independientes, es decir, el saber que un cliente compra leche no me aporta en nada para estimar la probabilidad de que el cliente compre cerveza. En este video aprendimos y repasamos los conceptos de soporte, confianza y Lift. Debemos recordar que el soporte es la frecuencia relativa del item set. La confianza es la probabilidad empírica de que ocurra el consecuente, dado que ocurrió el antecedente en la regla. Y el Lift refleja el aumento de la probabilidad de que ocurra el consecuente, cuando nos enteramos de que ocurrió el antecedente.