[MÚSICA] Bienvenidos a un nuevo video de nuestro curso de minería de datos. En este video, veremos un ejemplo completo aplicando el algoritmo apriori. El objetivo principal de este video es redondear todos los conceptos vistos anteriormente, construyendo desde cero una ejecución completa del algoritmo apriori. Supongamos que tenemos la base de datos de transacciones que se ve en la figura. Podemos ver que hay nueve transacciones, los productos o ítems están listados hacia la derecha en cada transacción. Vamos a asumir que el mínimo soporte es de dos novenos. Primero, tenemos que generar el conjunto de ítems ex candidatos de tamaño 1. Lo llamaremos C1. En este caso corresponde a todos los ítems por sí solos. Luego tenemos que evaluar el soporte de cada uno de ellos y eliminar los que no cumplan con el mínimo requerido. Simplemente contando la cantidad de veces que ocurre cada ítem podemos calcular los respectivos soportes de cada itemset. En este caso para i1, i2, i3, i4, i5, los respectivos soportes son siete novenos, siete novenos, cuatro novenos, cinco novenos y dos novenos. Podemos ver que todos cumplen con el mínimo del soporte requerido, que es dos novenos. Formamos entonces el conjunto de itemsets frecuentes de tamaño 1. Lo llamaremos L1, y en este caso L1 contiene a cada uno de los itemsets que aprobaron el umbral mínimo del soporte. Lo siguiente será formar el conjunto de candidatos de tamaño 2, llamado C2, y será construido a partir de L1. Para construir C2, debemos ejecutar el join que vimos en el video anterior. En este caso el join da como resultado el conjunto C2 que vemos en pantalla. Básicamente contiene todas las combinaciones de a dos ítems a partir de los itemsets en L1. Ahora, al igual que la iteración anterior, debemos calcular el soporte de cada uno de los itemsets en C2. Procedemos a contar entonces la cantidad de veces que ocurre cada itemset dentro de la base de transacciones. Por ejemplo, el itemset i1, i2 ocurre en las filas 1, 4, 5, 8 y 9, es decir, cinco veces. Por lo tanto, su soporte es de cinco novenos. De la misma forma se calculan los soportes de los otros itemsets. Por ejemplo, el itemset i1, i5 no sobrepasa el umbral you que ocurre solo una vez en la base de datos, en la transacción 8. Debemos entonces eliminarlo en esta instancia. Siguiendo con el resto de los itemsets, vemos que también los itemsets i3 e i4 e i3 e i5 tampoco pasan el umbral. Por lo tanto, también son eliminados. Podemos you formar entonces el conjunto de itemsets frecuentes de tamaño 2, llamado L2, que contiene a los itemsets que lograron superar el umbral en las dos diapositivas anteriores. Ahora, al igual que en las iteraciones previas, debemos generar el conjunto de itemsets candidatos de tamaño 3, es decir, C3 a partir de L2. Para ello, hacemos el join de L2 consigo mismo realizando los mismos pasos que estudiamos en el video anterior. Y llegamos a que el join corresponde al conjunto C3 que vemos en pantalla. Los invito a comprobar ustedes mismos el resultado de ese join. Tenemos que continuar. Lo que sigue es calcular el soporte de cada uno de los itemsets contenidos en C3. Esto lo hacemos de la misma forma que lo hemos venido haciendo hasta ahora. Por ejemplo, para el itemset i1, i2, i3, contamos cuántas veces ocurre en la base de datos. Vemos que ese itemset está presente en las transacciones 5 y 9, por lo tanto su soporte es dos novenos. Haciendo lo mismo para el resto de los itemsets, vemos que tres de ellos no pasan el umbral. you tenemos entonces listo el conjunto de itemsets frecuentes de tamaño 3, es decir, L3, que contiene a los itemsets que pasaron el umbral en la diapositiva anterior. Estamos en condiciones you de generar el conjunto de itemsets candidatos de tamaño 4, llamado C4, a partir de L3. Aplicamos entonces el join del conjunto L3 consigo mismo y se genera solo un itemset candidato de tamaño 4, mostrado en pantalla. También los invito a chequear por su cuenta este join. Como ayuda les comento que desde L3 solo se pueden combinar los itemsets i1, i2, i3 con i1, i2, i4. ¿Saben por qué? Lo que nos queda hacer entonces es chequear el soporte del único itemset que pertenece a C4, i1, i2, i3, i4. Vemos que este itemset no ocurre en ninguna de las transacciones, por lo tanto su soporte es cero. Y dado que ningún itemset pasó el umbral en C4, el conjunto de itemsets frecuentes de tamaño 4, es decir, L4, es vacío. Esto gatilla la detección del algoritmo. Finalmente, podemos ver en pantalla todos los itemsets frecuentes que encontramos en esta ejecución. Corresponden exactamente a los itemsets que pertenecen a L1, L2 y L3. En este video, vimos un ejemplo de ejecución del algoritmo apriori para encontrar todos los itemsets frecuentes en una base de datos de transacciones. Vimos que básicamente consiste en ir generando los itemsets candidatos a partir de los itemsets frecuentes de la iteración anterior y evaluar sus respectivas frecuencias. [AUDIO_EN_BLANCO]