[MÚSICA] Bienvenidos a un nuevo video de nuestro curso de minería de datos. En este video, veremos un nuevo algoritmo de clustering. Lo que principalmente nos motiva en este video es aprender en qué consiste el clustering jerárquico-aglomerativo. Veremos que está basado en una idea bastante sencilla y que puede ser bastante útil en la práctica. La idea principal del clustering jerárquico es que a partir de una medida de similaridad, se van juntando paso a paso los puntos más cercanos dentro de los datos, generando una jerarquía de resultados de clustering. La idea es que en cada paso vamos juntando el par de clusters más cercano. Veamos un ejemplo. Al comienzo, cada punto es un cluster. En el primer paso, juntamos los dos clusters más cercanos. Vemos en la figura que están marcados con un óvalo azul. Lo identificamos con el número 1. Ahora esos dos puntos pasan a forman un nuevo cluster. El siguiente paso es unir ahora los dos clusters más cercanos a partir del resultado del paso anterior. En la figura, correspondería al par de puntos que están unidos por un óvalo azul, identificado con el número dos. Y así, sucesivamente, vamos juntando el par de clusters más cercano. En el último paso, llegaremos inevitablemente a un solo cluster que contiene todos los datos, a menos que tengamos algún criterio para detener el algoritmo. Hay varios criterios que podemos usar para poder detener la ejecución. Uno puede ser que definamos un número mínimo de clusters al cual queremos llegar. Otra opción es definir un umbral de distancia máxima, de tal forma de no juntar pares de clusters que estén más alejados de esa distancia. También, una opción es fijar el número máximo de pasos que vamos a ejecutar. En general, todos estos criterios requieren de un entendimiento profundo de los datos que estamos analizando, you que cada uno de estos criterios será distinto para distintas bases de datos. Además de los criterios de detención, necesitamos definir una medida de distancia entre clusters, you que desde el paso 2 en adelante, empiezan a aparecer clusters que contienen más de un punto. Entonces, tenemos que saber medir distancias entre grupos de puntos, es decir, clusters. Vamos a ver cuatro tipos de distancias entre clusters, conexión simple, conexión completa, distancia entre medias y distancia promedio entre pares. La conexión simple asume que la distancia entre dos clusters se calcula de la siguiente forma. Calculamos la distancia entre todos los pares de puntos posibles desde los dos clusters y elegimos la mínima. En la figura vemos un ejemplo. Se puede apreciar que la conexión simple es la distancia que tienen los puntos más cercanos entre los dos clusters y corresponden a los puntos verdes. La conexión completa es la opuesta a la conexión simple, asume que la distancia entre dos clusters se calcula como la distancia entre los dos puntos más lejanos. En la figura podemos ver que corresponde a la distancia entre los puntos azules. La distancia entre medias simplemente asume que la distancia entre dos clusters se calcula como la distancia entre las medias de cada uno. En la figura vemos que las medias están marcadas con una X azul. La distancia entonces entre los clusters C sub A y C sub B está dada por el tamaño de la flecha azul. Finalmente, la distancia promedio entre pares corresponde al promedio entre todas las distancias que podemos obtener entre todos los pares de puntos. El hecho de que el clustering jerárquico vaya uniendo en cada paso a los clusters más cercanos, nos permite generar una visualización del proceso. Esta visualización se conoce como dendograma. Por ejemplo, si ejecutamos el algoritmo y en el primer paso juntamos el punto A con el B, luego en el siguiente paso juntamos el punto D con el E, luego juntamos en cluster DE con el punto C y, finalmente, juntamos el cluster DEC con el cluster AB, podemos visualizar todo el proceso con la imagen que aparece en la figura. Les aconsejo que pausen el video y comprueben los pasos que están relacionados con el dendograma que vemos en pantalla. En este video, aprendimos lo que es el clustering jerárquico-aglomerativo. Vimos que es necesario definir una medida de distancia entre clusters. Obviamente que esta distancia asume que tenemos you una forma de medir distancias entre puntos. Aquí, nuevamente, nos encontramos con la necesidad de tener una distancia bien elaborada, principalmente basada en las variables más importantes que describen los datos, para que el clustering tenga sentido. No debemos olvidar que además necesitamos definir un criterio de detención del algoritmo, you que si bien este no necesita conocer el número de clusters como en el caso de [INAUDIBLE] tenemos un número de clusters distinto en cada paso del algoritmo jerárquico. En otras palabras, el número de clusters quedará definido por el criterio de detención que estemos usando. [AUDIO_EN_BLANCO]