[MÚSICA] Bienvenidos a un nuevo video de nuestro curso de minería de datos. En este video, comenzaremos a ver un nuevo tópico, los algoritmos de clustering. Lo que principalmente nos motiva es aprender qué son los algoritmos de clustering y para qué los podemos usar en la práctica. Lo primero que debemos saber es que los métodos de clustering típicamente no contienen los datos etiquetados como en el caso de los algoritmos de clasificación. Es por eso que las técnicas de clustering caen dentro de la familia de algoritmos de aprendizaje no supervisado. Recordemos que cuando vimos los modelos de clasificación, como árboles de decisión o vecinos cercanos, asumíamos que existía una columna con la clase de cada dato, justamente la clase que los modelos tenían que predecir. En el clustering, esa no es la finalidad del algoritmo. El clustering corresponde a técnicas para encontrar grupos de datos que están juntos entre ellos y separados del resto. Por ejemplo, si queremos encontrar distintos grupos de clientes que se comportan de forma similar a la hora de realizar compras en nuestra tienda, estamos frente a un problema de clustering. En el mundo del retail, también es conocido como segmentación de clientes. También si nos interesa encontrar grupos de personas que pertenecen a una misma comunidad dentro de una red social, también sería una aplicación de la ejecución de algún algoritmo de clustering. Otro ejemplo es cuando necesitamos agrupar documentos de texto que hablan de un tópico similar dentro de una base de datos de millones de documentos. En ese caso también es necesario ejecutar algún algoritmo de clustering para separar los documentos entre sí. Lo que tienen en común los ejemplos mencionados anteriormente es que los datos no están rotulados o etiquetados. Los algoritmos deben encontrar la forma de separarlos directamente desde las variables que describen cada dato sin la ayuda de un set de entrenamiento. Si vemos nuestros datos como un conjunto de puntos en un espacio de alguna dimensionalidad finita, por ejemplo, dos dimensiones, podemos tener algo como lo que se aprecia en la diapositiva. Nosotros a simple vista podemos darnos cuenta de que existen cinco grupos de datos o clusters. En la figura a continuación podemos verlos marcados con colores distintos. Típicamente, los algoritmos que encuentran clusters están fuertemente basados en la métrica de distancia o similaridad definida para nuestros datos. De la misma forma que nos ocurrió cuando vimos el algoritmo de vecinos cercanos. En este video entonces vimos la definición general de lo que es el clustering, mencionamos que corresponde a un tipo de aprendizaje no supervisado y que naturalmente requiere de una medida de similaridad. [AUDIO_EN_BLANCO]