[MÚSICA] Bienvenidos a un nuevo video de nuestro curso de minería de datos. En este video veremos un par de ejemplos aplicados del algoritmo de vecinos cercanos. La motivación principal de este video es utilizar la mayoría de los conceptos vistos sobre la técnica de los vecinos cercanos mostrando cómo sería una ejecución completa del algoritmo. Supongamos que tenemos la siguiente tabla de datos de entrenamiento con tres casos de la clase A y tres casos de la clase B. Llega entonces un nuevo dato P7 para el cual no conocemos su clase y queremos realizar una clasificación usando la técnica de vecinos cercanos. En esta diapositiva mostramos la distribución de los puntos de entrenamiento en forma visual. El eje horizontal corresponde a la variable X y el eje vertical a la variable Y. Para este ejemplo usaremos la distancia euclidiana you que todos los datos son numéricos. Lo primero que debemos hacer es calcular la distancia desde el dato que queremos clasificar hacia todos los otros puntos de nuestra base de datos de entrenamiento. En esta diapositiva mostramos a modo de ejemplo cómo calcular la distancia euclidiana entre P1 y P7 y entre P2 y P7. Luego de calcular la distancia entre P7 y todos los otros puntos, de la misma forma en que se mostró en la diapositiva anterior con P1 y P2 el resultado de todas las distancias se ve en esta diapositiva. Podemos usar una matriz como la que sale en la figura para representar en una fila la distancia entre el punto P7 y todos los otros puntos desplegados hacia la derecha en columnas. Supongamos entonces que vamos a usar un clasificador de un vecino cercano, en este caso debemos detectar primero la distancia más pequeña dentro de nuestra matriz de distancias para así conocer al vecino más cercano y luego verificar su clase. En este caso, el vecino cercano pertenece a la clase A Finalmente entonces la clasificación que deberíamos predecir para el punto P7 es clase A you que esa es la clase del vecino más cercano. ¿Qué ocurre si usamos un clasificador de 3 vecinos cercanos? Vemos entonces en la pantalla las tres distancias más pequeñas por lo tanto tenemos identificados a los tres vecinos más cercanos. Además visualizamos sus clases, los dos primeros vecinos pertenecen a la clase A y el tercer vecino pertenece a la clase B. Finalmente entonces la clasificación para el dato P7 usando tres vecinos cercanos es clase A, you que de los tres vecinos dos pertenecen a la clase A y solo uno pertenece a la clase B. Veamos ahora otro ejemplo. Supongamos que tenemos una base de datos de clientes como la que aparece en la tabla. La primera variable es numérica y corresponde a la antiguedad en años del cliente correspondiente a la fila que estamos considerando. Notar que el nombre no lo consideramos como una variable sino más como un identificador de cada cliente. La segunda variable es ordinal, y corresponde al rango de sueldo que gana el cliente en cuestión. La tercera y cuarta variable son binarias, la tercera dice si nuestro cliente tiene hijos o no y la cuarta corresponde al género. Las variables quinta y sexta son categóricas, corresponden al estado civil y al país en el cual está ubicada la tienda a la cual el cliente está afiliado respectivamente. Finalmente la última columna corresponde a la clase a la cual pertenece cada cliente de nuestra base de datos de entrenamiento. ¿Qué ocurre entonces si aparece un cliente para el cual no conocemos su clase? Supongamos que utilizaremos la técnica de vecinos cercanos para realizar esta clasificación. Primero notamos que debemos transformar las variables binarias a 0 y 1. Luego recordemos que debemos transformar la variable ordinal, en este caso mapeamos la variable rango de sueldo al rango 0 1 con los valores que aparecen en pantalla, 0 para el rango menor que 200 05 para el rango 250 750 y 1 para el rango mayor que 750. Vemos entonces que la variable rango sueldo queda transformada con los valores que aparecen marcados en la tabla. Si bien la variable antiguedad es numérica, you que corresponde al número de años que nuestro cliente lleva en la empresa, es necesario normalizarla. Esta normalización consta de llevar todos los valores de las variables al rango 0 1. Supongamos por ejemplo que estamos calculando la distancia euclidiana y notamos que el rango en que se mueven las distancias según la variable 1 va de 0 a 1000, mientras que el rango en que se mueve la variable 2 es de 0 a 1. Esto generaría un problema you que la distancia total se vería totalmente gobernada por la variable 1. Por eso es que debemos llevar el rango 0 1000 al rango 0 1 también. Para normalizar un rango A1 B1 a un rango nuevo A2 B2 simplemente nuestros datos deben estar ubicados de tal forma de mantener proporcionalmente su posición relativa en el rango. Por ejemplo si queremos llevar el valor X1 al rango nuevo llamado X2 simplemente aplicamos la fórmula que se ve en pantalla. El segundo término de la ecuación se preocupa de rescatar el tamaño proporcional del segmento A2 X2 y el primer término se preocupa de que este segmento esté ubicado partiendo desde A2. En nuestro ejemplo entonces sobre la variable antiguedad si suponemos que la empresa lleva 5 años funcionando, tenemos que la variable va desde 0 hasta 5 años, si la queremos llevar al rango 0 1, simplemente aplicamos la fórmula vista en la diapositiva anterior para cada uno de los valores actuales de la variable. Vemos entonces en la imagen los valores de la variable antiguedad normalizados en el rango 0 1. Ahora solo nos queda identificar el número de valores posibles que toman nuestras variables categóricas. Consideraremos entonces que la variable estado civil tiene cuatro valores posibles y que la variable lugar considera 10 países disponibles. Calculemos entonces como ejemplo la distancia euclidiana entre los clientes Pedro y Ángela. Para ello obtendremos la diferencia en cada uno de los distintos grupos de variables. Considerando la antiguedad tienen una diferencia de 0.2. Considerando el rango de sueldo tienen una diferencia de 0.5. Y en las variables binarias tienen ambas una diferencia de 1. En el estado civil son iguales por lo tanto ahí su diferencia es 0 y en el lugar son distintos. Pero como existen 10 países, su diferencia es 1 dividido por 10. Sumando todas las diferencias mencionadas anteriormente, vemos que la distancia total es de 2.8. Dado que María pertenece a la clase ocasional, y como estamos clasificando usando un vecino cercano, asignamos a Ángela entonces la clase ocasional también. En este video vimos un ejemplo completo del algoritmo de la ejecución de vecinos cercanos considerando un problema con tipos de variables mezcladas. Aprendimos que el algoritmo puede ser usado con cualquier tipo de distancia pero esta debe ser cuidadosamente definida dependiendo del tipo de variables que estamos considerando. [AUDIO_EN_BLANCO]