[MÚSICA] Bienvenidos a un nuevo video de nuestro curso de minería de datos. Hoy veremos nuevas variantes al algoritmo de vecinos cercanos. Las principales variantes que veremos en este video tienen que ver con considerar la distancia hacia los vecinos a la hora de calcular la clase más votada, y también con amplificar o disminuir ciertas variables al momento de calcular las distancias. La primera idea es notar que amplificar o disminuir ciertas distancias puede ser de mucha utilidad, principalmente para dar más énfasis a elementos más cercanos y menos a elementos más lejanos, al momento de decidir cuál es la clase más votada. Por ejemplo, en la figura vemos que tenemos dos vecinos de la clase roja y dos vecinos de la clase verde. En este caso, el algoritmo tradicional respondería que hay un empate entre ambas clases, en el caso en que K sea igual a 4. Podemos ver que una respuesta más correcta, en este caso sería la clase roja, you que los vecinos rojos son mucho más cercanos que los vecinos verdes. Veamos ahora un caso más extremo. Consideremos la situación de la figura. Si el valor de K es 7, los vecinos marcados serían los más cercanos. Si usamos el algoritmo tradicional, la clasificación sería clase verde. Pero, nuevamente, vemos que los vecinos verdes son bastante más lejanos que los vecinos rojos. De la misma forma, quizá una clasificación más correcta sería clase roja, you que a pesar de que sean menos vecinos, están mucho más cerca. ¿Cómo logramos entonces modificar el algoritmo tradicional de vecinos cercanos de tal forma de que automáticamente se incorpore la información de la distancia de los vecinos? Este efecto puede ser logrado usando pesos asociados a las distancias a la hora de calcular la clase más votada entre los vecinos. En general, estos pesos son inversamente proporcionales a la distancia, de tal forma de que si la distancia es más grande, el peso es más pequeño. Dos de los pesos más comunes se muestran en la diapositiva. La primera opción es, simplemente, multiplicar cada voto por uno dividido por la distancia entre el vecino y el punto que se quiere clasificar. La segunda es usar una función con un decaimiento exponencial, de tal forma de que la penalización por distancia sea mayor mientras más cercano es el vecino, y menor mientras más lejano es el vecino. Para realizar la clasificación final entonces, cada uno de los vecinos entrega su voto respecto a la clase, pero cada voto va ponderado por el peso W, que será menor si el vecino se encuentra más lejos del dato en cuestión. Otra variante al algoritmo de vecinos cercanos es considerar la importancia de las variables o dimensiones a la hora de calcular las distancias. Por ejemplo, supongamos que tenemos datos clasificados distribuidos como en la figura. Vamos a asumir en este caso que la variable V2 es mucho más relevante que la variable V1. Vemos que los tres vecinos cercanos verdes proyectados solo en la variable V1 están más lejos que los vecinos cercanos rojos proyectados también en V1. Por otra parte, vemos que los vecinos verdes están muchos más cerca al dato en cuestión que los vecinos rojos, si proyectamos los datos en la variable V2. Si la variable V2 es mucho más relevante que la variable V1, deberíamos clasificar el dato en cuestión como verde, you que en esa variable los vecinos verdes están más cerca. Los grados de importancia deberán ser determinados previamente usando conocimientos sobre selección de variables. Luego, esos grados de importancia se deben usar como pesos para cada variable dentro del cálculo de la distancia. Así por ejemplo, si tenemos determinados los pesos que indican la importancia de cada variable, vemos que simplemente debemos multiplicar cada una de las diferencias que aparecen dentro de la distancia Euclidiana por los pesos respectivos. En resumen, en este video vimos cómo modificar el algoritmo de vecinos cercanos, de tal forma de considerar la distancia de cada vecino dentro de la decisión, y también la importancia de las distintas variables dentro del cálculo de las distancias. [AUDIO_EN_BLANCO]