Este vídeo es el primero de una serie que vamos a dedicar a cómo evaluar el rendimiento de los sistemas detectores de objetos que estamos diseñado en este curso. Este primer caso lo dedicaremos a evaluar el rendimiento única y exclusivamente del clasificador aplicado sobre un conjunto de ventanas candidatas. Así pues, el objetivo concreto de este vídeo será triple. Por un lado definiremos la matriz de confusión y sobre esta matriz de confusión definiremos dos medidas, la exactitud y la precisión. Si partimos del esquema general que estamos siguiendo en todo el curso, el objetivo final será cuantificar como funciona nuestro detector. Pero hoy, nos dedicaremos exclusivamente a evaluar cómo funciona el clasificador. Por tanto, nos centraremos en esta parte del esquema. Supongamos que hemos definido el clasificador de personas. Dado un conjunto de ventanas candidatas, la respuesta del clasificador podrá ser correcta o podrá ser no correcta. Vamos a ver cómo podemos cuantificar todas estas respuestas correctas o no y en el próximo vídeo veremos como introducir el análisis de este rendimiento para mejorar este clasificador. Pregunta es, ¿cómo podemos evaluar el resultado de nuestro clasificador? Supongamos un conjunto de candidatos y supongamos que vamos a representar el resultado del clasificador de la siguiente manera, representaremos el clasificador como una circunferencia y todos aquellos objetos que queden dentro de la circunferencia serán los clasificados como positivos por nuestro clasificador, en este caso personas. Los candidatos que queden fuera de la circunferencia representarán los clasificados como negativos por nuestro clasificador, en este caso no personas. Supongamos que el resultado, así pues ha sido el siguiente. Las ventanas marcadas en verde han sido clasificadas como personas, las marcadas en rojo han sido clasificadas como no personas. La pregunta es, ¿es este un buen resultado de nuestra clasificación? Antes de poder contestar esta pregunta necesitamos introducir un concepto previo, es el concepto de ground truth, vamos a mantener el término en inglés. Es un término que viene esencialmente de teledetección, se usa para referirse a la etiqueta que tiene cada punto de un terreno en imágenes satélites, indica el tipo de suelo que está representando ese punto. El aprendizaje computacional se usa para referirse al resultado correcto que debería dar un clasificador. Así pues, para nuestro caso el ground truth corresponderá al conjunto de ventanas de la imagen de las imágenes correctamente etiquetadas con el tipo de objeto que contienen. Una vez hemos definido el concepto de ground truth you podemos pasar a definir el concepto básico de matriz de confusión. Matriz de confusión será la herramienta básica para visualizar el rendimiento de un clasificador. Si suponemos la clase persona, será como tratar dos clases, las de persona y la clase no persona. Así pues, será una matriz dos por dos que representará el comportamiento del clasificador sobre estas dos clases. Las filas de la matriz representarán las instancias reales de las clases que vienen dadas por el ground truth. Y las columnas de las matriz representarán las predicciones de los clasificadores que estamos analizando, en este caso el clasificador de persona y por consiguiente el de no persona. En la primera columna tendremos las respuestas positivas del clasificador que ha clasificado como personas. En la primera fila de esta columna tendremos los reales positivos, representan los candidatos que han sido correctamente clasificados como personas corresponden al fondo verde del dibujo. En la segunda fila de esta columna tendremos los falsos positivos que representan los candidatos que han sido incorrectamente clasificados como personas y corresponden al fondo naranja del dibujo. La segunda columna tendremos las respuestas negativas del clasificador. En la primera fila de esta columna tendremos los falsos negativos que representan los candidatos que son persona y que han sido incorrectamente clasificados como no personas, corresponden al fondo violeta. Mientras que en la segunda fila de esta columna tendremos los reales negativos. Estos representan los candidatos que han sido correctamente clasificados como no personas, que corresponden al fondo azul del gráfico. Así pues, ahora you podemos construir la matriz de confusión para nuestro clasificador que estamos usando en el ejemplo, para el resultado que representamos en este dibujo. Los reales positivos tendremos nueve personas que corresponden a la zona verde. Habrá que contar cada uno de estos representantes dentro de la zona verde. Como falsos positivos tendremos 10 candidatos clasificados como personas pero que no lo son y que corresponden a la parte naranja del dibujo. Como falsos negativos tendremos 10 candidatos, no clasificados como personas pero sí que son personas, esa zona violeta y finalmente tendremos los reales negativos, tendremos 15 candidatos correctamente clasificados como no personas y que aparecen en la zona azul. Para reforzar el concepto de matriz de confusión os propongo unos ejercicios adicionales que si queréis podéis hacer vosotros mismos. Y estos son los resultados de estos ejercicios. Para poder analizar la matriz de confusión que acabamos de construir definiremos dos medidas, estas serán la exactitud y la precisión, en inglés corresponden a los términos habitualmente usados como accuracy and precission. La exactitud mide la proximidad entre el resultado global del clasificador y la clasificación perfecta. Se calcula cuantitativamente como el cociente entre la suma de reales positivos y reales negativos partido por el número total de candidatos que han sido clasificados y que corresponden al número total de elementos que están dentro de la matriz de confusión. Por tanto analiza la diagonal de la matriz de confusión reales positivos y reales negativos, que para el caso de clasificador de personas correspondería al siguiente cálculo, personas bien clasificadas son nueve más no personas que también son bien clasificadas partido por el número total de candidatos que correspondería al número total de elementos que tenemos en el gráfico. La exactitud en ese caso será de 0,53 puesto que prácticamente solo la mitad de los candidatos han sido bien clasificados. La segunda medida que vamos a explicar es la precisión que mide la calidad en la respuestas positivas del clasificador. Se calcula cuantitativamente como el cociente entre reales positivos y la suma de todos los positivos dados por el clasificador, tanto los reales como los falsos. Por tanto analiza la primera columna de la matriz de confusión, que para el caso de nuestro ejercicio correspondería al siguiente cálculo, personas bien clasificadas este nueve de aquí, partido por la suma de estas más los candidatos no personas clasificados como personas. La precisión en este caso es de 0,47 que nos dice que el clasificador da más respuestas no correctas que correctas. Así pues, las medidas definidas sobre la matriz se han basado en la diagonal de la matriz de confusión para medir la exactitud y la columna de la matriz correspondiente al clasificador persona. Para calibrar la precisión del clasificador como antes y para reforzar el aprendizaje de las medidas explicadas os propongo unos ejercicios adicionales que si queréis podéis hacer vosotros mismos. Aquí tenemos los resultados del ejercicio. Se puede destacar que el clasificador tres sería el clasificador perfecto con una exactitud igual a uno y una precisión igual a uno. Mientras que el clasificador cuatro sería el peor clasificador con exactitud de cero y una precisión de cero. Así pues, you para acabar este vídeo y como resumen de todo lo que hemos hecho podemos decir que hemos visto tres conceptos básicos, por un lado la matriz de confusión y sobre esta matriz de confusión hemos definido dos medidas, por un lado la exactitud y por el otro la precisión. Hasta aquí pues el primer vídeo sobre evaluación de rendimiento basado en ventanas.