[MÚSICA] Hola. Bienvenidos de nuevo. En este video analizaremos el rendimiento del uso de la pirámides espaciales en un caso concreto. En particular será la base de datos de escenas, recopiladas por Aude Oliva y Antonio Torrealba en el MIT en el 2001. Veremos cómo la incorporación del histograma multiresolución mejorará considerablemente la precisión del clasificador, a costa de poder trabajar una representación de la imagen más completa y sin la propiedad de invariancia a geometría que tiene el esquema bag of words. También analizaremos la matriz de confusión para deducir las causas de los errores que se hayan cometido utilizando pirámides espaciales. Aprovecho para agradecer a Marçal Rusiñol, investigador del Centro de Visión por Computador de la Universidad Autónoma de Barcelona, su tiempo de ayuda en la generación de los resultados numéricos que veremos a continuación. Empecemos, repasemos los conceptos más importantes vistos esta semana, antes de abordar el problema dado. En primer lugar hemos visto que la estrategia de pirámides espaciales, consiste en la colocación de una rejilla o malla a la imagen predeterminada, de 2x2 en nuestro caso y en cada nivel doblamos la resolución que existe. Después hemos determinado el vocabulario visual clusterizando en el espacio de descriptor o descriptores que hayamos utilizado y cada histograma, el bin de cada uno de ellos, nos determina la frecuencia de aparición de la palabra en la región que le corresponda. Toda la imagen en el nivel 2 y cada una de las cuatro regiones en el nivel 1 y cada una de las 16 regiones en el nivel 0. Este es el histograma que cuenta el número de veces que aparecen las palabras en esta región de aquí. Lo que se hace después es tener en cuenta todo el mismo histograma, los 21 histogramas concatenados, y esto será la entrada de nuestro clasificador. Que en el caso que hemos visto, es un clasificador SVM con un kernel específico que nos mejora la manera de calcular la similitud que hay entre las dos muestras a la hora de calcular el modelo de separación entre clases. Este modelo de aprendizaje del clasificador basado en kernel, lo que funciona es, dadas dos imágenes cualquiera, se cuentan por cada palabra el número de veces que aparece en toda la imagen, para el primer nivel, en cada una de las cuatro regiones para el segundo nivel, por tanto este histograma tendrá 4 bins, tantos bins como regiones y finalmente extraeremos el número de veces que aparece cada palabra en cada una de las 16 regiones o un histograma de 16 bins. Para calcular la intersección, que es lo que realmente nos dará la similitud que hay entre las dos imágenes, lo que se hacía, lo que vimos, es que se multiplica por valores fijos que no hay que encontrar por variación trenzada, el histograma de cada uno de los niveles independientes. No habría que buscar nuevas correspondencias entre palabras visuales en la diferente región, como hicimos, como hacían previamente, Drauman y Darrell. Una vez visto el esquema visual, pasamos a explicar la base de datos que hemos utilizado. La base de datos que hemos elegido para analizar el rendimiento de las pirámides espaciales, es una de las primeras que hubo de escenas, fué presentada por Oliva y Torrealba en el 2001. Esta base de datos contiene más de 2500 muestras de 8 tipos de escenas diferentes, de costa, bosque, montaña, campo abierto, autopista, urbano, edificio y calle. Como vemos las clases no están balanceadas sino que el número de muestras depende del tipo de categoría, por lo que la validación cruzada será decisiva para determinar los mejores parámetros para hacer la fusión que queramos pero que nos den el mejor rendimiento posible. Para el ejemplo que veremos a continuación hemos utilizado el descriptor de forma Sift únicamente ya que así fué como se presentó el método de pirámides espaciales en el artículo antes mencionado. Aquí vemos una serie de ejemplos visuales de cómo son las imágenes correspondientes a cada una de las 8 categorías, así vemos que para algunas de las clases, como por ejemplo, edificio o calle. Aquí vemos que la forma sí que puede ser importante a la hora de llegar a clasificar bien la escena. En cambio en otras vemos que la ausencia de color será un factor decisivo a la hora de encontrarnos con errores, ya que vemos por ejemplo que en estas imágenes de campo abierto y de costa, la forma es muy parecida, la única diferencia primordial sería en el color por tanto necesitaremos aplicar el color en un futuro y somos conscientes de que habrá algunos errores provocados por este motivo. Para analizar el rendimiento de las pirámides espaciales se han fijado en el experimento que mostramos a continuación los siguientes parámetros. Se ha utilizado un descriptor de 2 escalas y 8 orientaciones, en un Sift que se ha aplicado sobre regiones de 16 por 16 píxeles. Cada 5 píxeles hemos espaciado, hemos decidido determinar el espaciado para hacer un muestreo denso. También hemos variado el tamaño del vocabulario visual para observar cuando empieza el overfitting, ya que al aumentar la representación aumentamos el número de parámetros a considerar por cada nivel piramidal. Básicamente estamos doblando el número de dimensiones a considerar en el espacio de soluciones, por cada nivel que consideremos. Para determinar los mejores parámetros del clasificador, regularizador, etcétera, se fija una validación cruzada de 5 grupos, es decir que para calcular la precisión repartimos el conjunto del aprendizaje en 5 grupos y se toma la medida del error cometido en cada grupo de texto. Una vez tenemos la medida dividiremos entre 5 para tener una medida fija. Finalmente hemos considerado el clasificador SVM con el canal de correspondencia de pirámides que explicamos en el anterior vídeo. En esta gráfica vemos el resultado de las pruebas, la línea azul representa el rendimiento del esquema básico del bag of words. Es decir, solo tenemos una región que es toda la imagen según vamos incrementando el tamaño del vocabulario de nuestro problema. Vemos como la precisión aumenta hasta superar el 80% de accuracy, de exactitud, para luego caer por debajo de este valor debido sobre todo a underfitting. Es decir el modelo del clasificador no dispone del número de parámetros suficientes con los que jugar para poder representar bien unas muestras de tanta dimensionalidad, así que hay una generalización en exceso. Por otra parte vemos como la subida, la incorporación de niveles adicionales de resolución conlleva a aumentar la precisión hasta más de 5 puntos para vocabularios reducidos que aquí vemos de 128. Vemos que añadir otro nivel piramidal no conlleva un aumento tan significativo en la precisión, ya que para un número fijo de vocabulario, lo que estamos generando es overfitting es decir, el modelo ahora tiene demasiados parámetros y se produce un cierto grado de memorización de los datos de aprendizaje. Así que vemos también como el aumento del underfitting es menos pronunciado, es decir, el descenso para números grandes de vocabulario es menor que en un nivel ya que la complejidad del modelo se ha doblado por cada nivel considerado por tanto tarda menos en llegar al underfitting. A continuación veremos la matriz de confusión para las categorías de la base de datos de escenas de Oliva y Torrealba. Aquí arriba vemos un ejemplo de imagen por cada una de las categorías y abajo la categoría en cuestión, esto es el ground truth, es decir cuando hay errores pues la etiqueta real de la muestra. Cada columna es la salida del clasificador, es decir, el sistema de clasificación nos dice la clase a la que se cree que pertenece la imagen. Por tanto vemos que en la diagonal tenemos los valores máximos, es decir tenemos muchas clasificaciones correctas. La clase real era campo abierto y realmente el clasificador nos ha dicho que era campo abierto, aunque también nos va bien encontrar determinados errores. Aquí nos centraremos en 4 casos en los que se ve que la confusión ha sido más que destacar. En concreto nuestro sistema tiene errores al confundir costa con campo abierto, en ambos casos se produce la confusión, veremos por qué. También se produce el campo abierto respecto a montaña y calle. También veremos los ejemplos para intentar entender el por qué de la causa de la confusión, también hay confusión entre urbano con las clases calle y edificio y finalmente veremos por qué o las causas de los errores entre la clase montaña que es la real confundido con una clase costa o bosque. Veamos ejemplos de estas confusiones. Veamos ahora ejemplos de clasificaciones erróneas. Vemos arriba las etiquetas correctas y a la izquierda iremos viendo las predicciones de los clasificadores. Primero hemos visto que se confunden bastante las categorías campo abierto y costa, lo que es evidente a la hora de ver las formas que pueden tomar estas imágenes. Sin tener en cuenta el color en general existen costas que también tiene muchas líneas horizontales debido a la superposición de terrenos, típico de fotos de campo a través. Y al revés, hay imágenes de campo a través o campo abierto en los que la pendiente de los terrenos se asemejan a los acantilados típicos de las costas. En el campo abierto y montaña se confunden en esta imagen debido básicamente a la aparición de la forma tan característica del horizonte pero también de la apariencia de los grupos boscosos que define muy bien la clase de montaña, aunque dependiendo del punto de vista como vemos en esta imagen. Si solo tenemos en cuenta la forma, se da una gran similitud entre grupos de árboles como vemos aquí, líneas horizontales y verticales, con lo que encontraríamos en las fachadas de las casas. Vemos también los errores de la categoría urbano con edificio y calle. En este caso los errores que visualizamos aquí, son más debidos a la ambigüedad semántica del concepto urbano que se ha utilizado para categorizar estas imágenes. De hecho toda calle y todo edificio es urbano, por tanto poco hay que hacer aquí. Y finalmente como hemos visto también en la matriz de confusión, se producen errores al confundir montañas con otras clases. En esta clase de aquí, lo que vemos al comparar esta imagen de montaña con costa, con esta imagen, vemos que la forma es realmente muy parecida, la diferencia básica es en el color, por tanto es normal que se haya encontrado esta confusión. El otro error común que también es para la clase montaña, es para la clase árbol, árboles, bosques, y esto es debido a que en este caso de aquí aparecen muchos bosques, muchos árboles en las imágenes de ambas clases. Por tanto los árboles por sí solos no sirven para discernir entre un grupo de clases de montaña, campo abierto o bosque. Será que no es un componente que sea lo suficientemente discriminativo como para llegar a diferenciar bien este tipo de clases. Como conclusión del estudio mostrado en este video, podemos asegurar que muchos de los errores se deben al uso de etiquetas no excluyentes ni exentas de cierta ambigüedad visual, como hemos visto en el caso de urbano. También hemos comprobado como el rendimiento mejora cuando se utilizan niveles adicionales de resolución en la representación de las imágenes basados en histogramas y finalmente hemos visto que al aumentar el tamaño del vocabulario visual nos conlleva a una mejora en el rendimiento de la clasificación, aunque llevado al límite nos puede dar casos de underfitting o overfitting. Todo esto puede ser solucionado, o aumentando el nivel de la pirámide o aumentando el nivel del vocabulario. De todas formas si aumentamos demasiado el nivel de la pirámide nos encontraremos con serios problemas de overfitting, ya que trabajamos con modelos que tienen muchos parámetros para el aprendizaje. Finalizamos este vídeo repasando los conceptos más importantes que se han presentado. En primer lugar hemos analizado el rendimiento de las pirámides espaciales en todo el contexto Bag of Words del curso. Es decir ser evaluados distintos parámetros en el tamaño del vocabulario y nivel piramidal, para determinar por validación cruzada el mejor rendimiento para una base de datos en particular, la de Oliva y Torrealba presentada en el 2001. Después se han analizado los errores que hemos obtenido por el método y se han planteado las razones y posibles mejoras. A continuación para terminar la semana veremos en el siguiente vídeo cómo adaptar la estructura de malla fija 2x2 o 4x4 que hemos visto hasta ahora para que poder mejorar la representatividad de la malla, y mejorar así en consecuencia el rendimiento del clasificador. [AUDIO EN BLANCO]