[MÚSICA] Hola, bienvenidos de nuevo. En este vídeo veremos los aspectos esenciales de las pirámides espaciales, cómo se construyen, y cómo incorporar la información de localización a nivel de histograma de la palabra visual. Veremos también que aunque existen varias maneras de trabajar con pirámides dentro del esquema Bag of Words, e iremos viendo primero las más costosas en términos de estimación de pesos por validación cruzada, hasta llegar finalmente al método de clasificación más eficiente y escalable, que se basará en una función de similitud de histogramas llamado kernel de correspondencias de pirámides. Empecemos pues. Como vimos en el vídeo anterior, las pirámides espaciales consisten en la colocación de una rejilla en la imagen a una resolución cada vez mayor. Y tener en cuenta las apariciones del vocabulario visual en cada rejilla independientemente. Después, se concatenan los histogramas de cada región para construir la representación final de la imagen, como veremos a continuación. Dentro del esquema Bag of Words se puede construir de 2 formas el vocabulario visual, que será la base de los histogramas que representarán a la imagen en distintas resoluciones y regiones. Primero, como siempre, aplicamos un detector de puntos de interés en la imagen, que será la base de las características que utilizaremos para representarla. Es decir, dado una imagen, aplicamos en la extracción de características aquellos puntos de interés. Para cada uno de los puntos detectados, extraemos un descriptor de forma o un descriptor de color que podríamos fusionar utilizando la tecnología RFusion, por ejemplo. Pero la idea será construir, en este caso, un vocabulario en el espacio del descriptor que estemos utilizando. Una vez hemos encontrado por clusterización el vocabulario visual que representa a toda la imagen, generaremos el histograma, que cuenta el número de veces que aparecen determinadas palabras visuales en toda la imagen. A partir de aquí, la imagen está representada por un histograma que es la suma de veces que aparece la palabra visual en la región de la imagen. Respecto a la construcción del vocabulario visual, una estrategia sería construirlo para adaptarse a la región de la que queremos generar el histograma. Es decir, tenemos primero en cuenta las características de toda la imagen, como en el esquema Bag of Words clásico. O sea que a partir de toda la imagen, generamos aquellas palabras visuales que aparecen en toda la región. A continuación, en el siguiente nivel de resolución, lo que hacemos es construir un vocabulario que sea independiente y especializado para cada una de las cuatro regiones de la imagen. Es decir que tenemos 4 tipos diferentes de vocabularios visuales, y cada histograma cuenta el número de veces que aparece la palabra visual en cada una de las regiones. Por tanto vemos así que cada región se especializa dependiendo del tipo de región que incorpora, y que el histograma es bastante representativo de toda la imagen. Si se aplica el mismo procedimiento para el siguiente nivel de resolución, lo que obtenemos son 16 regiones, 16 vocabularios diferentes, 16 histogramas. Vemos aquí que para la primera región del cielo el vocabulario es mucho más específico con lo que teníamos en el anterior caso. También hay que tener en cuenta que el número, la magnitud de los bins de cada histograma será muy elevado en el primer nivel y muy reducido en el último nivel, ya que el número de palabras que aparecen en regiones muy pequeñas será inferior al número de veces que aparece una palabra en toda la imagen. Esta arquitectura, aunque pueda parecer muy eficiente, la verdad es que es muy lenta y muy costosa de trabajar. Estamos realizando 21 clusterizaciones para encontrar 21 vocabularios visuales y, luego tener que combinar 21 tipos de histogramas diferentes. Además, un desplazamiento del objeto de una rejilla a otra dará muchos errores en la representación. Así, realmente se prefiere trabajar con un único vocabulario visual, y centrar el cálculo de los pesos según la región de la imagen y el nivel de análisis piramidal en el que estemos. Así nos evitaremos tener que calcular el vocabulario visual para cada una de las 21 regiones que vemos aquí. Alternativamente, en vez de aprender un vocabulario visual por cada región que consideremos en la pirámide espacial, podemos considerar un único vocabulario visual, y luego contar las veces que aparece cada palabra visual, en todas las regiones y todos los niveles. Es decir, dada una cierta configuración de resolución espacial de una malla, la idea será contar el número de veces que aparece la palabra visual en toda la región en el primer nivel, en cada una de las 4 regiones en el segundo nivel, y en cada una de las regiones en el tercer nivel. Como vemos aquí, el vocabulario es común para todos los histogramas y todas las regiones y todos los niveles, con lo que el cálculo es bastante más eficiente que antes, porque no tenemos que calcular los 21 histogramas. Ahora, el paso final de las pirámides espaciales será aprender. O bien, cada clasificador aprenderá independientemente uno de los niveles, por tanto tendremos tres clasificadores, o lo que haremos será concatenar todos los histogramas en un único histograma y, que sea la entrada para un clasificador. Veamos qué implica cada uno de estos dos casos. Para hacer la selección de clasificadores, una vez se han generado para cada región y nivel los histogramas normalizados con norma L1 color L2 como vimos en el inicio del curso, lo que utilizamos es cada histograma es la entrada de un clasificador independiente. Por tanto tenemos el histograma 1 del nivel 1, clasificador nivel 1, los 4 histogramas correspondientes al siguiente nivel se concatenan para aprender un segundo clasificador, y finalmente los 16 histogramas que se corresponden con las 16 rejillas con regiones del nivel 0, serían la entrada a lo que aprenderíamos concatenados de un clasificador. Al final lo que haríamos sería combinar con cualquiera de las estrategias que vimos en el último video de la pasada semana. El gran inconveniente que tiene esta aproximación es el costo computacional en el aprendizaje de los pesos de los histogramas y de los clasificadores. Es decir, aumentar el tamaño del vocabulario hará muy costoso saber los pesos de los histogramas y de los clasificadores a nivel de validación cruzada. Como alternativa a la selección de clasificadores donde cada uno aprende el vocabulario común de las regiones en cada uno de los niveles, tenemos 3 niveles, tenemos 3 clasificadores. Aquí veremos la mezcla de clasificadores, en la que todos ellos trabajan sobre un mismo vocabulario visual común y sobre un mismo histograma. Es decir, el clasificador aprende sobre las 3 regiones, los 3 niveles de la pirámide. La idea será, tenemos un mismo vocabulario visual común para todos los niveles, y para cada nivel calcularemos el primer bin. Corresponde a una determinada palabra visual, y contaremos el número de veces que aparecen en toda la imagen. Repetimos el proceso para el segundo nivel, en el que para uno, cada una de las 4 regiones de la imagen, el primer bin contará el número de veces que aparece esta palabra en la región correspondiente, hasta llegar al tercer nivel en el que tendremos 16 histogramas por cada una de las regiones de la malla, y el primer bin del histograma contará el número de veces que aparece esta palabra visual, en este caso en la primera rejilla de la malla. Lo que hacemos es concatenar todos los histogramas, como vimos ya en el Intermediate Fusion en un mismo histograma común que será la entrada a los diferentes clasificadores que podamos considerar. La idea aquí es que antes de concatenar como vimos en el Intermediate Fusion, lo que se trata es de ponderar los diferentes histogramas debido a que depende la magnitud del histograma del nivel en el que se encuentre. Es decir, aquí habrán un montón de coincidencias de una misma palabra visual, aparecerán muchas veces porque se tiene en cuenta toda la imagen. En cambio aquí la aparición de la palabra visual será muy reducida porque el tamaño es mucho más reducido. Así, de esta manera, solo hay 3 parámetros para encontrar de validación cruzada que sería 1 por eso. Esta estrategia de tener en cuenta un único vocabulario visual de concatenar el histograma todo junto que sea la entrada de los diferentes clasificadores, tuvo mucho éxito en la literatura de visión por computador, sobre todo entre los años 2000 y 2006. Pero lo que realmente llevó a esta aproximación a ser utilizada en todas las competiciones internacionales de clasificación de imágenes fue la aparición de un nuevo método de comparación de histogramas a diferentes resoluciones como vemos aquí, que se llamó el kernel de correspondencia de pirámide. Propuesto por Lazebnik, Schmid y Ponce en el año 2006. Este kernel de correspondencia de pirámides, como veremos en el siguiente vídeo, nos permite calcular de forma muy eficiente la similitud que hay entre histogramas de palabras visuales en diferentes regiones y en diferentes niveles piramidales, sin tener que calcular estos pesos para cada uno de los niveles de la pirámide. Veremos el kernel de correspondencia de pirámides en el siguiente vídeo. Por ahora acabamos este enfatizando las ventajas de la metodología de pirámides espaciales, ya que es una técnica muy simple que nos permite encontrar coincidencias de características a niveles diferentes y, nos permite ponderar de una forma más elevada aquellas características encontradas en niveles muy bajos de la pirámide. Por otra parte, cabe destacar que normalmente la configuración espacial de la rejilla que se utiliza en las pirámides espaciales es de 2x2 y 4x4. Esta selección determinará el potencial descriptivo final de la pirámide, y esto dependerá de las imágenes que tengamos para una categoría en concreto. Es decir que este método depende en gran medida de que no queden regiones de la imagen que sean homogéneas o representativas de la clase que se hagan partidas entre distintas rejillas de la malla. En este vídeo también hemos puesto especial énfasis en el costo de validación cruzada para encontrar los pesos más adecuados, tanto descriptores, de histogramas, de clasificadores, etcétera. Después de presentar las metodologías con más parámetros por determinar, hemos ido reduciendo el problema de clasificación hasta llegar a un sistema que utiliza un histograma que es común y, que en la mezcla de clasificadores que hemos visto servirá como entrada para un clasificador que en este caso el kernel será de correspondencia de pirámides, como veremos en el siguiente vídeo. Finalizamos este vídeo repasando los conceptos más importantes que se han presentado. En primer lugar, hemos visto cómo la incorporación de información espacial con pirámides es básicamente una concatenación ponderada de histogramas de palabras extraídas en distintas regiones y ponderadas a distintos niveles de resolución. Es decir, el histograma de cada región y nivel representa el número de veces que aparece cada palabra del vocabulario visual en esa región en concreto. Pero la magnitud de los valores de los histogramas en niveles muy bajos, como es menor en niveles altos a considerar porciones muy pequeñas de la imagen, tendrán que ser dados más prioridad o más importancia para el cálculo del histograma concatenado final. Una vez tenemos este histograma completamente concatenado y con los pesos adecuados, se realizará el último paso que es la combinación de clasificadores. Es este caso, veremos en el siguiente vídeo cómo podemos utilizar un kernel de comparación de pirámides que es muy eficiente en la literatura. [AUDIO_EN_BLANCO]