[MÚSICA] [MÚSICA] Hola. En este video, vamos a estudiar cómo construir diagramas de tipo box-plot, que en español se conocen también como diagrama de cajas o de bigotes. Estos diagramas son muy útiles porque nos permiten hacer evidente el comportamiento de una o varias series de datos mostrando los cuartiles, la mediana y los valores que se comportan de forma atípica. Empecemos entonces estudiando qué es un box-plot antes de pasar a construir estos diagramas usando Matplotlib. Acá podemos ver un box-plot bastante sencillo en el que se están visualizando en un solo eje todos los valores de precipitación para el mes de agosto. Es decir, que en esta gráfica se está sintetizando la información de 455 datos numéricos. Veamos entonces cómo interpretar esta información. Lo primero que tenemos que entender es que un box-plot se basa en la partición en cuartiles de los datos. Esta partición se hace de la siguiente manera. Primero, organizamos los datos en orden ascendente, y luego, los separamos en cuatro grupos con la misma cantidad de elementos. En el último grupo cuartil, se encuentra el 25% de los datos que tiene el menor valor. En el siguiente cuartil, se encuentran los que están entre el mayor valor del primer cuartil y el valor mediano de la muestra. El valor mediano es el valor que se encuentra en la mitad. Si la muestra tiene una cantidad impar de elementos, el valor mediano será mayor que el 50 por ciento menos uno de los datos, y será menor que el otro 50 por ciento menos uno. En el siguiente cuartil, se encuentran los datos que están entre el 50 por ciento y el 75 por ciento. Finalmente, en el cuartil número uno, se encuentran los mayores valores de la muestra. Como vemos en la figura de la izquierda, los cuartiles por definición tienen el mismo tamaño porque tienen la misma cantidad de elementos, pero cuando los organizamos de acuerdo a su valor, esos valores no suelen estar dispersos de manera uniforme. En la figura de la derecha, esto se ve muy claramente. Cada uno de los puntos rojos corresponde a un dato, y es claro que la mayoría están repartidos entre 0 y 300. Pero ¿dónde está la mediana? ¿Cuál es el primer cuartil? Precisamente para resolver estas preguntas es que tenemos un box-plot. Este tipo de gráficas están basadas en cajas como las que vemos en la figura. El ancho de la caja usualmente no tiene ningún significado, pero sí los límites superiores e inferiores. El inferior nos muestra hasta qué valor llega el último cuartil, y el límite superior nos muestra el borde entre los cuartiles uno y dos. Esto quiere decir que, dentro de la caja que vemos en el box-plot, está el 50 por ciento de los datos. El otro 50 por ciento se reparte entre 25 por ciento que se encuentran por debajo de la caja y 25 por ciento que se encuentran por encima de ella. En un box-plot también es usual que haya una marca que muestra dónde está la mediana. En este caso, la línea de la mediana nos muestra que en el segundo cuartil la diferencia entre el mayor y el menor valor es mayor que la diferencia que hay en el tercer cuartil. Por encima de la caja, encontramos una barra o bigote que parte del borde de la caja y llega hasta un cierto punto. Los valores que se encuentran en esta sección se consideran valores normales, es decir, que no se apartan demasiado al comportamiento del resto de los datos. Los valores que se encuentran por encima del bigote se consideran outliers o valores atípicos, es decir, valores que se apartan demasiado del comportamiento del resto de la muestra. La fórmula exacta para calcular el tamaño del bigote cambia dependiendo del método, pero, en este caso, está basada en 1,5 veces la diferencia entre el 75 por ciento y el 25 por ciento de los datos. El comportamiento de la parte de abajo de la caja es análogo, pero, en este caso, no tenemos ningún outlier en la parte de abajo, así que la barra del bigote llega hasta el valor mínimo de la muestra. Finalmente, en algunos casos es posible visualizar también el promedio de la muestra. En este caso, vemos que el promedio está bastante más arriba de la mediana, lo cual nos sugiere los valores del primer cuartil están muy dispersos, y están contribuyendo fuertemente a aumentar el promedio. Detengámonos un momento para resolver una pregunta. Veamos ahora un box-plot completo y hagamos algunos análisis sencillos. En esta figura, utilizaremos los promedios de precipitación mes a mes. De esta imagen, podemos extraer varias conclusiones interesantes. Por ejemplo, vemos que en abril, mayo y octubre son los meses de mayor precipitación. También vemos que para todos los meses hay un gran número de outliers, que posiblemente son regiones en las que siempre llueve. Finalmente, el tamaño de las cajas nos da una idea sobre qué tan parejo es el comportamiento en el país. Por ejemplo, en los meses de diciembre, enero y febrero, el promedio nos dice que llueve mucho menos que en el resto del año, pero el tamaño relativamente reducido en las cajas nos dice que ese comportamiento es generalizado en el país. Comparemos eso con los meses de marzo y de junio. La mediana es muy similar, pero el tamaño de las cajas nos sugiere que en junio la diferencia entre regiones es mucho mayor que en marzo. Veamos ahora cómo construir esta gráfica con Matplotlib. En realidad, construir una de estas gráficas es relativamente fácil. Lo que se requiere es tener los datos organizados correctamente. En este caso, nosotros tenemos una lista de tamaño 12 llamada datos precipitación, en la cual cada posición está ocupada por una lista con valores numéricos. Es decir, que en la posición 0 de la lista tenemos una lista con los valores que corresponden al mes de enero. Esa lista se la pasamos como parámetro a la función box-plot, y con esto es suficiente para construir nuestra gráfica. Los otros elementos del programa sirven para configurar aspectos gráficos. Por ejemplo, el parámetro meanprops es para un diccionario con la configuración de colores y símbolos para representar el valor promedio si la opción showmeans tiene el valor True. Acá tenemos otro box-plot construido a partir de los mismos datos. En este caso, la información no estaba agrupada por mes, sino por ciudad, lo cual nos permite comparar con facilidad el comportamiento de las precipitaciones en diferentes ciudades. Antes de continuar, resolvamos una pregunta. Con esto hemos llegado al final de nuestra lección sobre Matplotlib. Evidentemente, no alcanzamos a cubrir todas las características que nos ofrece la librería para manejar gráficas, pero esperamos que todo lo que les hemos contado les sirva de punto de arranque para aprender por su propia cuenta mucho más sobre esta poderosísima librería. Volveremos a tratar el tema de visualizaciones más adelante en este curso cuando hablemos de visualizaciones basadas en pandas, las cuales están a su vez basadas en Matplotlib. [MÚSICA]