[MÚSICA] [MÚSICA] Hola. En uno de los videos anteriores aprendimos lo que es un box-plot o un diagrama de bigotes, y aprendimos a construir box-plots utilizando Matplotlib. En este video, aprenderemos a construir este mismo tipo de diagramas usando pandas. Empezaremos construyendo diagramas con la apariencia por defecto, y al final del video veremos cómo podemos personalizar nuestros diagramas. Empecemos repasando los principales conceptos sobre este tipo de diagrama. Recordemos que un box-plot nos sirve para visualizar cómo se distribuye un conjunto de valores. Para esto, tenemos una caja que nos muestra dónde empieza el segundo cuartil y dónde termina el tercero. Tenemos unos bigotes que nos muestran cómo se distribuyen los valores por fuera de esta caja y tenemos unos outliers o valores extremos que están por fuera de estos bigotes. Finalmente, tenemos una línea dentro de la caja que nos indica dónde está la mediana de los datos. Veamos ahora nuestro primer box-plot construido usando pandas. En la mitad de la imagen tenemos el diagrama y en la parte inferior tenemos el código que lo produjo. Lo primero que debemos notar es que estamos utilizando un data frame llamado muestra, y de ese data frame estamos seleccionando únicamente las columnas valor del contrato, valor pagado y valor pendiente de pago. Sobre este data frame, invocamos la función plot, y utilizamos como parámetro kind, la cadena de caracteres box, que nos sirve para indicar que queremos construir un box-plot. El resultado es una gráfica donde aparecen tres conjuntos de valores, uno por cada columna del data frame original. Si analizamos esta gráfica, podemos ver varias cosas interesantes. Por ejemplo, la mayoría de los contratos tienen un valor que está entre 7 y 18 millones de pesos. También vemos que para la mayoría de contratos el valor pagado es 0. Y con respecto al valor pendiente de pago, vemos algo muy extraño. Parecería que hay contratos cuyo valor pendiente de pago es un número negativo. Pasemos ahora a un ejemplo un poco más complicado, y lo primero que tenemos que notar es que hemos agregado la columna rama al data frame que vamos a utilizar para construir nuestro box-plot. Otro cambio importante es que you no estamos usando la función plot, sino la función box-plot. Esto lo hacemos porque desafortunadamente la función plot tiene algunos errores en la implementación que hacen que no se puedan aprovechar todas las características de un box-plot. La más importante de esas características es la capacidad para hacer agrupaciones de box-plots. En este caso, estamos utilizando el parámetro by en el llamado box-plot, y estamos indicando que queremos agrupar los valores utilizando como criterio la columna rama. Por eso era tan importante que incluyéramos esa columna dentro del data frame de origen. El resultado you lo estamos viendo. En lugar de tener un solo box-plot, tenemos dos, uno para la columna de valor pagado y otra para la columna valor pendiente de pago. Y dentro de cada uno de estos box-plots, tenemos agrupados los valores por la categoría que tienen en la columna rama. Solucionemos una pregunta antes de continuar. Pasemos ahora a estudiar un poco cómo podemos hacer para personalizar los box-plots. En esta imagen, estamos viendo un box-plot que tiene colores completamente diferentes a los que tenían los box-plots de las figuras anteriores. Vamos a estudiar entonces para ver cómo podemos hacer este tipo de ajustes. En primer lugar, veamos un poco más de cerca una de las cajas de la figura anterior. El color de la caja es lila, los bigotes son naranjas, la línea de la mediana es azul oscura y las barras de los bigotes son rojas. Esto lo logramos con un diccionario donde tenemos precisamente las llaves boxes, whiskers, medians y caps. Y asociada a cada una de estas llaves tenemos un color RGB expresado en hexadecimal. Más abajo, utilizamos este diccionario en el parámetro color de nuestra función box-plot, y con eso logramos el cambio en los colores. Otro cambio en la visualización lo logramos poniendo el valor True en el parámetro notch. El resultado de esto es que ahora, en lugar de tener una caja perfectamente rectangular, va a tener un adelgazamiento en el centro que va a depender del intervalo de confianza alrededor de la mediana. Otro cambio en la apariencia lo logramos con el parámetro sym, que nos sirve para especificar el símbolo que vamos a utilizar para los outliers. Y finalmente, tenemos el parámetro showmeans que nos sirve para indicar si queremos o no una marca donde se encuentre el promedio de los datos. Con esto concluimos este video sobre box-plots en panda. Queremos recordarle que, en el caso de estos diagramas, siempre debe de utilizar la función box-plot en lugar de la función plot. Y como siempre, le recomendamos ir a revisar la documentación oficial para encontrar más información sobre este tipo de gráficas. [MÚSICA]