Vamos ahora a nuestro primer modelo gráfico, las redes bayesianas. Este material tiene tres partes, conceptos preliminares, inferencia y conceptos finales. [MÚSICA] Nuestro ejemplo anterior se puede ver como una red bayesiana. Tiene dos nodos, uno por cada variable, y una flecha que va del nodo homicida al nodo sangre. Decimos que el nodo homicida es padre del nodo sangre. Además, cada nodo tiene una tabla de probabilidad condicional que nos dice la probabilidad de una variable considerando el efecto de los padres, si es que los hay, de ese nodo. Intuitivamente hay una flecha de un nodo a otro si el primero tiene un influencia directa en el otro. En este ejemplo estamos empleando las probabilidades dadas anteriormente, es decir, la probabilidad de que nuestro personaje sea homicida es 0.01 y de que no lo sea 0.99. También nos dieron la probabilidad de que un homicida tenga sangre en su pañuelo, 80%, y la probabilidad de que un no homicida haya tenido una hemorragia nasal, 10%. La probabilidad de que el pañuelo tenga sangre esta dada en términos de la variable homicida, por eso dibujamos la flecha de esta manera. Sin embargo, si aplicáramos el teorema de Bayes, podrÃamos calcular las probabilidades de homicida dada sangre, y podrÃamos entonces dibujar la flecha al revés, de sangre a homicida. Un concepto central en las redes bayesianas es el de independencia. Dos eventos a y b son independientes si la probabilidad de a dado b es igual a la probabilidad de a. Recordando la probabilidad condicional esto equivale a decir que la relación que guarda el área azul con respecto a P de b es la misma relación que guarda el área de P de a con respecto al área del espacio muestral. Equivalentemente se cumple que P de b dado a es igual a P de b, o que la probabilidad de la conjunción de a y b se obtiene multiplicando las probabilidades incondicionales de a y de b. Es decir que la probabilidad de que ocurra b no depende de si ocurrió a o no. la independencia condicional dice esencialmente lo mismo, excepto que en lugar de calcular las probabilidades con respecto al espacio muestral, se calculan con respecto a la probabilidad de c. [MÚSICA] Vamos a elaborar un poco nuestro ejemplo introduciendo la variable cuchillo. Ahora, la probabilidad de que alguien tenga un cuchillo en su compartimento, dado que es homicida, es 85 %. Pero algunas personas que no son homicidas, el 25%, también tienen un cuchillo. Esta red bayesiana indica que sangre y cuchillo son condicionalmente independientes dado homicida. El segundo concepto que necesitamos es el de evento atómico. Un evento atómico es la conjunción de todas las variables de la red posiblemente negadas. Es decir, es una idea similar a la de modelo en lógica proposicional. Aquà tenemos unos ejemplos. Por último, la distribución conjunta completa indica la probabilidad de cada evento atómico. Por ejemplo, la distribución conjunta completa para nuestro ejemplo serÃa esta en forma de tabla. Aquà está en forma de diagrama. Los eventos atómicos particionan el espacio muestral. En este ejemplo el espacio muestral se particiona en ocho eventos atómicos dependiendo de cuáles variables sean ciertas y cuáles falsas. Por ejemplo, el evento atómico cuchillo, no sangre y no homicida es el área de esta luna marcada. Es claro que si tenemos la distribución conjunta completa podemos contestar cualquier pregunta sobre las variables de la red. Por otro lado, una red bayesiana tiene toda la información necesaria para calcular la distribución conjunta completa. Entonces, podemos ver a una red bayesiana como una representación concisa de la distribución conjunta completa. Por lo tanto, también podemos contestar cualquier pregunta sobre las variables de la red a partir de las tablas de probabilidad condicional. Una manera de contestar preguntas a partir de las tablas de probabilidad condicional es pasar a través de la distribución conjunta completa, para esto vamos a introducir la regla de la cadena. Esta regla se puede obtener a partir de la regla de la multiplicación aplicada a una conjunción de varias variables y aplicándola sucesivamente varias veces. [MÚSICA] Nos queda entonces que la probabilidad de una conjunción de variables es este producto. Ahora explotamos la independencia condicional. Podemos reemplazar todas estas condiciones sobre Xi por los padres de Xi, sin embargo hay que conservar los signos de las condiciones que tenÃamos antes. La idea más importante para hacer inferencia es que podemos calcular la probabilidad de esta conjunción utilizando únicamente las tablas de probabilidad condicional. Aquà ilustramos el cálculo de la probabilidad del evento atómico cuchillo y no sangre y no homicida. Se traduce a estas probabilidades condicionales que se obtienen de las tablas de probabilidad condicional. Hay que tener cuidado de negar la h en las condiciones porque está negada en la conjunción. Habiendo cubierto los eventos atómicos, ahora nos concentramos en conjunciones no atómicas. TenÃamos la marginalización con respecto a una sola variable h. Nos conviene ahora generalizarla a todas las variables de la red que no aparecen en la conjunción de Xk + 1 a Xn. Esta sumatoria es con respecto a todos los posibles valores de estas variables. Hay 2 a la n- k sumandos. Ahora ilustramos el cálculo de la probabilidad de una sola variable vista como conjunción trivial. Las variables faltantes son h y c y tomamos todos sus posibles valores. Por último, tratamos a las preguntas con probabilidad condicional. Podemos usar la definición de probabilidad condicional generalizada a conjunciones, pero medida con respecto a una conjunción de variables. La podemos reescribir como el cociente de dos probabilidades de conjunciones. Como you sabemos calcular la probabilidad de conjunciones, también podemos calcular probabilidades condicionales. La probabilidad de homicida, dado sangre y cuchillo, por ejemplo, resulta en este cociente de probabilidades de conjunciones que you sabemos cómo calcular. En general, una red bayesiana es una gráfica sin ciclos. El problema de inferencia en una red bayesiana es en general tan difÃcil como calcular el número de modelos que hacen cierta una fórmula proposicional, es decir, es por lo menos tan difÃcil como los problemas NP completos. Finalmente, hay muchos algoritmos, algunos especializados a ciertos tipos de gráficas. [MÚSICA] [MÚSICA]