La segunda parte de este curso de razonamiento artificial, está dedicado a la teorÃa de la probabilidad. Después de presentar algunos conceptos preliminares, vamos a tratar un primer modelo gráfico: las redes bayesianas. Pasamos después a un segundo modelo gráfico: las cadenas de Markov, de tiempo discreto. A continuación, para poder hablar del tercer modelo gráfico, debemos cubrir "teorÃa de decisiones", lo que nos permite introducir procesos de decisión de Markov. Finalmente, como ya habremos cubierto "teorÃa de decisiones", estaremos en posición de decir unas palabras sobre "teorÃa de juegos". Una motivación para justificar el desarrollo de la teorÃa de la probabilidad, es observar que la lógica de primer orden, es torpe para representar la incertidumbre. Sólo tiene la disyunción y el cuantificador existencial. Hay varias escuelas de pensamiento en la teorÃa de la probabilidad, una de ellas es la escuela frecuentista, que ve a la probabilidad como una propiedad de los eventos. Para los frecuentistas, la probabilidad es la frecuencia con la que se da un evento, por lo tanto, solo pueden asignar probabilidades a eventos que se repiten muchas veces, o si no, eventos que puedan considerarse similares a otros eventos que si se repiten. En ocasiones deben imaginar una muestra aleatoria, tomada de una población hipotética mayor que la que se tenga directamente. La escuela bayesiana ve a la probabilidad, en cambio, como a una medida del grado de certidumbre y por lo tanto, la probabilidad es subjetiva. Puede asignar probabilidades a eventos que no se repiten, como por ejemplo, si va a llover hoy o no. La incertidumbre disminuye al hacer observaciones. Nosotros vamos a identificarnos con la escuela bayesiana. A partir de estos tres axiomas, podemos deducir todas las propiedades de la teorÃa de la probabilidad. La probabilidad es un número que varÃa entre cero y uno. La probabilidad del evento cierto es uno, y la probabilidad de que ocurra, ya sea el evento "a" o el evento "b", es la suma de las probabilidades de cada uno, menos la probabilidad de que ocurran tanto "a" como "b". Esta resta resulta de haber considerado doblemente la probabilidad de "a" y "b" en la suma. Vamos a empezar con un ejemplo. Regresemos al ejemplo del homicidio en un tren. Examinamos a un viajero en particular, y por diversas razones pensamos que lo más seguro, es que no sea el homicida. Le asignamos 0.01 de probabilidad. Sin embargo, examinamos su pañuelo y vemos que tiene sangre. Por otro lado, sabemos que el 80 % por ciento de los homicidas, tienen sangre en su pañuelo. Pero hay que considerar los casos de no homicidas que tienen hemorragias nasales. Supongamos que el 10 % por ciento de los no homicidas, tienen sangre en su pañuelo por una hemorragia. Esta situación, el hecho de que el 80 % por ciento de los homicidas tienen sangre en su pañuelo, es una probabilidad condicional que vamos a escribir asÃ: es la probabilidad de que un individuo tenga sangre, dado que es homicida. Ahora vamos a calcular la probabilidad de que nuestro personaje sea homicida y tenga sangre en su pañuelo. La probabilidad de "s" y "h" es el producto de la probabilidad de sangre dado homicida, por la probabilidad de que sea homicida. Para ver esto, si suponemos 1.000 personas, un 1 % por ciento, o sea diez, son homicidas. 80 % por ciento de ellos, o sea ocho, tienen sangre en el pañuelo, es decir, la probabilidad es 0.008. A esta ecuación le vamos a llamar: regla de la multiplicación. Muchos autores ven la probabilidad condicional como fundamental, y la probabilidad conjunta como una probabilidad derivada. Sin embargo, si queremos ver a la probabilidad conjunta como fundamental, podemos auxiliarnos de este diagrama de "venn". Este espacio de eventos tiene área uno, por lo que la probabilidad de "a" es el área de este cÃrculo y similarmente para "b". El área de la intersección de ambos cÃrculos, es la probabilidad conjunta "a y b". Para calcular la probabilidad de "a" dado "b", debemos normalizar con respecto a la probabilidad de "b", es decir, dividimos el área de la intersección entre "P(b)". Vamos a continuar con nuestro ejemplo. Ya calculamos la probabilidad de que nuestro personaje sea homicida y de que su pañuelo tenga sangre, es 0.01 por 0.80 o sea, 0.008. Similarmente, la probabilidad de que sea homicida y no tenga sangre en su pañuelo, es 0.002. Asà podemos calcular las probabilidades de que no sea homicida y de que tenga, o no tenga sangre en su pañuelo. Equivalentemente, imaginemos 1.000 personas, de ellas, diez son homicidas y 990 no lo son. Para calcular el número de personas que tienen sangre en su pañuelo, debemos considerar tanto los homicidas, como los no homicidas. El 80 % por ciento de diez, es ocho. El 10 % por ciento, es decir, los no homicidas que tienen hemorragia nasal, de 990 es 99. Hay, entonces, 107 personas con sangre en su pañuelo. De éstas, ocho son homicidas, entonces, la probabilidad de que nuestro personaje sea homicida dado que su pañuelo tiene sangre, es ocho entre 107 o 0.07. Vemos que si aumentó la probabilidad, pero no tanto como quizás habrÃamos intuido. Vamos a calcular con el teorema de Bayes la probabilidad de "h" dado "s". Para deducir el teorema de Bayes, expresamos tanto la probabilidad de "h" dado "s", como la probabilidad de "s" dado "h", en términos de la probabilidad conjunta. Igualamos la probabilidad conjunta de ambas ecuaciones y despejamos la probabilidad de "h" dado "s", éste es el teorema de Bayes. En nuestro caso, ya tenemos "P(s)" dado "h" y "P(h)". No tenemos "P(s)" pero la podemos calcular con una fórmula que se llama marginalización. Hay dos posibilidades mutuamente exclusivas. Ya sea que "h" sea cierto o que sea falso. Podemos entonces sumarlas, expresamos cada una de estas probabilidades conjuntas en términos de las probabilidades condicionales y obtenemos 0.107. Ahora sà ya podemos usar el teorema de Bayes y nos da lo mismo que habÃamos obtenido anteriormente. En la vida diaria, digamos en el derecho o en la medicina, casi no se usa el teorema de Bayes. Retomando la diferencia entre el pensamiento normativo y el pensamiento descriptivo, podemos mencionar un sondeo de profesionales, a los que se les planteó un problema esencialmente igual a éste. 90 % por ciento de estos profesionales, hicieron a un lado la probabilidad "P(h)" y dijeron que la nueva probabilidad de que el personaje fuera homicida, una vez que se le encontró el pañuelo con sangre, era 80 % por ciento, o sea "P(s)" dado "h", en lugar de 7 % por ciento como obtuvimos nosotros. En resumen, tenemos tres fórmulas que son la base de todo el razonamiento probabilÃstico. La regla de la multiplicación, el teorema de Bayes y la marginalización.