[MÚSICA] [MÚSICA] En este vídeo en el contexto de estadística diferencial y de estimación puntual, vamos a presentar y discutir qué es un estimador de máxima verosimilitud, un método para hallarlo y presentar algunos ejemplos. Si tiene interes en estimar un parámetro θ del cual depende la función de probabilidad o la función de densidad de probabilidad f sub x de x de una variable aleatoria x, partiendo de una muestra aleatoria x1, x2, xn de la variable aleatoria x. Conceptualmente, un estimador de máxima verosimilitud es un estimador puntual del parámetro θ que se obtiene hallando el valor del parámetro θ que maximiza la probabilidad de que la muestra aleatoria x1, x2, xn se produzca. Veamos a continuación cómo se puede obtener este estimador. En el caso por ejemplo de una variable aleatoria x con distribución de Bernoulli de parámetro p. De sesiones anteriores sabemos que una variable aleatoria x con distribución de Bernoulli de parámetro p, es una variable que toma solamente valores 1 con probabilidad p y 0 con probabilidad 1 menos p. Y que por tanto su función de probabilidad está dada por g sub x de x igual a p a la x, por 1 menos p a la 1 menos x, para x igual a 0, 1. La muestra aleatoria x1, x2, xn una vez tomada produce valores específicos x1, x2, xn. Queremos estimar el parámetro p con base en la muestra aleatoria x1, x2, xn. A continuación vamos a presentar un ejemplo acerca de la estimación del parámetro p de una distribución de Bernoulli de parámetro p. Entonces, sabiendo que una variable aleatoria x tiene distribución de Bernoulli de parámetro p. Y partiendo de una muestra, una muestra aleatoria específica x1, x2, xn. Debemos preguntarnos, ¿cuál es la probabilidad de que la muestra, esta muestra específica se presente dado el parámetro p? Observemos que la probabilidad de que la muestra x1, x2, xn se presente dado el parámetro p es igual a la probabilidad de que la muestra específica dado el parámetro p se presente. Entonces, la probabilidad de que la muestra específica se produzca dado el parámetro p, es igual a la probabilidad de que la variable aleatoria que representa la primera observación sea igual a x1. Lo mismo con la variable aleatoria x2, debe ser igual al valor específico x2. Y así sucesivamente hasta xn igual a xn minúscula dado el parámetro p. Ahora, como x1, x2, xn, es una muestra aleatoria como you hemos visto eso significa que las variables xi son independientes entre si y tienen exactamente la misma distribución de probabilidad que la variable aleatoria x, que tiene una distribución de Bernoulli de parámetro p. Por tanto, estas variables son independientes entre si lo cual nos lleva a que la probabilidad de este intersección de eventos no es otra cosa que la multiplicación de las probabilidades, es decir, esta expresión es igual, a la probabilidad de que x1 esa igual a x1 minúscula dado el parámetro p por por, por, por la probabilidad de que la variable xn tome el valor específico x sub n parámetro p. Esto no es otra cosa que la probabilidad de que una variable aleatoria con distribución de Bernoulli de parámetro p tome el valor específico x1 y así sucesivamente. Como you sabemos de una expresión anterior, para variables aleatorias de Bernoulli esto es igual a la probabilidad de que una variable aleatoria de Bernoulli sea igual a x1, parámetro p y así sucesivamente hasta la probabilidad de que una variable aleatoria con distribución de Bernoulli de parámetro p tome el valor xn parámetro p. Ahora, esto de acuerdo con la función de probabilidad de una variable aleatoria de Bernoulli de parámetro p, es igual a g sub x evaluado en x1 parámetro p, por, por, por la función de probabilidad evaluada en el valor xn parámetro p. Entonces, como la variable aleatoria x es una variable aleatoria con distribución de Bernoulli de parámetro p, you conocemos cómo se obtiene esa función de probabilidad y sabemos que esa función de probabilidad para una variable como la que estamos describiendo es igual a p evaluado en x1, 1 menos p a la 1 menos x1, por p a la xn, por 1 menos p a la 1 menos x sub n. Ahora esta multiplicatoria es claramente igual a p a la sumatoria de las xi de igual 1 hasta n, por 1 menos p a la n menos la sumatoria de xi, desde igual 1 hasta n. Observemos entonces en definitiva que la probabilidad de que la muestra se presente, la probabilidad de que la muestra específica se presente o tenga lugar es igual a esa expresión, es decir, a p a la sumatoria de xi, por 1 menos p a la n menos la sumatoria de xi. No tengo siguiente, como la muestra específica you ha sido tomada esta expresión depende únicamente de p. Puesto que la sumatoria de xi, el tamaño de la muestra son you valores constantes, así que podemos obtener con base en esta expresión cuál es el valor de p que maximiza el valor de esta expresión que conceptualmente significa, cuál es el valor de p que maximiza la probabilidad de que la muestra específica se produzca. Entonces sabemos del desarrollo anterior. Que la probabilidad de que una muestra específica X1, X2, Xn, parámetro P se produzca, es igual a P a la sumatoria Xi, por 1 menos P a la n, menos la sumatoria Xi. Para ilustrar lo anterior supongamos que tenemos una muestra específica, de la forma 0, 1, 0, 0, 1, 0, 0, 1, 0, 0. Que tiene un tamaño de n igual a 10. Entonces, observemos que esta expresión aplicado a esta muestra específica, nos da que la probabilidad de que se produzca esta muestra particular, es igual a P a la sumatoria Xi, pero la sumatoria Xi en este caso, es igual a 3. Por 1 menos P, a la n que es igual a 10, menos la sumatoria de Xi, que you hemos visto que es igual a tres, es decir, que esta expresión, nos queda igual a P. A continuación, vamos a observar en una tabla para diferentes valores de P, ¿cuál es el valor de P que maximiza esta expresión? En la tabla que se presenta a continuación, aparece la probabilidad de que la muestra aleatoria específica, 0,1,0,0,1,0,0,1,0,0, se produzca, para diferentes valores del parámetro P, de acuerdo con la expresión P a la 3, 1 menos P a la 7 que acabamos de obtener. Podemos observar en la tabla que esta probabilidad es máxima, cuando P es igual a punto 3. Valor que corresponde en este caso a la sumatoria de Xi sobre 10, que es igual a X barra, igual a 3 décimos. Esto nos llevaría a concluir que el estimador de máxima verosimilitud del parámetro P, está dado por P sombrero, igual a X barra. El resultado anterior es solo una ilustración numérica, de un método general que vamos a presentar a continuación, para hallar siempre que exista, el estimador de máxima verosimilitud de un parámetro teta, asociado a la función de probabilidad, o a la función de densidad de probabilidad, F sub X de X parámetro teta, de una variable aleatoria X. A continuación vamos a presentar la definición de estimadores de máxima verosimilitud. Consideremos una variable aleatoria X, con función de probabilidad, o función de densidad de probabilidad, F sub X de X que depende de un parámetro teta, y X1, X2, Xn, los valores de una muestra aleatoria X. El estimador teta sombrero, igual a H de X1, X2, Xn, del parámetro teta que maximiza la función de verosimilitud L de teta, dada la muestra X1, X2, Xn, igual a la productoria de igual 1 hasta n de F sub X, de X sub i parámetro teta. Se conoce como estimador de máxima verosimilitud, del parámetro teta. A continuación vamos a presentar el procedimiento para hallar el estimador de máxima verosimilitud del parámetro teta, asociado a la distribución de probabilidad de una variable aleatoria X. Paso 1. Hallar y representar explícitamente la función de verosimilitud L de teta, dada la muestra aleatoria, X1, X2, Xn, que se expresa tal como aparece en la fórmula de la pantalla. Simplificarla hasta donde sea posible, dejándola en función de estadísticas conocidas, si es posible. Paso 2. Hallar el logaritmo de la función de verosimilitud, es decir, logaritmo natural, de L de teta, dado la muestra X1, X2, Xn. Esta transformación se realiza para simplificar la expresión obtenida en el paso 1, pues es común que las funciones de verosimilitud, tengan expresiones con funciones exponenciales, o que tengan exponentes. Por propiedades de la función logarítmica, si una función F de X toma un máximo en un valor, X asterisco, la función logaritmo natural de F de X, toma el máximo, en el valor X asterisco. Paso tres. Tomar la derivada con respecto a teta, de el logaritmo natural de la función de verosimilitud, evaluada en teta, dada la muestra X1, X2, Xn, para hallar el valor de teta que maximiza la función de verosimilitud. Paso 4. Igualar a cero la expresión obtenida en el paso tres, y despejar teta. Se debe verificar que efectivamente es un máximo, esto se puede hacer tomando la segunda derivada y comprobando que es negativa en el valor teta. La solución del valor teta en dicha ecuación, corresponde al estimador de máxima verosimilitud, teta sombrero del parámetro teta. [AUDIO_EN_BLANCO] [AUDIO_EN_BLANCO] [AUDIO_EN_BLANCO] [MÚSICA]