En el video sobre los temas de población y muestra aleatoria, definimos los conceptos de población y muestra aleatoria de una población. En este video, partiendo de esas definiciones, vamos a presentar y discutir los conceptos de estadísticas, estimadores y sus propiedades en el contexto de la estadística inferencial y presentar algunos ejemplos. En la estimación de parámetros se hace la distinción entre estimación puntual y estimación por intervalos. Los dos temas hacen parte del contenido de este curso. En este video, vamos a tratar el tema de estimadores puntuales llamados así porque una vez el estimador ha sido calculado para una muestra de aleatoria dada, produce un valor específico como estimación del valor del parámetro. Partimos, entonces, de una población determinada y de una variable aleatoria de interés "x" asociada a alguna característica relevante de dicha población. Recordemos que una muestra aleatoria de una población con relación a una variable aleatoria de interés "x" consiste en un conjunto "x" uno, "x" dos, "x" "n", de "n" variables aleatorias independientes entre sí que tienen la misma distribución que la variable aleatoria "x". Por ejemplo, si una variable aleatoria "x" tiene una distribución normal de media mu igual a 500 y varianza sigma cuadrado igual a 400, cada una de las variables aleatorias que conforman la muestra, debe tener distribución normal de media mu igual a 500 y varianza sigma cuadrado igual a 400. Como ya lo mencionamos en el video sobre los temas de población y muestra aleatoria, los parámetros poblacionales no son directamente observables y para estimar su valor debemos recurrir a muestras aleatorias de la población y a variables cuyo valor sea observable. Exactamente, en este contexto, se define a continuación qué es una estadística asociada a una muestra aleatoria. Consideremos una muestra aleatoria "x" uno, "x" dos, "x" "n", de una variable aleatoria "x". "h" es una estadística con respecto a dicha muestra aleatoria, si "h" es una función de las variables "x" uno , "x" dos, "x" "n", que no contiene parámetros con valor desconocido. Es decir, si se tiene una muestra aleatoria "x" uno, "x" dos, "x" "n" de una variable aleatoria "x", una estadística "h" es una función de la forma "h" igual a "h" de "x" uno, "x" dos, "x" "n", cuyo valor pertenece al conjunto de los números reales. Nótese que "h" es una variable aleatoria, puesto que es una función de variables aleatorias. Algunas estadísticas de particular interés son, entre otras, la media muestral, la varianza muestral, el máximo y el mínimo, definidas tal como aparecen en la pantalla. Como veremos más adelante, las estadísticas se utilizan para estimar los parámetros poblacionales como la media mu y la varianza sigma cuadrado, entre otros, de las distribuciones de probabilidad de una variable aleatoria de interés "x". Cuando una estadística se utiliza para estimar un parámetro de la distribución de probabilidad de una variable aleatoria, se le da el nombre de estimador, concepto que vamos a definir a continuación. Consideremos una variable aleatoria "x", cuya función de probabilidad o función de densidad de probabilidad f(x) de "x" depende de un parámetro theta con valor desconocido. Un estimador del parámetro theta es una estadística "h" de "x" uno, "x" dos, "x" "n", que se utiliza para estimar el valor de dicho parámetro con base en los valores observados de la muestra aleatoria de la población. Un estimador del parámetro theta se representa por theta sombrero, es decir, theta sombrero es igual a "h" de "x" uno, "x" dos, "x" "n". Por ejemplo, si para cierta población y una variable aleatoria de interés "x" se supiera que "x" tiene una distribución de probabilidad normal de media mu y varianza sigma cuadrado, entonces a un estimador del parámetro mu, lo vamos a representar por mu sombrero y a un estimador del parámetro sigma cuadrado lo vamos a representar por sigma cuadrado sombrero. Debemos tener muy presente que, puesto que un estimador theta sombrero es igual a "h" de "x" uno, "x" dos, "x" "n" es una función de variables aleatorias, entonces theta sombrero es a su vez una variable aleatoria y por tanto es de interés conocer sus características en cuanto a su valor esperado y su varianza, entre otras. Veamos ahora cuáles son las características deseables de un estimador. Uno: que sea centrado, es decir, que el valor esperado de theta sombrero sea igual a theta, lo cual significa que, en promedio, el valor del estimador theta sombrero es igual al valor del parámetro theta. Dos: de mínima varianza, en el sentido de que si theta uno sombrero y theta dos sombrero son estimadores centrados del parámetro theta, se considera mejor aquel de menor varianza. En la medida en que un estimador tenga una varianza más pequeña, este tiende a tener mayor precisión en la estimación que produce. Tres: que sea lineal con respecto a las variables de la muestra, lo cual facilita la obtención de su distribución de probabilidad. Por ejemplo, si "x" uno, "x" dos, "x" "n" es una muestra aleatoria de una variable aleatoria de media mu y varianza sigma cuadrado, parámetros desconocidos, es posible demostrar que los estimadores mu sombrero y sigma cuadrado sombrero de los parámetros mu y sigma cuadrado dados por..., son estimadores centrados de los parámetros mencionados, independientemente del tipo de distribución que tenga la variable aleatoria "x". Para efectos de nuestro curso de "Fundamentos de Probabilidad y Estadística Aplicada", más que mostrar formalmente las propiedades de los estimadores, nos interesa hacer énfasis en entender conceptualmente dichas propiedades. Con este propósito, a continuación, vamos a discutir las principales características y propiedades que son relevantes para un estimador theta sombrero de un parámetro theta. Vamos a discutir y presentar las principales propiedades de un estimador de un parámetro theta. Sea "x" una variable aleatoria que tiene una función de probabilidad o una función de densidad de probabilidad f(x) de "x" que depende de un parámetro theta. Y partimos de una muestra aleatoria "x" uno, "x" dos, hasta "x" "n". Entonces, se define primero el sesgo de un estimador. El sesgo está definido como la diferencia entre el valor esperado del estimador y el verdadero valor del parámetro. Es deseable, por supuesto, que el sesgo sea igual a cero, pero no siempre eso es posible. Sin embargo, como vamos a ver más adelante, es deseable que, en la medida de que el tamaño de la muestra aumenta, el sesgo disminuya y tienda a cero. Después, tenemos otra característica importante que se conoce como "el error cuadrático medio de un estimador", que lo vamos a representar por error cuadrático medio. El error cuadrático medio busca en un solo índice sintetizar las características del estimador en cuanto a su sesgo y a su varianza y se define como "error cuadrático medio de un estimador del parámetro theta es igual a la varianza del estimador, el sesgo del estimador al cuadrado". Noten que uno puede exigir o, es deseable, que el sesgo sea igual a cero, en caso en el cual estamos hablando de un estimador centrado. Sin embargo, la varianza del estimador en general, pues no puede ser igual a cero, puesto que un estimador es una variable aleatoria y una variable aleatoria no puede tener varianza cero. Así que, de lo que se trata es de que, en la medida de que el tamaño de la muestra aumenta, entonces, la varianza del estimador disminuya, lo cual motiva la siguiente definición que vamos a presentar. ¿Qué se ocupa de indicar cuándo un estimador es consistente? Entonces, un estimador es consistente, theta sombrero es consistente, si cumple dos propiedades para theta sub "n" representando el estimador para una muestra de tamaño "n". Debe cumplir entonces, primero: que el límite, cuando "n" tiende a infinito del valor esperado del estimador para una muestra de tamaño "n" sea exactamente igual al verdadero valor del parámetro. Es decir, que, en la medida de que el tamaño de la muestra aumenta, entonces el estimador tienda a ser insesgado o centrado. Y la propiedad "b" que se refiere a que el límite cuando "n" tiende a infinito de la varianza del estimador para una muestra de tamaño "n" es igual a cero. Esta propiedad indica que, en la medida de que el tamaño de la muestra es mayor, la varianza del estimador para una muestra de tamaño "n" tiende a ser menor, y como está escrito en la expresión, en el límite debe ser igual a cero. La propiedad cuatro, que se refiere a un estimador centrado de mínima varianza, lo cual significa que el estimador theta es centrado, primero; y segundo, que si existe otro estimador, llamémoslo theta sombrero asterisco, que también es centrado, entonces, debe cumplir que la varianza del estimador theta sombrero es menor o igual a la varianza del estimador theta sombrero asterisco. Lo cual significa, en síntesis, que si hay otro estimador centrado, ese estimador tiene que tener mayor varianza que el estimador theta sombrero. Cuando esto se cumple hablamos de un estimador theta sombrero que es centrado y de mínima varianza. Los conceptos aquí presentados nos servirán más adelante para entender mejor los diferentes temas que requieren de la estimación de parámetros que, como se ha dicho antes, es un propósito central de la estadística inferencial.