[MUSIC] Bien, ustedes pueden repetir este experimento, ahora generando en vez de 5 variables, 10,000 variables, y en vez de 1,000 datos, 100,000 datos. Van a ver que esto se va a parecer cada vez más a una distribución normal. Vamos a ver otro concepto necesario para hacer diferencia estadística, que es lo que se llama la ley de los grandes números. Esta ley afirma que el promedio de las variables aleatorias independientes con una distribución común, va a converger a la media de la distribución a medida que el tamaño de la muestra crece. Es decir, de acuerdo a esta ley, el promedio de los resultados obtenidos de una larga serie de repeticiones, se va a acercar a su valor esperado. Por eso acá decimos que X raya ¿sí?, la media muestral, va a tender a mu cuando el n tiende a infinito, es decir, cuando el n es muy, muy grande. Bien, ¿cómo sería esto en un ejemplo? Vamos a simular un experimento en el cual arrojamos una moneda. you sabemos que la probabilidad de que salga cara o ceca es de un medio. Entonces, lo que fui haciendo fue lo siguiente, fue generando aleatoriamente unos y ceros en el Excel, y voy a llamar 1 cada vez que me salga cara, 0 cada vez que salga ceca. Bien, entonces genero 10 números aleatorios, esto es equivalente a tirar 10 veces la moneda, y 7 de esas 10 veces aparece una cara. Si yo usara esa proporción como estimador de la probabilidad, estaría diciendo que la probabilidad de que salga cara es del 70%. Bien, entonces empiezo a aumentar el número de replicaciones de este experimento, es decir, la cantidad de números aleatorios, binarios que voy generando o lo que es lo mismo la cantidad de veces que tiro la moneda. Cuando n es igual a 50, 23 de esas 50 veces salió cara, 27 veces ceca, es decir, estaría diciendo que la probabilidad de que sea cara es del 46%. Y sigo incrementando n, y fíjense que cuando llego a un n de 10,000 me estoy aproximando a una probabilidad de un medio, un medio. En este gráfico se ilustra lo que fue pasando en este experimento. Es decir, en el eje vertical tenemos la probabilidad, en el eje horizontal tenemos n, es decir, la cantidad de veces que se arroja la moneda. Fíjense, se ve que la primera vez que yo tiré la moneda, apareció una cara, you que hay una probabilidad de uno. Luego se ve que apareció ceca, y esto empezó a oscilar mucho al principio, es decir, cuando el n es pequeño. Y a medida que el n, la cantidad de repeticiones del experimento se fue incrementando, van a ver que esto va convergiendo en la verdadera probabilidad que es de un medio. Bueno, ahora hablemos del otro estimador que vamos a analizar, que es la proporción muestral o p sombrero. Si X es el número de éxitos en una muestra de n observaciones, p es la probabilidad de éxito. Entonces vimos que p sombrero, la proporción muestral, será la cantidad de éxitos sobre el total de casos n. Al igual que con la media muestral, con X raya, la proporción muestral es un estadístico, y por lo tanto es una variable aleatoria, es decir, tendrá asociada una distribución muestral. Bien, entonces la media y la varianza de la distribución muestral de la proporción muestral pueden deducirse fácilmente de la media y la varianza del número de éxitos que estoy llamando X. La esperanza de X de la cantidad de éxito será n veces p, es decir n veces la probabilidad de éxito que yo tenga y su varianza será n por p por 1- p. Entonces, si p sombrero es X sobre n, puedo calcular la esperanza de p sombrero y esta será p. Y puedo calcular la varianza de p sombrero, y esta será p por 1- p dividido n. Si tomamos la raíz cuadrada positiva de la varianza de la proporción muestral, obtendremos lo que se llama el error estándar. Es decir, la raíz cuadrada de p por 1- p dividido n. Si el tamaño de la muestra n es lo suficientemente grande, la estandarización de p sombrero tendrá una distribución normal estándar. Es decir, si a p sombrero le resto su media de p y la divido por su desvío, raíz cuadrada de p por 1- p dividido n, voy a tener una variable aleatoria que llamo Z que tiene una distribución normal estándar. Si quieren poner esto a prueba, les recomiendo ver un video de YouTube que se llama La Máquina de Galton. Tendrán el link en la plataforma. A modo de conclusión, X raya, la media muestral y p sombrero, la proporción muestral, son estadísticos y, por lo tanto, son variables aleatorias. Entonces, tendrán una distribución asociada, una distribución muestral. Necesitamos conocer dichas distribuciones para entonces poder hacer inferencia estadística. Esto es sacar conclusiones generales a partir de los datos de una muestra.