Hola, siguiendo con el objetivo de esta semana, que es ver los puntos claves de la modelización, vamos a centrarnos en este video en la calibración de los modelos. La calibración, que vamos a ver a continuación, es en el escenario más sencillo pero es importante hacer énfasis a los principales ingredientes que aparecen en el proceso de modelización. Como ya comentamos, un problema de modelización solo resuelve de algún modo la pieza referente al modelo. La respuesta o resolver el problema, requiere además hablar de la incertidumbre, así que recordemos que podíamos esquematizar como respuesta a nuestro problema, tenemos el modelo y la incertidumbre, las dos piezas. Ya comentamos un ejemplo sencillo que correspondería a tener por objetivo predecir el valor de "Y", de una variable respuesta, y tomando simplemente la media podríamos tener una estimación o un modelo que nos haga predicción de cuál sería el valor observado. En este escenario tan sencillo, cabe entrar ya en un poco más de idea de cómo hacemos modelos más complejos que requieren realmente los escenarios de Big Data. Para hacer esto, necesitamos, de algún modo, añadir información al modelo. Añadir información al modelo, esto se puede hacer de varios modos. Principalmente, podemos clasificar en dos maneras de hacerlo, una puede ser tratar de hacer suposiciones sobre alguna de las variables, puede ser la variable respuesta o alguna otra de estas variables, y el segundo sería añadir información referente a relaciones que puede haber entre las diferentes variables. Así que, fijémonos que añadir información a modo muy esquemático, pasa por hacer suposiciones sobre diferentes propiedades de nuestros datos. Cualquier suposición que hagamos, después se puede traducir de algún modo u otro, en encaminar nuestro proceso de modelización. Así, vamos a poner en escenario los casos más habituales que ya se conocen desde la estadística habitual que planeamos por un acto, el mas común que conocemos como hacer, simplemente, ajustar un modelo paramétrico pues sería, cuando tenemos una variable respuesta y, como habíamos visto en ejemplos anteriores, podemos suponer por ejemplo que sigue una ley normal. Esto sería aportar información a la modelización. Así que con este supósito, ya podríamos intentar modelar la variable "Y" a través de una ley normal. La manera de hacerlo ya lo conocemos de la estadística habitual, y sería ajustar sus parámetros. Otras suposiciones, otras maneras de mejorar el modelo en la línea anterior, otro ejemplo habitual sería, en este caso de añadir información referente a posibles relaciones, la más sencilla que también proviene de la estadística habitual sería, por ejemplo, de suponer cierta relación lineal entre variables, por ejemplo, entre una variable, una covariable, una variable que observamos, un "fixture" dentro de nuestra tabla de datos y la variable respuesta. Podría ser una relación lineal, suponer que existe algún tipo de proporción, estos serían los ejemplos básicos que ya conocemos en la estadística habitual, pero enmarcados en el campo de Big Data requiere de formularlos quizás de un modo algo diferente. Veamos esto que acabamos de decir, observando el ejemplo que ya habíamos visto, tan sencillo, en que tenemos simplemente una variable "Y" y una variable "X", es una tabla muy pequeña pero así podemos ejemplizar mejor los detalles, y fijémonos en estos dos casos que hemos tratado. El primero, hacer una suposición sobre la variable "Y", suponer que es una ley normal, que sigue una ley normal o quizás otro modelo paramétrico, pero en el caso de una ley normal que es el que más conocemos, pues más o menos, todos sabemos que deberíamos calibrar el modelo utilizando la media y la desviación de los datos. Así que, el modelo pasaría a ser una normal, con esta media y esta desviación. Esto realmente sería la respuesta de nuestro modelo, la respuesta de nuestro modelo sería una normal, la ley normal, con cierta media y cierta desviación. Esto, traducido al lenguaje que estamos utilizando, sería el modelo, en realidad es el 5.95 y la incertidumbre, hemos sido capaces de medirla con una normal, de media "cero" y la desviación, que en este caso, en estos datos, sería 2,6. Así que observemos, que esta fórmula de respuesta igual a modelo más incertidumbre, se repite en el escenario más básico que conocemos, que se ajusta simplemente a una ley de distribución paramétrica. Otro ejemplo sencillo sería éste que habíamos dicho de añadir información a través de relaciones con otras variables, y en este escenario, nosotros conocemos la regresión lineal, clásica de toda la vida en que, de algún modo, podemos encontrar como modelo, tendríamos en este caso, hemos hecho una regresión lineal ordinaria y tenemos este 0,5 para la pendiente y un 4,3 para la ordenada al origen del modelo, así que la respuesta sería, lo que queremos predecir, la "Y" sería 0,5 veces "X" más 4,3. Otra vez, esto sería el modelo. El modelo de regresión lineal, bajo ciertas suposiciones, nos está dando información sobre la incertidumbre, de modo que, si se dan las hipótesis, la respuesta otra vez sería el modelo que acabamos de decir, más la incertidumbre que vendría dado por una normal, que en este caso habría que calcular cuál es la variancia en este error. En el caso de estos datos, observamos que da 2,6. Este cálculo ya requiere un poco más de complejidad, pero igualmente es estadística habitual que podemos consultar en cualquier manual. A grandes rasgos hemos visto los dos clásicos métodos de modelización, pero desde el punto de vista más genérico que es dar como respuesta la suma del modelo más la incertidumbre. En cuanto a un caso, vamos a entrar un poco más en concreto en el caso de la modelización lineal. Fijaros que solo aquí, ponemos un poco en énfasis las diferentes piezas para poder realmente después identificar cuando hagamos cosas algo más complejas. Al final, lo que estamos haciendo con un modelo lineal es hacer un pronóstico sobre la "Y" basándonos en una formulación lineal, que depende de otras variables. Aquí es importante fijarnos que, tal como lo hemos visto en el ejemplo anterior, la variable "X" tomaba una columna de valores, pero cuando estemos en un escenario Big Data, el valor de "X" en realidad va a ser un vector, así que, "X", tenemos que tener en mente que será un vector, y cuando multiplicamos por un valor "A" realmente va a ser una combinación lineal de este vector, de cada uno de los valores que toma, cada uno de los casos que observamos en nuestra tabla, con ciertos parámetros que habremos podido calibrar. ¿Cuál es el escenario? Fijémonos cuál es realmente, como modelo explicativo que contempla un modelo lineal. Puede predecir, explicar, o sea realmente, por un modelo lineal, puesto que tiene ciertas propiedades que si se cumplen nos da más potencia, nos da predicción, podemos llegar a tener un modelo, que no solo prediga, sino que, también explique pues, por ejemplo el valor bajo cierto supósito, en este caso de normalidad. También podemos, en el caso más general, no hace falta suponer normalidad para la variable "Y", sabemos que con que sea cierto que podemos suponer normalidad sobre el valor esperado de "Y", también podríamos aplicar este modelo como modelo explicativo. Aquí, como retos en la modelización, sabemos que tenemos que calibrar el modelo y ésto fijémonos que requiere calibrar en un modelo lineal pues los parámetros "A y B", que nos va a responder en la expresión de la linealidad, que remarco que deberían ser vectores en caso de que "X" tome una dimensión superior a uno, y el Sigma que hemos remarcado aquí que sería el parámetro del error. El método habitual es, el método de mínimos cuadrados para hacer regresión lineal. Pero aquí, entraré en énfasis de que, este es el modelo de regresión lineal que utilizamos habitualmente, pero justamente serán estos puntos, como el método de calibración, lo que vamos a tener que variar a menudo cuando hagamos calibración en Big Data. En este caso, hemos querido remarcar el modelo lineal puesto que es un primer ejemplo básico de regresión. Un modelo básico de clasificación correspondería al modelo logístico, el modelo logístico es conocido en la estadística, como una manera de predecir las clases de cierta variable, estamos en el escenario en la que mi respuesta, la variable que quiero predecir o analizar, toma diferentes categorías. En este escenario no podemos utilizar la regresión lineal tal como la conocemos habitualmente, lo que hacemos es transformar la variable objetivo, la variable respuesta, en lo que se llama a menudo "Logets", que podéis ver aquí que es el logaritmo de "P partido por uno menos P", este valor "P" es en el supósito de que existe una probabilidad "P" que corresponde justamente, a una de las clases. Estamos en el escenario en que "Y" solo tomaría dos clases, por ejemplo, cero y uno, como hemos visto en el ejemplo anterior. Si tuviéramos más valores, si nuestra variable a clasificar, tuviera más de dos valores, entonces esa expresión sería un pelín más compleja, pero en cualquiera de los casos, lo más importante, hacer énfasis como ejemplo es que, en el tema de clasificación, ya tenemos cierta complejidad y es que el modelo, en general, cuando seamos capaces de calibrar un modelo, la respuesta no va a ser directamente el valor que queremos predecir, que podría ser "P", la probabilidad de que aparezca cierta categoría, sino que vamos a tener que hacer cierta transformación. Ya en el modelo logístico aparece esta transformación, e incluso en este caso, una vez que hemos hecho la transformación, lo que tenemos es la probabilidad, de que pertenezca a una categoría, así que, un detalle muy importante a tener en cuenta es que, los modelos de clasificación, van a retornarnos probabilidades, que nos van a dar información de cual es la probabilidad de que la respuesta pertenezca a cierta categoría y no directamente el valor exacto de cuál es el valor, o de la categoría predicha. Esto lo veremos más en detalle cuando veamos los ejemplos y a medida que vayamos viendo las diferentes técnicas algo más complejas de modelización.