En esta sección exploráremos qué es la evaluación del aprendizaje y sus aspectos básicos. Nelson Mandela dijo, sabiamente, la educación es el arma más poderosa que puedes usar para cambiar el mundo. Aunque la enseñanza y el aprendizaje son indispensables, sí no van acompañadas con un énfasis en evaluación no podremos lograr los cambios que exige la medicina moderna. Recuerdas cómo te evaluaban tus maestros, exámenes escritos, de opción múltiple, exámenes orales, evaluaciones practicas. ¿Recuerdas las condiciones en que te evaluaron, fue una evaluación justa y sin sesgos? Es fundamental recordar que para la mayoría de los estudiantes los requerimientos de evaluación literalmente definen el currículo. La evaluación es una poderosísima herramienta estratégica con la que podemos definir el aprendizaje que será recompensado. La evaluación pobremente diseñada tiene el potencial de entorpecer el aprendizaje y suprimir la innovación curricular. Como profesores tenemos un gran poder sobre los estudiantes. Sigamos el lema del hombre araña, con gran poder, conlleva gran responsabilidad. Para comenzar definíamos qué es una evaluación. Desde el punto de vista educativo, es un término genérico que incluye todo un rango de procedimientos para adquirir información sobre el aprendizaje del estudiante, y la formación de juicios de valor respecto al proceso de aprendizaje. Ello implica un proceso sistemático de acopio de información a través de la aplicación de diversos instrumentos como exámenes escritos y orales para ser analizada con un cierto rigor metodológico y así fundamentar la toma de decisiones. Hasta cierto punto, la evaluación es un intento de conocer a esa persona. No debemos olvidar que lo que evaluamos son seres humanos, con todas sus virtudes y defectos. Ahora, ¿qué entendemos por examen o prueba? Se definen como un instrumento o procedimiento sistemático para medir una muestra de conducta, planteando un conjunto de preguntas o interrogantes de manera uniforme. No es lo mismo evaluación que medición. Medición es el proceso de obtener una descripción numérica del grado al cual un individuo posee una característica, en particular. Medir es solamente la obtención de datos sin realizar juicios de valor, como el medir la temperatura o el cociente intelectual. Mientras que la evaluación es un proceso mucho más amplio y valorativo, la medición es parte de, pero no es toda la evaluación. Otra definición importante es la de instrumentos, palabra que tiene una connotación técnica en educación. Un instrumento de evaluación es una técnica de medición y recolección de datos que tiene distintos formatos atendiendo a la naturaleza de la evaluación. Por ejemplo, instrumentos de selección de respuesta o de respuesta construida, cuestionarios, observaciones, portafolios, entre otros. Existen unos principios generales de la evaluación en educación: el primero es especificar muy claramente lo que se va a evaluar, es fundamental. El segundo, los métodos de evaluación deben elegirse por su relevancia para las características del estudiante que se van a evaluar. Tercero, para que sea útil y efectiva se requiere de una variedad de procedimientos e instrumentos. El cuarto es su uso adecuado requiere tener conciencia de las bondades y limitaciones de cada método. Y por último, y es muy importante, la evaluación es un medio para un fin, no un fin en sí mismo. Una de las clasificaciones tradicionales de evaluación educativa es desde el punto de vista de su objetivo, se puede clasificar en diagnóstica, sumativa y formativa. La evaluación diagnóstica, se realiza al principio de un curso o actividad académica, con la finalidad de determinar el nivel de conocimiento, habilidad o actitud del educando. Esta información puede ser de gran utilidad para el docente, you que le permite hacer adecuaciones en el contenido y en la implementación de las actividades programadas. Un ejemplo de este tipo de evaluación es el examen diagnóstico de ingreso a las carreras de licenciatura de la universidad nacional autónoma de México, en el que se valoran los conocimientos generales de español y de inglés de los estudiantes de nuevo ingreso. La evaluación sumativa es aquella compuesta por la suma de valoraciones efectuadas durante un curso o unidad didáctica, para así determinar el grado con que los objetivos de la instrucción fueron alcanzados y así otorgar calificaciones o certificar la competencia. Por ejemplo, los exámenes de fin de curso, los exámenes de certificación y el examen profesional de fin de carrera. Un tipo de examen sumativo que merece atención especial son los llamados exámenes de altas consecuencias o de alto impacto, como puede ser el examen de ingreso a la universidad, que tiene grandes consecuencias para el individuo y para la sociedad. La evaluación formativa, en cambio, es la que se utiliza para monitorizar el progreso del aprendizaje y así proporcionar retroalimentación al estudiante sobre sus logros, deficiencias y oportunidades de mejora. Esta evaluación debería ocurrir a lo largo de todo el proceso educativo del estudiante y puede ser formal o informal, positiva o negativa. La evaluación formativa tiene un muy poderoso componente educativo, you que durante las actividades cotidianas, permite identificar aquellas que se hacen bien para continuar haciéndolas así y aquellas que tienen alguna deficiencia para detectarlas oportunamente y corregirlas. Este tipo de evaluación forma parte del concepto de evaluación para el aprendizaje, enfatizando que la evaluación no es solamente para verificar la adquisición de conocimientos y habilidades, sino que debe apoyar al estudiante en todo momento y propiciar el aprendizaje más allá de los exámenes. Otra forma de clasificar a la evaluación es de acuerdo a la interpretación de los resultados, puede ser con referencia a norma o relativa, o con referencia a criterio o absoluta. Cuando la evaluación se interpreta con referencia a norma, el resultado se describe en términos del desempeño del grupo y de la posición relativa de cada uno de los estudiantes evaluados. Este tipo de evaluación se utiliza para colocar a los alumnos en escalas de rendimiento y puntaje y asignarles un lugar dentro del grupo. Un ejemplo en México es el examen nacional de aspirantes a residencias médicas, el ENARM, en el que la puntuación obtenida por el médico se evalúa en relación al desempeño del grupo y de su lugar secuencial en la lista para así aspirar a una de las plazas y no en un criterio de nivel de conocimientos previamente definidos. La evaluación con referencia a criterio describe el resultado específico que se encontró de acuerdo a criterios o metas preestablecidos. Este tipo de evaluación busca la comparación del estudiante con relación a un estándar previamente establecido. Un ejemplo es el examen de inglés como segundo lenguaje, el TOEFL, en el que hay niveles de desempeño previamente determinados y los resultados se interpretan de acuerdo a dichos estándares, no de acuerdo al desempeño del grupo de sustentantes. Una evaluación es tan buena como la metodología utilizada y el uso que se hace de los resultados. El grupo de consenso de la conferencia de Ottawa en medicina, es un evento académico dedicado a la evaluación de la competencia clínica en ciencias de la salud. Este grupo ha propuesto criterios sobre las buenas prácticas en evaluación, que son: validez, confiabilidad, justicia, equivalencia, factibilidad, efecto educativo y catalítico y aceptabilidad. Nos enfocaremos en dos de estas buenas prácticas, la validez y la confiabilidad. Validez es el grado con el que se mide lo que se supone que mide. La validez es un concepto unitario y actualmente se considera que toda la validez es validez de constructo. La palabra constructo significa colecciones de conceptos abstractos y principios que se infieren de la conducta y que son explicados por una teoría educativa psicológica. Es decir, son atributos o características que no pueden observarse directamente. Por ejemplo, la inteligencia, la inteligencia emocional, la timidez, la competencia clínica. La validez es un juicio valorativo holístico e integrador que requiere múltiples fuentes de evidencia para la interpretación del constructo evaluado, you que intenta responder a la pregunta, ¿qué inferencias pueden hacerse sobre la persona basándose en los resultados del examen? ¿Sabe este interno realizar la exploración neurológica en un recién nacido? ¿Es capaz de intubar a un paciente obeso? El desempeño de un estudiante, en un examen clínico objetivo estructurado, realmente refleja su competencia clínica. No es el instrumento es que es válido perce, you que la validez de un examen es específica para un propósito y se refiere más bien a lo apropiado de la interpretación de los resultados, así como las inferencias que pueden hacerse de los mismos. Los resultados de los médicos que sustentan el examen para ingresar a las residencias médicas en México no deben interpretarse categóricamente como evidencia de la calidad de la enseñanza en las escuelas de medicina de donde proceden. you que si el examen no está diseñado con ese propósito, no debería hacerse así. Al ser este examen una prueba escrita de opción múltiple, tampoco deben interpretarse sus resultados como evidencia de las habilidades clínicas, you que solamente mide el nivel de conocimiento de las personas, nada más, pero tampoco nada menos. Confiabilidad es la capacidad del examen de arrojar un resultado consistente cuando se repite. Es decir, es la reproducibilidad del examen. Es un concepto estadístico que representa el grado en el cual las puntuaciones de los alumnos serian similares si fueran examinados de nuevo, y en el que el instrumento mide el fenómeno de manera consistente en el tiempo. Si la prueba se repite a lo largo del tiempo, los nuevos resultados deberían ser similares a los iniciales para el mismo instrumento de evaluación y la misma población de estudiantes, suponiendo que no hubiera ocurrido aprendizaje en el intervalo. Se expresa como un coeficiente de correlación, siendo uno punto cero una correlación perfecta y cero ninguna correlación. Para exámenes de muy altas consecuencias, como el de certificación de especialistas, la confiabilidad debe ser alta para que aporte evidencia suficiente de que las inferencias de los resultados del examen son defendibles. Se recomienda una confiabilidad de por lo menos 0.90 para las evaluaciones de muy altas consecuencias. Para exámenes de consecuencias moderadas, como las evaluaciones sumativas de fin de curso en la escuela, es deseable que la confiabilidad sea de 0.80 a 0.89. En exámenes de menores consecuencias, como la evaluación formativa o exámenes parciales diagnósticos, es aceptable una confiabilidad de 0.70 a 0.79. Estas cifras no representan rangos absolutos, pero pueden servir de marco de referencia para evaluar los instrumentos de evaluación. La confiabilidad de una medición es necesaria para obtener resultados válidos, aunque puede haber resultados confiables sin validez. Esto quiere decir que la confiabilidad es necesaria, pero no suficiente para la validez. La analogía con la diana de un blanco de tiro es útil para entender la relación entre los dos conceptos. you que la validez es el concepto más importante en evaluación educativa, es fundamental adquirir conciencia de sus amenazas. Estas disminuyen la credibilidad de las inferencias que se pueden hacer de los resultados de un examen. Se clasifican en dos tipos: el primer tipo de amenaza es la infrarrepresentación del constructo, que se refiere a una representación inapropiada de los dominios del contenido a evaluar por los exámenes. Por ejemplo, pocos reactivos en el examen, que no muestreen apropiadamente el área de conocimiento explorada. El uso de muchas preguntas que exploren procesos cognoscitivos de bajo nivel, como la memoria o el reconocimiento de datos factuales. Mientras que los objetivos de la enseñanza son de mayor nivel, como la aplicación o solución de problemas. Un ejemplo en la clínica, es evaluar la competencia de un estudiante a partir de su desempeño en un solo paciente o con una pequeña muestra de observaciones durante la rotación. El segundo tipo de amenaza se llama varianza irrelevante al constructo. Esta se refiere a variables que de manera sistemática interfieren con la capacidad de interpretar los resultados de la evaluación de una manera significativa y que causan ruido en los datos de medición. Por ejemplo, preguntas de examen elaboradas con deficiencias, la fuga de información del examen, el tener poco tiempo para responder la prueba. Si se trata de un examen práctico en una sala del hospital, el impacto del ruido, si hace mucho calor, si el profesor va de mal humor ese día, si el estudiante está desvelado, si el paciente tiene muchas enfermedades, todos estos factores pueden influir en el resultado de manera que la evaluación no refleja lo que realmente sabe o sabe hacer el estudiante. En el contexto clínico, la evaluación de la competencia de estudiantes y residentes, generalmente, se sustenta en calificaciones globales no estructuradas y basadas en muestras de conveniencia del desempeño clínico de los estudiantes. La naturaleza de los escenarios clínicos propicia una gran cantidad de sesgos de diversos tipos como pueden ser: sociales, cognitivos y ambientales. Estos sesgos influyen en las evaluaciones y generan varianza irrelevante al constructo. Las herramientas de evaluación que utilizamos en evaluación médica explican solamente el 8 por ciento de la varianza de la evaluación del desempeño. Es decir, una gran parte de lo que decimos que evaluamos con nuestros instrumentos es ruido de medición. Contribuyen a este fenómeno la multidimensionalidad de la competencia clínica, la especifidad de caso y de contexto. Está documentado que la competencia del médico no es un todo univoco y que el desempeño de los profesionales de la salud varía de caso a caso, así como en diferentes contextos. Con base en estas consideraciones, es muy importante que los médicos educadores adquiramos conciencia de todas estas fuentes de sesgo posibles que ocurren en nuestra práctica. Hay que identificar estos sesgos y tratar de establecer estrategias para minimizarlos, you que generalmente es imposible eliminarlos completamente. Esta es una lista de las fuentes de sesgo y como podemos ver son muchas y debemos estar alertas a ellas. Los instrumentos de evaluación y el uso que se hace de ellos en las escuelas de medicina y hospitales, son la declaración pública más importante de lo que realmente cuenta para la institución. Los estudiantes están muy alertas a estas señales, que a veces son sutiles, y en ocasiones son explicitas y visibles sobre lo que aprenden los estudiantes y cómo lo aprenden. Los clínicos educadores debemos hacer lo posible porque estos procedimientos de evaluación se realicen con profesionalismo educativo, en un entorno de calidad y evidencia de validez. Como ha dicho un académico mexicano, el doctor Tiburcio Moreno, la evaluación tiene muchas caras y en países como el nuestro ha estado permeada por una visión empirista que descansa en el principio: todos sabemos de evaluación, porque alguna vez hemos sido evaluados. Hay que mejorar nuestros conocimientos y habilidades en evaluación, en escenarios clínicos. Es una obligación ética y profesional de todos los médicos involucrados en la docencia. Espero que la información vista en este video haya sido de utilidad para ti. Y ahora para cerrar pondremos en práctica el tema del cual hemos estado hablando, la evaluación. Contesta las siguientes preguntas. [SONIDO]