¿Qué ocurre cuando no podemos hacer un experimento cuando, por ejemplo, es demasiado tarde para hacerlo o el tipo de política pública no lo permite o no nos dejan hacerlo? Algo que también pasa aunque fuera posible. ¿Cómo estimar el impacto de un programa? Lo que se suele hacer es usar lo que se llaman los métodos cuasi experimentales. Lo que quiere decir que intentan, entre comillas, imitar un experimento. En el sentido que buscan un grupo de comparación lo más parecido posible ante participantes. El gran reto para todos estos métodos es siempre encontrar la manera de controlar el sesgo de selección, de compensar el hecho de que el grupo de participantes y el grupo de comparación no se han formado por asignación de autoridad, y por tanto pueden haber otras diferencias entre los dos grupos aparte del hecho que unos han participado y los otros no en el programa o política pública. Para esta imitación, los métodos cuasi experimentales suelen seguir una de las dos siguientes estrategias. La primera es una estrategia que podríamos llamar de diseño que consiste en encontrar un grupo no expuesto al programa o a la política pública que tengamos razones para pensar que no es muy distinto del de participantes. La segunda estrategia es de cocina estadística. Se trata de encontrar un grupo de no participantes que sabemos que no son exactamente igual que los participantes, pero que tenemos suficiente información para aplicar a una serie de ajustes estadísticos para compensar estas diferencias. En este vídeo, vamos a explicar estos métodos de una forma conceptual. Veréis que se entienden bastante bien. De todas maneras quien esté interesado para saber más sobre estos métodos para poderlos aplicar, hay algunos cursos avanzados tanto en Coursera como en EdX sobre estas cuestiones que os recomendamos. El primer ejemplo de que vamos a hablar es el de los planes de empleo de Cataluña. Los planes de empleo son una política activa de ocupación bastante estándar. Es decir, una política que tiene por objetivo actuar sobre la persona que no tiene empleo para hacer algo con ella que incrementa la probabilidad de que acabe encontrando un trabajo y lo mantenga. Por tanto, tenemos un objetivo bastante claro, un outcome que podemos derivar este objetivo. El programa tenía un formato bastante estándar y consistía en la convocatoria de subvenciones que estaba abierta en las administraciones locales y entidades sin ánimo de lucro para que se presentarán proyectos de interés social. En el caso de que recibieran la subvención, estas entidades debían contratar a personas sin empleo para realizar el proyecto que generalmente duraba unos pocos meses. ¿Cuál es la teoría del cambio del programa? Consiste en que al estar empleados durante un tiempo en estos proyectos, los participantes por una parte recuperan el hábito de trabajar y la motivación, adquieren competencias relevantes para conseguir un empleo que antes no tenían, incorporen a currículum una línea reciente, una línea relevante. En su currículum you no dice que el último empleo fue tantos años atrás sino que dice que ha estado recientemente trabajando en el ayuntamiento o en una entidad sin ánimo de lucro. En conjunto, esas tres cosas deberían incrementar la ocupabilidad del participante y por tanto la probabilidad de que encuentre trabajo. Una teoría razonable, pero la cuestión es, ¿funcionan? Recordemos que la teoría es una hipótesis. Ahora se trata de contrastarla. Vayamos por parte. Se trata sin duda de una pregunta de impacto. El programa incrementa la participación en el mercado laboral de los participantes, ¿sí o no? Esto se pone interesante puesto que necesitaremos un contrafactual. ¿Cuál es la metodología más adecuada en este caso para contestar la pregunta y encontrar el contrafactual? El diseño experimental, no. Está fuera de lugar porque el encargo fue en el año 2009 y el período a estudiar era 2005, 2007; totalmente ex-post. Y you sabéis que ex-post no se puede decidir que la asignación de los candidatos al programa sea aleatoria porque you ocurrió en el pasado. ¿Pero hay posibilidad de encontrar algún grupo de comparación? Sí, la hay. Los participantes en el programa eran unos 7.000 de un conjunto de 400.000 personas sin empleo registradas. Por tanto, se en cuan, se trata de encontrar un grupo de personas sin empleo no participantes que se parezcan mucho a los participantes. Como en el gráfico veis el otro vídeo de los muñequitos negros y los muñequitos grises. Fijaros que no puede hacer una comparación sin más de los 7.000 participantes con los 393.000 parados no participantes, puesto que no son iguales. Esto es así porque el programa tenía unos criterios de selección definidos. En principio, los participantes debían ser desempleados de baja ocupabilidad. Lo que viene determinado sobre todo por la edad, por un nivel de estudios bajo y por llevar bastante tiempo en el paro. Así que los 7.000 participantes de los planes de empleo son un subgrupo un poco especial de más difícil ocupabilidad que necesita un grupo de comparación de no participantes equivalente, igual de especial, igual de baja ocupabilidad para no incurrir en algo que you conocéis, el sesgo de selección que es lo que ocurre cuando comparas naranjas y manzanas. Aquí es donde entran en acción los registros administrativos. Todas las personas que están en el registro del paro han respondido a un cuestionario que es bastante completo, que es bastante exhaustivo en el que figuran datos sobre la edad, el género, los estudios, la experiencia laboral, el tipo de empleo que buscan, los idiomas que hablan, el tiempo que llevan en paro, un montón de cosas. Por lo tanto, hay mucha información en las bases de datos tanto sobre los participantes como sobre el conjunto de parados no participantes para poder encontrar para poder formar este grupo de comparación. El procedimiento en este caso es de pura cocina estadística, una técnica que se llama pareamiento, o matching en inglés, que consiste en encontrar para cada participante su par no participante, la persona sin empleo que se parezca lo más posible para el conjunto de características registradas en la base de datos. De nuevo, edad, género, experiencia laboral, el tiempo en el paro, etcétera. Luego se comparan los dos grupos y se comprueba una vez terminado el programa a medida que pasa el tiempo cuál es la inserción de un grupo y del otro, el de participantes y el de comparación. Si el de participantes es superior al de comparación, diríamos que ha habido un impacto positivo, y esto se puede comprobar fácilmente usando datos del registro de la seguridad social que te dice que esa persona está trabajando o no. ¿Asunto resuelto? Casi, no del todo. Hemos dicho que los métodos cuasi experimentales suelen ser vulnerables al sesgo de selección. Fijaros que la técnica del apareamiento que puede construir un grupo de comparación equivalente para todas aquellas variables que están en el registro del paro, en el registro administrativo; sexo, edad, experiencia laboral, etcétera. Pero, ¿qué pasa si los dos grupos difieren en algún criterio que no está en la base de datos? Por ejemplo, si los empleados de servicio de empleo han decidido o han tendido a seleccionar a aquellos que tienen aspecto de realizar bien el trabajo o aquellos que tienen aspecto de que no encontrarán nunca un empleo por su propia cuenta y por tanto que les conviene mucho el programa, o tienden a escoger para participar en el programa aquellos que más insisten por tanto a los que están más motivados para participar en un programa y encontrar un trabajo. Si los dos grupos difieren sistemáticamente en alguna de estas variables, motivación, aspecto de trabajar bien, aspecto de no poder encontrar un trabajo, lo que sea, tenemos un problema porque no sabremos al final si la diferencia en legislación laboral de un grupo u otro se debe a participación en el programa o se debe a esas otras características que nosotros no hemos podido controlar. Por tanto, no estaremos seguros de si hemos conseguido controlar adecuadamente el sesgo de selección. Para controlar estas situaciones, debemos buscar si está operando algún criterio no observable de selección o encontrar alguna manera de controlarlos. El segundo ejemplo del que vamos a hablar es la evaluación del cheque bebé español, introducido en España en el año 2007. Esta transferencia de 2.500 Euros a las madres que daban a luz se introdujo sin previo aviso el tres de julio del año 2007 con aplicación inmediata. 2.500 Euros en aquel momento eran unas 4,5 veces el salario mínimo para un trabajador a tiempo completo, así que es una cantidad que no estaba mal. La cuestión es, ¿esta medida tuvo impacto? Y la primera pregunta es evidente, ¿impacto sobre qué? ¿Cuáles eran los objetivos del cheque bebé? Tanto la intuición, si pensamos un poco, como la normativa que regulaba el cheque bebé nos dan vistas, incrementar la fertilidad, facilitar la conciliación entre responsabilidades laborales y responsabilidades familiares de las madres que es quien recibía este dinero, incrementar el bienestar material de los bebés por con este dinero se pueden comprar cosas para ellos. Por tanto, es una política con múltiples objetivos y outcomes sobre los que medir impactos. Libertad González, una investigadora de la Universitat Pompeu Fabra se dio cuenta enseguida de que el programa tenía una característica que abría una gran ventana de oportunidad a la generación de conocimiento. El cheque bebé nace sin previo aviso en un momento en que un buen número de mujeres acababa de dar a luz o le faltaba muy poco para hacerlo. Unas obtuvieron un cheque y las otras no, y no hay ningún motivo para pensar que las españolas que tuvieron su bebé un mes antes del uno de julio fueran sistemáticamente diferentes tras que hubieran un mes después. El diseño de la política con una fecha arbitraria de inicio y sin previo aviso que pudiera modificar el comportamiento reproductivo de las mujeres creaba una especie de experimento natural, un grupo de comparación estupendo, una gran oportunidad para saber qué impacto tiene una medida de este tipo. El método usado llamado de regresión discontinua es un ejemplo de estrategia de control de contrafactual de diseño. No hay cocina estadística sino que se explota un elemento del diseño del programa que crea un grupo de comparación muy bueno, muy robusto. Por si os interesa, las madres que recibieron el dinero no tendían a gastar más, ni en general, ni en bienes relacionados con sus bebés. Sin embargo, así que hay una diferencia significativa e interesante porque con este dinero tendían a comprar tiempo para estar con sus hijos, reincorporándose más tarde al trabajo. Y finalmente, el tercer caso que vamos a explicar. En el año 1992 introdujeron en la ciudad de Barcelona una serie de medidas para obligar a los conductores de motocicletas de menos de 125 centímetros cúbicos a llevar casco, algo que hasta esa fecha sólo era obligatorio para motocicletas de cilindrada superior. Chavie Barrial y Abel Arriba en aquel momento los dos de la Universitat Autònoma de Barcelona se preguntaron si la medida que fue muy popular porque se inmiscuían en la libertad individual de exponerse a un riesgo que no afecta a nadie más que al interesado. Pues miraron si esta medida había tenido impacto sobre el objetivo declarado que era reducir el número de heridos graves y de muertos en accidentes de motocicleta. Lo primero que hicieron los evaluadores es el contraste antes después desde la nueva reglamentación. La media de accidentados muertos o graves semanales en la serie temporal posterior a la nueva regulación es estadísticamente inferior que la media de la serie temporal anterior a la intervención. En el gráfico se comprueba este salto. Veréis que la caída del gráfico no es muy buena, por es que se trata prácticamente de un incunable en la literatura de evaluación de políticas públicas en España. Esta reducción es una buena noticia, pero aunque se trata de una serie temporal y no de dos puntos en el tiempo, no deja de ser una comparación antes después y por tanto una comparación vulnerable a un sesgo por historia o factores de externos. La reducción se podría deber, por ejemplo, a una mejor meteorología después de la entrada en vigor de la nueva normativa o una mejora del asfalto o a otros aspectos de la propia ley de seguridad vial de 1992. Para aleviar con esta amenaza, los evaluadores buscan en aspectos del diseño de la política un grupo de comparación y lo encuentran, las motos de más de 125 centímetros cúbicos. Fijaros que para este tipo de motos, junio de 92 no suponen ninguna discontinuidad, puesto que están obligadas a llevar casco antes y después de esta fecha. Por tanto para ellos, nada cambia. Y en cambio si hubo alguna mejora en la meteorología, si la hubo en el asfalto de la ciudad o en el comportamiento del tráfico debido a otros aspectos de la ley de seguridad vial, estas otras motos debían estar igualmente beneficiadas o igualmente afectadas. Sin embargo, si observáis ese segundo gráfico, comprobaréis cómo el número de accidentados muertos o graves se mantiene estable para las motos de 125 centímetros cúbicos. La hipótesis contrafactual es bastante convincente. Dicen ellos, en ausencia de la nueva regulación sobre el uso del casco, los accidentes en las motos pequeñas habría seguido la misma tendencia que los de las motos grandes dado que las motos pequeñas muestran una reducción sustancial que no se observa en las motos grandes, podemos asumir que esta no, que la nueva regulación es la causa de la reducción en el número de accidentados muertos y graves en las motos pequeñas de menos de 125 centímetros cúbicos.