Sobre incentivos en la educación

¿pisteando como un campeón?
Una de las ideas instaladas en el discurso público plantea que los resultados recientes en materia educativa están divorciados del gran incremento de recursos asignados al área en los dos últimos períodos de gobierno. A la luz de estas ideas una alternativa sería la de condicionar o vincular de alguna forma los recursos a los resultados (como por ejemplo plantean algunos actores políticos),1 de forma tal que los recursos operen como incentivos para mejores resultados. En este post (que continua una línea ya abierta por Gioia de Melo sobre diseño institucional) presento algunos estudios a partir de los cuales argumento que más que discutir si incentivos sí o no, es más importante pensar qué medir, cómo medirlo y cómo fijar los incentivos, ya que de esto depende la suerte de los estudiantes con distintos puntos de partida en cuanto a capacidad de aprendizaje o contexto socioeconómico, entre otros.

Midiendo

Para poder atar recursos a resultados es necesario medir la “calidad del docente”. Esto, por ejemplo, radica en ver el impacto del docente en los estudiantes: si éstos fueran asignados en forma aleatoria a los docentes podríamos comparar el resultado académico promedio de cada grupo de cada docente y, con algo de fe, concluir que el resultado es (al menos en parte) responsabilidad del docente. Luego compararíamos resultados entre docentes y listo. Ahora bien, es un hecho conocido que en el caso de Uruguay las características de los estudiantes (y de los centros de estudio) varían bastante de un barrio o ciudad a otro; en este caso un docente puede tener un grupo con escolaridad promedio mayor que otro grupo de otro docente, simplemente porque da clase en un liceo mejor o a un grupo de buenos estudiantes. A raíz de este problema, en economía de la educación se utilizan los llamados modelos de valor añadido (added value models en inglés): la idea es medir el desempeño estudiantil al inicio y fin de un período y asignar al docente responsabilidad sobre el cambio en el desempeño. Por ejemplo, si de marzo a diciembre el grupo del docente A pasa de 6 a 8, y el del docente B pasa de 4 a 7, podríamos concluir que el docente B es responsable de un incremento mayor, aun si su grupo termina el año con peores resultados que el del docente A. Los modelos de valor añadido son la base de varios estudios empíricos, resultan útiles para superar problemas de medición cuando los docentes tienen grupos heterogéneos, y además son útiles para entender otros problemas relacionados, como discuto a continuación.

Una crítica empírica a estos modelos es que aun dentro de un centro de estudio la asignación docente-alumnos puede responder a algún criterio particular, invalidando la idea de que la mejora es (al menos en parte) responsabilidad docente. Rothstein (2009) postula que los directores de los centros educativos tienen cierta información sobre el “potencial” de los alumnos y su asignación a distintos docentes puede responder a criterios académicos o de afinidad personal, por ejemplo. Un director que observa los resultados de exámenes a inicio y fin de segundo año de liceo puede hacerse una idea de qué alumnos tienen mayor y menor “capacidad de mejora” y luego intentar asignar dichos alumnos en tercero según que docente le caiga mejor. En este caso, una estimación de la calidad docente basada en la “mejora” de los estudiantes estaría sesgada. Rothstein plantea esto porque su estudio desarrolla una metodología novedosa mediante la cual, justamente, encuentra evidencia que muestra que una parte (pequeña) de la calidad docente es en realidad error de medida debido a la forma en que son armados los grupos por parte de las autoridades.

Existen otros problemas asociados a la idea de medir “mejoras”. Harris (2009) tiene un estudio bastante extenso que se detiene en distintas problemáticas y analiza distintas políticas concretas. De este estudio quiero extraer dos comentarios. El primero plantea que medir el impacto docente en función del cambio en el desempeño estudiantil implica asumir que dicho cambio es parejo a lo largo de la escala. Vale decir, un docente que contribuye a que un alumno pase de 1 a 5 tendría el mismo valor que otro que contribuye a una mejora de 5 a 9. Si estamos particularmente preocupados por lo que sucede con los alumnos en las peores condiciones iniciales estos mecanismos de medida no son los más adecuados. El segundo plantea que así como los estudiantes son diferentes, los docentes también puede serlo. Concretamente, el autor se pregunta qué pasa si algunos docentes son mejores dando clase a estudiantes con peores niveles iniciales y otros son mejores dando clase a estudiantes con mejores niveles iniciales. En este caso, los cambios en los desempeños de los estudiantes pueden no reflejar correctamente la “calidad” del docente, sino que pueden deberse a un problema de asignación: un docente que es muy bueno lidiando con malos estudiantes no tiene nada que hacer en una clase de nerds, y viceversa.

Incentivando

Hasta aquí no hice mención explícita a incentivos. La idea implícita es que prometer recursos en función de resultados estudiantiles debiera incentivar a los docentes a que “se esfuercen más” o hagan algo para mejorar el desempeño de sus estudiantes. Ahora bien, este “hagan algo” puede incluir comportamientos bastante desagradables. Por ejemplo, Koretz (2002) lleva a cabo un extenso trabajo sobre las limitaciones de los tests para medir conocimientos en el que presenta también evidencia empírica de docentes “haciendo trampa”. Algunos docentes dan soluciones de antemano, o alientan a los malos estudiantes a faltar el día del examen para levantar el promedio del grupo. El fenómeno de mayor interés es el “enseñar para salvar” (teaching to the test): algunos docentes enseñan específicamente para el formato de los tests y no necesariamente los conceptos como tales. Esta práctica queda al descubierto cuando se cambia el formato del examen: sumas y restas planteadas en horizontal o vertical, reglas de tres con distinta presentación entre otros cambios de formato, conducen a grandes cambios en los resultados de los exámenes. En la misma línea, Stecher y Barron (1999) estudian el impacto de un programa de incentivos para Kentucky (EEUU) y encuentran que los docentes no necesariamente responden esforzándose más o cambiando la pedagogía educativa, sino reasignando la carga horaria entre temas y materias. Así, a partir de los incentivos los docentes de cuarto de escuela asignaron mucho más tiempo en el aula a enseñar Ciencias ya que Ciencias se testea en cuarto, mientras que en quinto dedicaron mucho más tiempo a Matemáticas, que se testea en quinto. La presentación de estas anécdotas ilustra que el uso de incentivos puede fomentar prácticas no deseables, y la lección es que su introducción debiera ir de la mano del uso de salvaguardas y controles.

Aun cuando la introducción de incentivos lleve a mejoras en los resultados estudiantiles, es necesario ser cautos. Un ejemplo se ve en Neal y Schanzenbach (2010), quienes estudian el programa No Child Left Behind, implementado en EEUU a partir de 2001 y reforzado por Obama en su administración. El estudio ilustra cómo resulta muy importante la forma en que se miden o definen los resultados cuando se asocian incentivos a su logro. Como parte del programa la asignación de ciertos recursos depende del número de estudiantes que alcanza un nivel pre-determinado de suficiencia académica. El estudio encuentra que los resultados educativos mejoran, pero que lo que sucede es que los docentes concentran sus esfuerzos en los estudiantes que están inicialmente justo por debajo de dicho nivel, y de hecho los estudiantes que inicialmente tienen el peor rendimiento no se ven beneficiados por el programa y en algunos casos se ven perjudicados. Algo similar sucede con los estudiantes que están en buenas condiciones inicialmente, quienes tienen mejoras académicas por debajo de lo esperado. O sea, si la idea es lograr que la mayor cantidad de estudiantes posible obtenga al menos un 6, tiene mayor rendimiento lograr que algunos pasen de 4 a 6 que otros pasen de 1 a 3 o de 6 a 8.

Un caso de diseño astuto se ve recogido en un trabajo de Ahn y Vigdor (2011) que estudia el impacto de un programa de incentivos para Carolina del Norte (EEUU). En este programa, los docentes obtienen paga adicional en función de si la mejora promedio de los estudiantes de todo el centro educativo se encuentra por encima de un umbral definido por las autoridades. El diseño del programa parte del siguiente temor: si la prima dependiera del desempeño de los alumnos de cada docente, los docentes “malos” o con estudiantes que no pueden mejorar no tendrían incentivo para esforzarse, y los docentes “buenos” que saben con seguridad que cumplirán con el objetivo, tampoco. Al hacer depender la prima del desempeño de todos los estudiantes, los docentes siempre tienen algún incentivo a esforzarse: los docentes “malos” saben que aún con lograr una pequeña mejora en sus estudiantes están contribuyendo al logro del objetivo, y los docentes “buenos” saben que cumplir el objetivo con creces ayuda porque compensa cualquier potencial carencia de los demás docentes. Alentadoramente, los autores encuentran que este programa disminuye el ausentismo docente.

Ahora bien, el diseño puede también responder a otras consideraciones y no solamente a desempeño académico de los estudiantes. Rockoff y Turner (2010) evalúan los resultados de un programa aplicado en Nueva York (EEUU). Como parte del programa cada centro de estudios es evaluado en función del desempeño de los estudiantes (en nivel y en cambios) pero también de la asistencia y de encuestas de opinión a padres y docentes. En función de todo esto cada centro recibe una calificación (de A a F); centros con A o B pueden aplicar a fondos adicionales, centros con D a F reciben medidas “correctivas” (cambios en la dirección, permiso a los padres para transferir a los estudiantes a otros centros, entre otros). La cronología de las evaluaciones y la asignación de notas a los centros permite ver su impacto de corto plazo: los autores encuentran que los centros que reciben una D o F experimentan mejoras en desempeño estudiantil y evaluación de los padres en los siguientes cuatro a seis meses, que responden a mayor esfuerzo de docentes y directores.

Por último, puede argumentarse que la gracia de medir no necesariamente estriba en que habilita dar mayores recursos por mejor desempeño, sino de hecho poder penalizar a los malos docentes (palo en vez de zanahoria). Chetty, Friedman y Rockoff (2011) argumentan que puede resultar más efectivo despedir a los peores docentes y reemplazarlos por nuevos docentes de calidad desconocida. La idea es que resulta más costoso pagar bonos por rendimiento a los mejores docentes que despedir a los peores docentes y contratar otros dado que es altamente improbable los nuevos docentes sean peores que los anteriores.

Concluyendo

En este post presenté algunos estudios que complejizan la temática de los incentivos en la educación. Como punto central, destaco que a la hora de hablar de incentivos es muy importante definir qué se mide, cómo se mide, cómo se definen los incentivos, cuales es la población sobre la que se quiere actuar y cuáles son los resultados deseados, entre otros. Por ejemplo, los incentivos pueden ser mayor pago individual o mayores recursos a los centros de estudio, otorgables sobre desempeño absoluto o mejoras en desempeño a nivel de clase o de centro de estudio. Puede que alcance ordenar centros de estudio sin ligar recursos al ranking. Quizás haya que discutir qué hacer con los peores docentes. Es muy importante tener en cuenta que un mejor resultado global puede esconder diferencias de desempeño al interior de cada grupo. Habría que discutir muy seriamente cuáles son los estudiantes sobre los que se quiere incidir. También, para el caso uruguayo puede ser importante reducir la deserción y el ausentismo (docente y estudiantil) antes de preocuparse por las notas.

Por último, si bien entiendo como positivo que se empiece a pensar en vincular recursos y resultados, esto no es la panacea que resuelve todos los problemas (sin ir muy lejos, aquí en Razones y Personas ya se ha dicho mucho sobre la problemática de la educación). Algunos de estos problemas pueden estar vinculados a otros aspectos del diseño institucional (como ser los mecanismos de asignación de horas en secundaria) o a la gestión.2 En particular, del post podría desprenderse la idea de que el problema en la educación uruguaya es que los docentes no se esfuerzan. No es lo que quiero comunicar. Probablemente unos lo hagan, y mucho, otros en menor medida, y otros no. Además, los directores juegan, los padres juegan, el contexto juega. No se trata de argumentar que las potenciales complicaciones y problemáticas son de tal magnitud que es mejor no introducir incentivos. La idea central es que más que discutir si “incentivos si o si incentivos no”, de lo que se trata es de discutir qué incentivos para lograr qué resultados, prestando especial atención a cómo controlar potenciales problemas asociados.  potencia



Notas: a) este post está basado en un curso dictado por Esteban Aucejo en la London School of Economics, sobre Value Added Models; b) foto por Matías Brum. 

1. Por ejemplo el Frente Liber Seregni hablando específicamente de la educación; Pedro Bordaberry y Luis Lacalle Pou hablando más en general a nivel del Estado
2. Ver por ejemplo la nota de Rosario Queirolo sobre la eterna demora del inicio de cursos o un trabajo mas profundo suyo (junto con Pablo da Silveira) que enfatiza cómo los aspectos organizativos de la educación pública terminan trabando su buen desempeño. 


Referencias:

T. Ahn, J.L. Vigdor. (2011). Making Teacher Incentives Work: Lessons from North Carolina's Teacher Bonus Program. Education Outlook,American Enterprise Institute for Public Policy Research. Link aqui.

Chetty, R., Friedman, J. N., & Rockoff, J. E. (2011). The long-term impacts of teachers: Teacher value-added and student outcomes in adulthood (No. w17699). National Bureau of Economic Research. Link aqui.

Harris, D. N. (2009). Would accountability based on teacher value added be smart policy? An examination of the statistical properties and policy alternatives.Education, 4(4), 319-350. Link aqui.

Koretz, D. M. (2002). Limitations in the use of achievement tests as measures of educators' productivity. Journal of human resources, 752-777. Link aqui.

Neal, D., & Schanzenbach, D. W. (2010). Left behind by design: Proficiency counts and test-based accountability. The Review of Economics and Statistics, 92(2), 263-283. Link aqui.

Rockoff, J., & Turner, L. J. (2010). Short-Run Impacts of Accountability on School Quality. American Economic Journal: Economic Policy, 2(4), 119-47. Link aqui.

Rothstein, J. (2009). Student sorting and bias in value-added estimation: Selection on observables and unobservables. Education, 4(4), 537-571. Link aqui.

Stecher, B. M., & Barron, S. I. (1999). Quadrennial milepost accountability testing in Kentucky. National Center for Research on Evaluation, Standards, and Student Testing (CRESST), Center for the Study of Evaluation (CSE), Graduate School of Education & Information Studies, University of California, Los Angeles. Link aqui.

Jared Diamond: te odio y te amo

Por Nicolás M. Somma Hace más de una década, Felipe Monestier y Cecilia Rossel me regalaron para mi cumpleaños el libro Armas, gérmenes y ...