¿pisteando como un campeón? |
Una de las ideas instaladas en el
discurso público plantea que los resultados recientes en materia educativa
están divorciados del gran incremento de recursos asignados al área en los dos
últimos períodos de gobierno. A la luz de estas ideas una alternativa sería la
de condicionar o vincular de alguna forma los recursos a los resultados (como
por ejemplo plantean algunos actores políticos),1 de
forma tal que los recursos operen como incentivos para mejores resultados. En
este post (que
continua una línea ya abierta por Gioia de Melo sobre diseño
institucional) presento algunos estudios a partir de los cuales argumento que
más que discutir si incentivos sí o no, es más importante pensar qué medir,
cómo medirlo y cómo fijar los incentivos, ya que de esto depende la suerte de
los estudiantes con distintos puntos de partida en cuanto a capacidad de
aprendizaje o contexto socioeconómico, entre otros.
Midiendo
Para poder atar recursos a
resultados es necesario medir la “calidad del docente”. Esto, por ejemplo,
radica en ver el impacto del docente en los estudiantes: si éstos fueran
asignados en forma aleatoria a los docentes podríamos comparar el resultado
académico promedio de cada grupo de cada docente y, con algo de fe, concluir
que el resultado es (al menos en parte) responsabilidad del docente. Luego
compararíamos resultados entre docentes y listo. Ahora bien, es un hecho
conocido que en el caso de Uruguay las características de los estudiantes (y de
los centros de estudio) varían bastante de un barrio o ciudad a otro; en este
caso un docente puede tener un grupo con escolaridad promedio mayor que otro
grupo de otro docente, simplemente porque da clase en un liceo mejor o a un
grupo de buenos estudiantes. A raíz de este problema, en economía de la
educación se utilizan los llamados modelos
de valor añadido (added value models en inglés): la idea es medir el desempeño
estudiantil al inicio y fin de un período y asignar al docente responsabilidad
sobre el cambio en el desempeño. Por
ejemplo, si de marzo a diciembre el grupo del docente A pasa de 6 a 8, y el del
docente B pasa de 4 a 7, podríamos concluir que el docente B es responsable de
un incremento mayor, aun si su grupo termina el año con peores resultados que
el del docente A. Los modelos de valor añadido son la base de varios estudios
empíricos, resultan útiles para superar problemas de medición cuando los docentes
tienen grupos heterogéneos, y además son útiles para entender otros problemas
relacionados, como discuto a continuación.
Una crítica empírica a estos modelos
es que aun dentro de un centro de estudio la asignación docente-alumnos puede
responder a algún criterio particular, invalidando la idea de que la mejora es
(al menos en parte) responsabilidad docente. Rothstein (2009) postula que los
directores de los centros educativos tienen cierta información sobre el
“potencial” de los alumnos y su asignación a distintos docentes puede responder
a criterios académicos o de afinidad personal, por ejemplo. Un director que
observa los resultados de exámenes a inicio y fin de segundo año de liceo puede
hacerse una idea de qué alumnos tienen mayor y menor “capacidad de mejora” y
luego intentar asignar dichos alumnos en tercero según que docente le caiga
mejor. En este caso, una estimación de la calidad docente basada en la “mejora”
de los estudiantes estaría sesgada. Rothstein plantea esto porque su estudio
desarrolla una metodología novedosa mediante la cual, justamente, encuentra
evidencia que muestra que una parte (pequeña) de la calidad docente es en
realidad error de medida debido a la forma en que son armados los grupos por
parte de las autoridades.
Existen otros problemas asociados a
la idea de medir “mejoras”. Harris (2009) tiene un estudio bastante extenso que
se detiene en distintas problemáticas y analiza distintas políticas concretas.
De este estudio quiero extraer dos comentarios. El primero plantea que medir el
impacto docente en función del cambio en el desempeño estudiantil implica
asumir que dicho cambio es parejo a lo largo de la escala. Vale decir, un
docente que contribuye a que un alumno pase de 1 a 5 tendría el mismo valor que
otro que contribuye a una mejora de 5 a 9. Si estamos particularmente
preocupados por lo que sucede con los alumnos en las peores condiciones
iniciales estos mecanismos de medida no son los más adecuados. El segundo
plantea que así como los estudiantes son diferentes, los docentes también puede
serlo. Concretamente, el autor se pregunta qué pasa si algunos docentes son
mejores dando clase a estudiantes con peores niveles iniciales y otros son
mejores dando clase a estudiantes con mejores niveles iniciales. En este caso,
los cambios en los desempeños de los estudiantes pueden no reflejar
correctamente la “calidad” del docente, sino que pueden deberse a un problema
de asignación: un docente que es muy bueno lidiando con malos estudiantes no
tiene nada que hacer en una clase de nerds, y viceversa.
Incentivando
Hasta aquí no hice mención explícita
a incentivos. La idea implícita es que prometer recursos en función de
resultados estudiantiles debiera incentivar a los docentes a que “se esfuercen más”
o hagan algo para mejorar el desempeño de sus estudiantes. Ahora bien, este
“hagan algo” puede incluir comportamientos bastante desagradables. Por ejemplo,
Koretz (2002) lleva a cabo un extenso trabajo sobre las limitaciones de los
tests para medir conocimientos en el que presenta también evidencia empírica de
docentes “haciendo trampa”. Algunos docentes dan soluciones de antemano, o
alientan a los malos estudiantes a faltar el día del examen para levantar el
promedio del grupo. El fenómeno de mayor interés es el “enseñar para salvar” (teaching to the test): algunos docentes
enseñan específicamente para el formato de los tests y no necesariamente los
conceptos como tales. Esta práctica queda al descubierto cuando se cambia el
formato del examen: sumas y restas planteadas en horizontal o vertical, reglas
de tres con distinta presentación entre otros cambios de formato, conducen a
grandes cambios en los resultados de los exámenes. En la misma línea, Stecher y
Barron (1999) estudian el impacto de un programa de incentivos para Kentucky
(EEUU) y encuentran que los docentes no necesariamente responden esforzándose
más o cambiando la pedagogía educativa, sino reasignando la carga horaria entre
temas y materias. Así, a partir de los incentivos los docentes de cuarto de
escuela asignaron mucho más tiempo en el aula a enseñar Ciencias ya que
Ciencias se testea en cuarto, mientras que en quinto dedicaron mucho más tiempo
a Matemáticas, que se testea en quinto. La presentación de estas anécdotas ilustra
que el uso de incentivos puede fomentar prácticas no deseables, y la lección es
que su introducción debiera ir de la mano del uso de salvaguardas y controles.
Aun cuando la introducción de
incentivos lleve a mejoras en los resultados estudiantiles, es necesario ser
cautos. Un ejemplo se ve en Neal y Schanzenbach (2010), quienes estudian el
programa No Child Left Behind,
implementado en EEUU a partir de 2001 y reforzado por Obama en su
administración. El estudio ilustra cómo resulta muy importante la forma en que
se miden o definen los resultados cuando se asocian incentivos a su logro. Como
parte del programa la asignación de ciertos recursos depende del número de estudiantes que alcanza un
nivel pre-determinado de suficiencia académica. El estudio encuentra que los
resultados educativos mejoran, pero que lo que sucede es que los docentes concentran
sus esfuerzos en los estudiantes que están inicialmente justo por debajo de
dicho nivel, y de hecho los estudiantes que inicialmente tienen el peor
rendimiento no se ven beneficiados por el programa y en algunos casos se ven
perjudicados. Algo similar sucede con los estudiantes que están en buenas
condiciones inicialmente, quienes tienen mejoras académicas por debajo de lo
esperado. O sea, si la idea es lograr que la mayor cantidad de estudiantes posible
obtenga al menos un 6, tiene mayor rendimiento lograr que algunos pasen de 4 a
6 que otros pasen de 1 a 3 o de 6 a 8.
Un caso de diseño astuto se ve
recogido en un trabajo de Ahn y Vigdor (2011) que estudia el impacto de un
programa de incentivos para Carolina del Norte (EEUU). En este programa, los
docentes obtienen paga adicional en función de si la mejora promedio de los
estudiantes de todo el centro educativo
se encuentra por encima de un umbral definido por las autoridades. El diseño
del programa parte del siguiente temor: si la prima dependiera del desempeño de
los alumnos de cada docente, los
docentes “malos” o con estudiantes que no pueden mejorar no tendrían incentivo
para esforzarse, y los docentes “buenos” que saben con seguridad que cumplirán
con el objetivo, tampoco. Al hacer depender la prima del desempeño de todos los
estudiantes, los docentes siempre tienen algún incentivo a esforzarse: los
docentes “malos” saben que aún con lograr una pequeña mejora en sus estudiantes
están contribuyendo al logro del objetivo, y los docentes “buenos” saben que
cumplir el objetivo con creces ayuda porque compensa cualquier potencial
carencia de los demás docentes. Alentadoramente, los autores encuentran que este
programa disminuye el ausentismo docente.
Ahora bien, el diseño puede también
responder a otras consideraciones y no solamente a desempeño académico de los
estudiantes. Rockoff y Turner (2010) evalúan los resultados de un programa
aplicado en Nueva York (EEUU). Como parte del programa cada centro de estudios
es evaluado en función del desempeño de los estudiantes (en nivel y en cambios)
pero también de la asistencia y de encuestas de opinión a padres y docentes. En
función de todo esto cada centro recibe una calificación (de A a F); centros
con A o B pueden aplicar a fondos adicionales, centros con D a F reciben
medidas “correctivas” (cambios en la dirección, permiso a los padres para
transferir a los estudiantes a otros centros, entre otros). La cronología de
las evaluaciones y la asignación de notas a los centros permite ver su impacto
de corto plazo: los autores encuentran que los centros que reciben una D o F
experimentan mejoras en desempeño estudiantil y evaluación de los padres en los
siguientes cuatro a seis meses, que responden a mayor esfuerzo de docentes y
directores.
Por último, puede argumentarse que
la gracia de medir no necesariamente estriba en que habilita dar mayores
recursos por mejor desempeño, sino de hecho poder penalizar a los malos docentes
(palo en vez de zanahoria). Chetty, Friedman y Rockoff (2011) argumentan que
puede resultar más efectivo despedir a los peores docentes y reemplazarlos por
nuevos docentes de calidad desconocida. La idea es que resulta más costoso
pagar bonos por rendimiento a los mejores docentes que despedir a los peores
docentes y contratar otros dado que es altamente improbable los nuevos docentes
sean peores que los anteriores.
Concluyendo
En este post presenté algunos
estudios que complejizan la temática de los incentivos en la educación. Como
punto central, destaco que a la hora de hablar de incentivos es muy importante
definir qué se mide, cómo se mide, cómo se definen los incentivos, cuales es la
población sobre la que se quiere actuar y cuáles son los resultados deseados,
entre otros. Por ejemplo, los incentivos pueden ser mayor pago individual o
mayores recursos a los centros de estudio, otorgables sobre desempeño absoluto
o mejoras en desempeño a nivel de clase o de centro de estudio. Puede que
alcance ordenar centros de estudio sin ligar recursos al ranking. Quizás haya
que discutir qué hacer con los peores docentes. Es muy importante tener en
cuenta que un mejor resultado global puede esconder diferencias de desempeño al
interior de cada grupo. Habría que discutir muy seriamente cuáles son los
estudiantes sobre los que se quiere incidir. También, para el caso uruguayo
puede ser importante reducir la deserción y el ausentismo (docente y
estudiantil) antes de preocuparse por las notas.
Por último, si bien entiendo como
positivo que se empiece a pensar en vincular recursos y resultados, esto no es
la panacea que resuelve todos los problemas (sin ir muy lejos, aquí en Razones
y Personas ya se ha dicho mucho sobre la problemática de la educación). Algunos
de estos problemas pueden estar vinculados a otros aspectos del diseño
institucional (como ser los mecanismos de asignación de horas en secundaria) o
a la gestión.2 En particular, del post podría desprenderse la idea de que el problema en la
educación uruguaya es que los docentes no se esfuerzan. No es lo que quiero
comunicar. Probablemente unos lo hagan, y mucho, otros en menor medida, y otros
no. Además, los directores juegan, los padres juegan, el contexto juega. No se
trata de argumentar que las potenciales complicaciones y problemáticas son de
tal magnitud que es mejor no introducir incentivos. La idea central es que más
que discutir si “incentivos si o si incentivos no”, de lo que se trata es de
discutir qué incentivos para lograr qué resultados, prestando especial atención
a cómo controlar potenciales problemas asociados.
Notas: a) este post está basado en un curso dictado por Esteban Aucejo en la London School of Economics, sobre Value Added Models; b) foto por Matías Brum.
1. Por ejemplo el Frente Liber Seregni
hablando específicamente de la educación; Pedro Bordaberry y Luis Lacalle Pou
hablando más en general a nivel del Estado.
2. Ver por ejemplo la nota de
Rosario Queirolo sobre la eterna demora del inicio de cursos o un trabajo mas profundo
suyo (junto con Pablo da Silveira) que enfatiza cómo los aspectos organizativos
de la educación pública terminan trabando su buen desempeño.
Referencias:
T. Ahn, J.L. Vigdor. (2011). Making
Teacher Incentives Work: Lessons from North Carolina's Teacher Bonus Program.
Education Outlook,American Enterprise Institute for Public Policy Research. Link aqui.
Chetty, R., Friedman, J. N., & Rockoff, J.
E. (2011). The long-term
impacts of teachers: Teacher value-added and student outcomes in adulthood (No. w17699). National Bureau of
Economic Research. Link aqui.
Harris, D. N. (2009). Would accountability
based on teacher value added be smart policy? An examination of the statistical
properties and policy alternatives.Education, 4(4), 319-350. Link
aqui.
Koretz, D. M. (2002). Limitations in the use of
achievement tests as measures of educators' productivity. Journal of human resources,
752-777. Link
aqui.
Neal, D., & Schanzenbach, D. W. (2010).
Left behind by design: Proficiency counts and test-based accountability. The Review of Economics and
Statistics, 92(2),
263-283. Link
aqui.
Rockoff, J., & Turner, L. J. (2010). Short-Run
Impacts of Accountability on School Quality. American
Economic Journal: Economic Policy, 2(4),
119-47. Link
aqui.
Rothstein, J. (2009). Student sorting and bias
in value-added estimation: Selection on observables and unobservables. Education, 4(4), 537-571. Link
aqui.
Stecher, B. M., & Barron, S. I. (1999). Quadrennial milepost accountability
testing in Kentucky. National Center for Research on Evaluation, Standards,
and Student Testing (CRESST), Center for the Study of Evaluation (CSE),
Graduate School of Education & Information Studies, University of
California, Los Angeles. Link
aqui.