El Icfes no dice quién es mejor

En término de medición académica se recurre a las pruebas Saber 11, Saber Pro y las internacionales PISA.

Llevo años escuchando a los críticos de las evaluaciones estandarizadas: que uniformizan a los estudiantes, que no tienen en cuenta los diferentes contextos de educación, que los colegios privados pueden pagar una preparación específica para presentar los test que aumenta la brecha con lo privado… Pero también escucho, más que defensores, creyentes en el dogma religioso de la calidad probada con los puntajes: para los fieles de estas sectas pedagógicas las altas calificaciones significan sin más que los colegios y universidades son buenos; los bajos puntajes, que son malos.

Con motivo de los resultados recientemente revelados del Saber 11, Saber Pro y las internacionales PISA los diarios y los preicfes se arrojan a hacer sus famosos rankings y vemos cómo presentan juicios sobre los mejores y peores. Sin embargo, una cosa debería causarles extrañeza: el Icfes, la institución que realiza estas pruebas –incluidas la aplicación de las PISA– no ha publicado, no publica ni publicará ningún ranking. La razón es muy simple: para eso no sirve, como le dijo Melquiades a José Arcadio Buendía cuando intentó usar imanes para atraer el oro.

No sirve y no debería ser usado ni siquiera como prueba de selección para ingreso a la universidad, o al menos no como única fuente. ¿Por qué? Porque una prueba de este tipo es un diagnóstico que determina fortalezas y debilidades de los evaluados frente algunos, ni siquiera todos, los contenidos del currículo; pero estos rasgos deben ponderarse contrastando no a unas instituciones con otras, sino consigo mismas y en relación con muchos otros indicadores.

Hay cierto tipo de comparación entre instituciones, y pueden consultar los informes de valor agregado del Icfes para tener una idea de la complejidad técnica de tal comparación, que solo puede hacerse entre instituciones estadísticamente semejantes.

ALGUNAS PRECISIONES

Entender un poco el espíritu de las pruebas estandarizadas puede aclarar el asunto de su utilidad. Un examen de selección múltiple tipo Icfes es muy parecido a un examen médico; incluso algunos usan casi las mismas herramientas matemáticas para analizar los resultados, y las preguntas las llaman “reactivos”, como los químicos que toman un color cuando entran en contacto con ciertas sustancias y son usados en los test de laboratorio.

Las evaluaciones estudiantiles buscan medir las habilidades de toda la población para fijar un valor promedio de dichas habilidades y establecer qué tan cercano o lejano se encuentra alguien de ese promedio. Pero, salvo casos excepcionales, estar alejado no es necesariamente malo… ni bueno: puede estar dentro de lo normal. Y lo normal cobija prácticamente al 99% de la población. ¿Cómo así? Veamos. Supongamos que lo que medimos no es la habilidad académica sino la estatura. Para hacerlo, sacamos una cinta métrica. Lo primero que debemos garantizar es que tal cinta no se expanda o contraiga dependiendo de a quién estemos midiendo. Es decir, el instrumento de medición debe permanecer constante. Por ello pedir al Saber 11 que “se adapte a los estudiantes” es como pedir un metro elástico: un disparate, ya que no podríamos, de hecho, calcular las diferencias de altura.

Una regla de 50 cm no me sirve, porque hay gente muy alta, y una regla de 3 metros con marcas cada 2 metros es inútil, porque muy poca gente mide más de 2 metros de altura. Así, necesitamos un instrumento que mida tanto a bajitos y gigantes. Por eso a veces nos encontramos en las redes sociales quejas sobre preguntas extremadamente fáciles: necesitan medir a los menos altos intelectualmente.

Las preguntas difíciles no suelen aparecer en los memes: a veces ni los evaluados las identifican, pues no son tan listos como para apreciar lo difíciles que en realidad son.

Una vez medimos a toda la población, sacamos un promedio. En Colombia la media de estatura de las mujeres, por ejemplo, es de 1,60 metros. Las estaturas se distribuyen de manera normal, natural y mágicamente, alrededor del punto medio: hay aproximadamente un 34% de mujeres 12 cm por debajo de la media, y un 34% de mujeres 12 cm por encima. Hay 13% que son 24 cm más bajas y 13% que son 24 cm más altas.

Finalmente hay un 2% que son 36 cm más bajas, y otro 2% que son 36 cm más altas. Este alejamiento cada 12 cm se conoce como la desviación estándar: un valor que me dice qué tan lejos está alguien del promedio. ¿Qué tiene de malo ser alto o bajo? En sí mismo, nada. Esto sirve, sobre todo, para predecir: aproximadamente 68 de cada 100 lectoras de este artículo medirán entre 1.48 cm y 1.72 cm.

LA IMPORTANCIA DE SABER INTERPRETAR LOS PORCENTAJES

Estar por debajo o por encima de la media en las pruebas Saber es igual: en sí mismo no significa nada. Lo interesante de estos valores es que suelen estar correlacionados con otros valores importantes. Por ejemplo, estar a 24 cm por debajo de la media de estatura podría estar correlacionado con desnutrición en la adolescencia.

Estar muy por encima del promedio podría estar correlacionado con cáncer. Pero, reitero, la altura por sí misma no es un indicador de nada, y las correlaciones se establecen tras muchos estudios rigurosos. Los médicos tienen unas tablas para comprobar si la estatura de un niño va desarrollándose de acuerdo con lo esperado, y si no sucede se toman las medidas del caso.

Pues bien, en evaluación educativa la palabra “diagnóstico” no es solo un símil médico. Hay una cantidad de correlaciones importantes que los estadísticos pueden establecer a partir de los resultados.

Los altos promedios están correlacionados, casi que por inercia social, con un alto nivel socioeconómico (sin necesidad de pagar costosos “preicfes”); hay una diferencia estadísticamente significativa entre los puntajes promedio de niños y niñas en matemáticas que en Colombia se va haciendo más amplia a medida que envejecen, mientras que en países como Rusia tal brecha es inexistente; hay una correlación entre bajos puntajes en estas pruebas y la deserción académica en la universidad…

LAS INSTITUCIONES DEBEN AUTOEVALUARSE

Con los resultados las instituciones deberían preguntarse justo eso: ¿mi institución tiene puntajes por debajo del promedio en niños de nivel socioeconómico alto? ¿En mi institución niños de nivel socioeconómico bajo tienen puntajes por encima de la media? ¿Una mejora del promedio con respecto al año anterior está por encima de la desviación estándar, lo cual puede ser significativo, o está por debajo, lo cual es como permanecer en las mismas? Podemos hacer el razonamiento inverso: los bajos resultados de este año pueden implicar una crisis económica.

Los padres –y los rectores– en lugar de fijarse en si este colegio saca más que estos otros deberían fijarse en esos casos extremos y anómalos para establecer si la causa es el método de enseñanza, problemas familiares o de acoso escolar, podrían concentrarse en disminuir las brechas entre sus diferentes estudiantes (lo que se puede saber, entre otras cosas, con la desviación estándar), o en atajar unos bajos resultados que más adelante podrían significar el abandono del estudio.

Los exámenes no son ni deberían ser una condena, pues los problemas detectados a tiempo suelen solucionarse: las brechas cerrarse, la deserción académica prevenirse. Pero hay que saber cómo interpretar bien los resultados.

Solo un oncólogo sabe qué hacer ante un examen que muestra un tumor. Pero decir que quienes tienen tumores –o son ignorantes, vagos, indisciplinados– son “malos” o “peor que los sanos” y negarles “tratamiento” profesional, especializado y de calidad, es un despropósito.

En suma, las instituciones educativas son centros de salud a los cuales los jóvenes llegan desnutridos de conocimiento, las pruebas estandarizadas los diagnostican, y los profesores los tratan. Una institución educativa que expulsa o niega el acceso a quienes tienen un mal resultado y luego se vanagloria por eso es como un hospital que se precia de ser muy bueno porque no deja entrar a pacientes con diagnósticos preocupantes: realmente es más bien mala… casi perversa.

POR: ALFONSO CABANZO /ESPECIAL PARA EL PILÓN.

Así hurtaron en Valledupar a un centro de beneficencia: seis capturados »

« A siete meses de su entrega, la vía de $107.000 millones de Franco Ovalle y Monsalvo está dañada

Categories: Especial

Tags: Prueba Sber 11

Periodista: