ANALISIS DEL PROCESO DE EVALUACIÓN EN LOS CICLOS FORMATIVOS: PRIMER PASO EN LA MEJORA DE LA CALIDAD.

Rafael Fuster Martín

Todavía son muchos los profesores que en la práctica entienden a los alumnos como el principal y casi único objeto de la evaluación; para algunos profesores la evaluación se percibe exclusivamente como una actividad consistente en examinar y valorar el rendimiento del alumno y en valorar el grado de aprendizaje de la materia impartida a través de unas calificaciones, sin tener en cuenta otros elementos o dimensiones de los procesos educativos; otros sin embargo la entienden como un instrumento de autoridad y un mecanismo para ejercer el control sobre el alumnado y no como un instrumento de la mejora de las capacidades del alumno.

Según la metodología constructivista, el principal responsable del aprendizaje es el alumno. El profesor, a través de su actuación debe facilitar y potenciar este aprendizaje. Por lo tanto, en el proceso de enseñanza aprendizaje somos dos los implicados: los profesores y los alumnos. Difícilmente estos últimos podrán aprender si no somos capaces de facilitar y promocionar su aprendizaje.

Aunque a veces a los profesores nos cuesta admitirlo, el primer paso para mejorar todo este sistema de enseñanza aprendizaje consiste en mejorar la evaluación y calificación que hacemos de nuestros alumnos, ya que suele ser el elemento más motivador para ellos, nos guste admitirlo o no.

El primer paso para mejorar el sistema de evaluación y calificación consiste en hacer una autovaloración y un análisis de nuestro propio sistema de evaluación, hecho que tampoco se admite por muchos profesores. El primer motivo para que esto sea así es la falta de una cultura de la autoevaluación y el admitir un hecho como evidente: que el profesorado evalúa bien. Otro motivo de esta reticencia a la autoevaluación es el miedo a lo desconocido y el miedo a tener que admitir que el sistema que se ha utilizado no ha sido correcto. Sin embargo, un hecho que todos los profesores que trabajos en los centros conocemos, es que todos aquellos que han evaluado, además de a los alumnos, a su propio sistema de evaluación, han modificado y mejorado su práctica docente. Sin embargo, estos procesos han carecido de sistematización y rigor y se han llevado a cabo de forma particular y no generalizada en la mayor parte de los casos.

1.OBJETIVOS DEL ESTUDIO.

El presente estudio tiene los siguientes objetivos:

1º.- Conocer y describir una serie de indicadores que midan la calidad y las distintas características (fiabilidad, capacidad de discriminación, grado de dificultad) de las pruebas de evaluación realizadas para calificar a los alumnos en las evaluaciones.

2º.- Conocer las pautas a seguir para realizar una valoración correcta de los resultados obtenidos por los alumnos a lo largo de la evaluación para que sirvan como base para la toma de decisiones conducentes a mejorar el rendimiento del alumnado.

3º.- Establecer las pautas para realizar de una forma sistemática y rigurosa la valoración del proceso de evaluación a nivel de un centro educativo, como primer paso para mejorar la calidad de la enseñanza en el mismo.

2.METODOLOGÍA DEL ESTUDIO.

Se han analizado las notas de la primera evaluación de 15 grupos de Ciclos Formativos (CF), 7 correspondientes a CF de grado medio y 8 a CF de grado superior.

Las notas eran facilitadas por el programa de Gestión de Centros de la comunidad Valenciana en forma agrupada por intervalos con un intervalo de 1 punto.

El primer paso del estudio consistió en calcular la media, desviación típica y varianza para este tipo de notas agrupadas por intervalos, siguiendo el procedimiento estadístico recomendado para este tipo de distribuciones. Simultáneamente, y por otro lado, se seleccionaron 8 exámenes de tipo test con preguntas de elección múltiple que habían sido realizados en años anteriores. En estos test se cálculo su Coeficiente de Fiabilidad (CF), su Indice de Discriminación (ID) y su Indice de Dificultad (IDf) siguiendo las fórmulas que se han utilizado por el Ministerio de Sanidad y Consumo para el análisis de la validez estructural de los exámenes MIR.

En una segunda fase, una vez calculada la nota sobre 10 de los exámenes de tipo test que estabamos analizando, las notas se agruparon en 10 intervalos de 1 punto de amplitud, para que quedaran de forma similar a como son facilitadas por el programa de Gestión de Centros de la Generalitat Valençiana. A continuación se adaptaron las formulas que eran utilizadas para valorar los exámenes test por datos que podíamos obtener cuando los datos a analizar se nos presentaban en forma agrupada. Una vez hecha esta transformación se calculó nuevamente la validez estructural de los exámenes test pero utilizando las nuevas fórmulas adaptadas y se comparaba con los resultados de las fórmulas originales. Inicialmente los resultados del análisis variaban de ser utilizadas unas fórmulas u otras. Posteriormente se comprobó de forma empírica que cuando a las fórmulas que habíamos transformado les hacíamos pequeñas modificaciones y las calculábamos utilizando algunos factores de conversión, los resultados eran muy similares y prácticamente equiparables.

En una tercera fase, basándose en los tres índices anteriores (CF, ID, IDf) se diseñaron nuevos índices que sirvieran para definir mejor la calidad del proceso de evaluación; estos nuevos índices son: Indice de Calidad, Indice de Rendimiento, Valor Predictivo Positivo, Valor Predictivo Negativo, nº de verdaderos aprobados, nº de falsos aprobados, nº de falsos suspendidos, nº de verdaderos suspendidos, Indice de Homogeneidad, Indice de Diversidad, nº de protestas posibles y aceptables a las notas emitidas.

A continuación, en base a todos estos índices se hizo una división de los alumnos en cuatro grupos que se llamaron: Superfuertes, Fuertes, Inestables y Débiles.

Todos los cálculos eran realizados por una aplicación informática diseñada al efecto en el programa ACCESS 97.

Con esta aplicación se analizaron los resultados de la primera evaluación de los 89 módulos de ciclos formativos que se imparten actualmente en el I.E.S. La Costera de Xàtiva.

Los resultados del análisis eran informados a cada uno de los profesores mediante un informe personalizado generado por la propia aplicación y que fue diseñado a tal efecto.

Para el análisis a nivel general, se hicieron las siguientes distribuciones:

1.- Análisis de los resultados de la 1ª, 2ª y 3ª evaluación de los módulos del Ciclo de Cuidados Auxiliares de Enfermería del curso 97-98.

Con estas distribuciones se analizaron los datos de los 89 módulos.

3.RESULTADOS Y CONCLUSIONES.

El primer indicador al que se suele recurrir para valorar si un determinado grupo de alumnos ha obtenido un mejor o peor resultado que en otras evaluaciones es a la nota media del grupo. Normalmente se suele admitir que cuanto más alta mejor resultado se ha obtenido y cuanto más baja peor. Sin embargo, hay que tener en cuenta que unas pruebas de evaluación demasiado fáciles, hacen que la media ascienda y esto no siempre indica un mejor resultado, ya que los alumnos, sabiendo lo mismo, han sacado mejores notas, lo que hace ascender la media. Por lo tanto valorar la media del grupo de forma aislada puede llevarnos a una mala interpretación de los resultados. Del resultado del estudio vemos que la media del grupo suele encontrarse en el intervalo entre 5 y 6. Si es superior debemos plantearnos dos posibilidades: que realmente el curso sea muy bueno y obtenga unas calificaciones muy altas o bien que hemos realizado unas pruebas de evaluación demasiado fáciles. Por el contrario cuando la media desciende, puede indicar que el grupo es bastante malo o que hemos realizado unas pruebas de evaluación demasiado difíciles. Las pruebas demasiado fáciles tienen el inconveniente que se sobrevalora a los alumnos con menor capacidad e infravalora relativamente a los mejores. Por el contrario pruebas demasiado difíciles permiten aprobar únicamente los alumnos más capaces e impide que alumnos con menor capacidad puedan aprobar, aunque tengan los conocimientos y las habilidades suficientes para desempeñar la profesión para la que estudian. Hay que tener en cuenta que una excesiva dificultad puede ser debida a que lo que se haya explicado no se adapte al desarrollo congnoscitivo del alumno o porque no hayamos sido capaces de hacernos entender, aspectos que tenemos que tener en cuenta a la hora de hacer nuestra propia autoevaluación como profesores. Por lo tanto, parece lógico proponer que la media de las pruebas de evaluación realizadas se encuentre dentro del intervalo de 5 a 6, como ya hemos referido anteriormente y que cuando se produzca alguna desviación reflexionemos sobre cuál ha sido la causa.

La desviación típica es otro indicador que se suele utilizar. Normalmente es referido por la persona encargada de analizar los resultados del curso. Es fácilmente calculable ya que la mayoría de los programas informáticos actuales la calculan automáticamente; sin embargo la mayoría de las veces no se suele analizar ni valorar adecuadamente. Sin embargo de su análisis profundo se pueden sacar conclusiones muy interesantes. El primer paso para su valoración consiste en fijar cuál es el valor normal. Una regla estadística normalmente aceptada es que el 68,3 % de la población estudiada debe quedar entre la media +/- una desviación típica y el 95,4 % entre la media +/- dos desviaciones típicas. Si suponemos una distribución con una media exacta de 5 el valor que debería tener una desviación típica es de 1,25. Por lo tanto, valores superiores indicarían una excesiva dispersión de los datos alrededor de la media y valores inferiores indicarían que los datos se han concentrado excesivamente. Cuanto más dispersos son los datos, mayor es esta desviación típica. Para facilitar su análisis parece más operativo calcular el Indice S/M que la desviación típica. Este índice consiste en dividir el valor de la desviación típica por el valor de la media y expresarlo en %. De este modo tenemos el % de la media que representa la desviación típica. Suponiendo que la media tiene un valor de 5 y la desviación típica de 1,25 el valor de este índice es del 25 %. Por lo tanto, un índice S/M entre el 25 y el 30 % podría considerarse como el normal e indicaría que la dispersión de las notas alrededor de la media ha sido la correcta. Cuando es mayor del 30 % indicaría que existe una diferencia excesiva entre los alumnos de un mismo curso. Estas diferencias podrían deberse a que realmente existe esta gran diversidad de niveles de aprendizaje o a que se ha utilizado una prueba de evaluación demasiado difícil lo que ha dado ventaja a los alumnos con mayor capacidad y ha perjudicado a los alumnos más débiles. Cuando el índice S/M es demasiado bajo indica que la homogeneidad del grupo de alumnos es muy alta o que se han utilizado pruebas de evaluación demasiado fáciles lo que ha permitido que alumnos más débiles saquen mejores notas de las que deberían haber sacado y ha impedido que los alumnos más fuertes tengan mejores notas.

Pero para hacer una correcta valoración de los resultados debemos estudiar además de los parámetros anteriormente comentados, aquellos que nos permitan realizar una análisis de la validez estructural de las pruebas de evaluación realizadas. Para medirla se han estudiado tres parámetros estadísticos: el coeficiente de Fiabilidad , el Indice de Discriminación y el Indice de Dificultad.

El coeficiente de fiabilidad nos indica el grado de consistencia de las notas que hemos puesto a los alumnos, de manera que si obtenemos una coeficiente de fiabilidad del 90 % indica que existen un 90 % de probabilidades de que el alumnos se merezca esa nota y no otra. Por ejemplo, si tenemos un alumno que ha sacado un 7 en un examen que tiene un coeficiente de fiabilidad del 90 % nos indicará que existen un 90 % de probabilidades de que el alumno se merezca ese 7 no un 6 o un 8. Lógicamente lo ideal sería que utilizásemos pruebas con un coeficiente de fiabilidad del 100 % pero es lógico admitir que esto es prácticamente imposible en un proceso tan complicado y en el que se implican tantas variables como es el proceso de la evaluación. En función de los resultados obtenidos parece lógico admitir que el coeficiente de fiabilidad podría considerarse como correcto cuando sea superior al 85 %, como aceptable cuando se encuentra entre el 75 % y el 85 % y como malo cuando sea inferior al 75 %. Cuando la fiabilidad es superior al 83,84 %, aumentamos la probabilidad de que los alumnos que están suspendidos lo estén realmente ya que por encima de este valor aumenta el VP- de la prueba. Es decir, podemos asegurar con mayor rotundidad que los alumnos que han suspendido deben estarlo realmente. Cuando la fiabilidad desciende por debajo del 83,84 %, disminuye este VP-, pero sin embargo aumenta el VP+, es decir, la probabilidad de que un alumno que está aprobado lo esté realmente. De este modo se disminuye el número de alumnos que debiendo estar suspendidos aparece la nota como aprobada. Todos sabemos que cuando esto sucede el alumno no suele reclamar para que le bajemos la nota, como es bastante lógico; sin embargo los alumnos que si suelen protestar son aquellos que creyéndose aprobados suspenden. Por lo tanto podemos prever el número de reclamaciones que va ha tener cada profesor. La fórmula que se ha utilizado para el cálculo de este número de variables es la siguiente:

El Indice de Discriminación mide la capacidad que han tenido las pruebas de evaluación para diferenciar y clasificar a los alumnos de un determinado grupo en función de la calificación. Se considera que es excelente cuando es mayor o igual a 35; bueno si está comprendido entre 0,34 y 0,25; dudoso si está comprendido entre 0,24 a 0,15 y malo si es menor de 0,14. Un Indice muy alto no indica que existan grandes diferencias de aprendizaje entre los alumnos, hecho que ya venía indicado por la desviación típica, sino simplemente que se ha clasificado bien a los alumnos en función de la nota. Indices de Discriminación muy bajos pueden indicar o que las pruebas de evaluación no han servido para clasificar y ordenar a los alumnos o que se trata de un grupo de alumnos muy homogéneo. Estas afirmaciones se constatan cuando analizamos los resultados de los ciclos de grado superior y los comparamos con los que obtenemos en los ciclos de grado medio.

El Indice de Dificultad (1) indica el % de alumnos que no debería haber tenido ningún problema para aprobar el examen. Se considera optimo que se encuentre entre el 50 - 60 %. Es decir, un examen con una grado de dificultad adecuado debe permitir aprobar sin problemas al 50 - 60 % de los alumnos. No obstante, se considera aceptable cuando se encuentra entre el 30 y 80 % y se considera demasiado fácil cuando es mayor del 80 % y demasiado difícil cuando es inferior al 30 %. Exámenes demasiado difíciles dan ventaja a los alumnos más fuertes, de manera que algunos alumnos de los que suspenden hubieran podido aprobar de haber tenido el examen una dificultad correcta. Esto como es lógico provocará que la desviación típica sea demasiado elevada indicando una gran diversidad dentro del aula y provocará también un índice S/M > 25 %. Como puede verse en el módulo de PSF del ciclo 1CI1G una dificultad del 40 % del examen se acompaña de un Indice S/M del 59,72 %. Sin embargo, en el mismo ciclo, en el módulo de CGT unas pruebas de evaluación con un grado de dificultad del 53 % ha producido un Indice S/M del 88,28 % lo que si sería indicativo un una gran diversidad de niveles de aprendizaje entre los alumnos. Por lo tanto al aumentar la dificultad de las pruebas de evaluación lo que hacemos también es aumentar la diversidad de niveles de aprendizaje entre los alumnos, creando a veces unas diferencias insalvables para algunos de ellos.

Para tener una idea más exacta del número de alumnos que tiene un aprendizaje homogéneo y los que presentan un nivel diferente se han creado dos índices más: el Indice de Homogeneidad y el Indice de Diversidad. El primero indica el número de alumnos que presenta un aprendizaje homogéneo y entre cuyos alumnos no existen diferencias de aprendizaje. El segundo indica el número de alumnos que presenta un nivel de aprendizaje diferente al anterior, incluyéndose en este tanto los que presentan un nivel de aprendizaje mayor o menor al grupo homogéneo. Se considera idóneo un Indice de Homogeneidad del 30-35 % y un Indice de Diversidad del 60-70 %. Cuando examinamos los datos vemos que es con estos Indices como se consigue un mejor rendimiento de los alumnos. Es decir, conseguimos que en conjunto aprendan todos más. Si aumenta el Indice de Diversidad y diminuye el Indice de Homogeneidad, disminuye también el rendimiento que sacamos en general del grupo hecho que por otra parte era lógico prever. Este Indice de Diversidad guarda una relación directa con la dificultad de las pruebas de evaluación, de manera que aumenta cuando aumenta esta dificultad. Por lo tanto, si la dificultad de las pruebas es excesiva, conseguimos que un pequeño grupo de alumnos sepa más pero también hay mayor número de alumnos que no llegan a ese nivel.

Cuando hacemos una valoración de cómo ha ido la evaluación se tiende por lo general a echar siempre la culpa de los malos resultados a los alumnos. Por el contrario, cuando aprueban el 100 % siempre pensamos que ha sido porque nosotros como profesores lo hemos hecho muy bien. Esto no siempre es así. De los índices que hemos descrito, tenemos uno (el Indice de Calidad) que mide la bondad del profesor y uno que mide la bondad de los alumnos (el Indice de Rendimiento). Por la misma fórmula que se ha utilizado para su calculo, el Indice de Rendimiento nunca puede ser mayor que el de Calidad. Como máximo puede ser igual. Por lo tanto la valoración del Indice de Rendimiento siempre debe hacerse conjuntamente con el de Calidad. Indices muy bajos de Calidad siempre llevarán acompañados Indices muy bajos de Rendimiento, aunque Indices muy altos de Calidad no lleven siempre acompañados índices muy altos de Rendimiento. Si se analiza detenidamente este aspecto se ve que entra en contradicción con uno de los principios del Constructivismo que afirma que el responsable último del aprendizaje es siempre el alumno. Esto es verdad, pero habría que matizarlo diciendo que es así, pero siempre que se cumplan unos niveles de calidad mínimos por parte del profesorado. El Indice de Calidad lo que mide en realidad es la capacidad que nosotros, como profesores, hemos tenido para adecuar la cantidad y calidad de los contenidos impartidos al nivel de desarrollo cognoscitivo del alumno, principio básico de la metodología constructivista. Del análisis de estos índices se deduce también otro aspecto muy importante de la enseñanza y que también es uno de los principios constructivistas: el motor del proceso aprendizaje debe ser siempre el profesor. De manera que si el nivel del calidad del profesor no es suficiente, el rendimiento que den esos alumnos nunca será alto. Cuanto mayor sea la diferencia entre el Indice de Calidad y el Indice del Rendimiento hará recaer las culpas de los malos resultados sobre los alumnos. Cuanto más se acerquen estos Indices hará que el responsable del éxito o del fracaso sea el profesor.

Un Indice de calidad se considera malo cuando es menor de 25; aceptable cuando se encuentra entre 26 y 64; bueno si está entre 65 y 126 y excelente cuando es mayor de 126.

Un Indice de rendimiento se considera malo cuando es menor de 52, bueno si está comprendido entre 52 y 100; muy bueno si es mayor de 100 y excelente cuando es mayor de 114. Cuando el rendimiento es bueno o excelente indica que en la próxima evaluación difícilmente se conseguirán mejorar los resultados.

Los que hemos visto hasta ahora eran índices que en mayor o menor medida intentan valorar la calidad del sistema enseñanza aprendizaje. Nos queda por estudiar si hay algunos índices que miden exclusivamente los resultados. Lo que se deduce de todo lo que hemos visto hasta ahora es la el sacar una conclusión a partir de los resultados de un solo indicador es peligroso poque puede no dar una idea real de la situación. En el estudio se han utilizado cuatro indicadores de resultados: el índice A/S que nos indica el número de aprobados que hay por cada suspenso; el % de suspensos; % de suficientes-notables; y el % de sobresalientes. El índice A/S se utiliza fundamentalmente como medida de comparación con otras evaluaciones y otros módulos. En cuanto a la valoración que se tiene que hacer de los otros tres índices se basa en la regla del 20-60-20, según la cual el 20 % de los alumnos de una clase ha estudiado para sacar sobresaliente, el 60 % siguiente saca notas entre aprobado y notable, y el otro 20 % suspende. Cuando suspenden más de un 20 % se pueden considerar que los resultados son malos. Cuando revisamos los datos del estudio vemos que aquellos profesores que presentaban un índice de calidad muy bueno, los alumnos cumplían esta proporción. Profesores los que se obtiene una número de aprobados muy alto, vemos que desciende la calidad. Por lo tanto hay que admitir que exista un número determinado de suspensos, ya que esto nos indica que la fiabilidad de los exámenes ha sido buena y se ha ajustado bien la dificultad del examen a los conocimientos que poseía el alumno. Hay que tener muy presente que aquí también se cumple uno de los principios del entrenamiento deportivo: si uno no nota ningún esfuerzo durante el entrenamiento no se produce una progresión en las condiciones de cada uno. Esto se comprueba cuando analizamos y comparamos los resultados de las tres evaluaciones realizadas en el año 97-98 en el módulo de PSA. A pesar que en la segunda evaluación hubieron mayor número de suspensos, globalmente los resultados fueron mejores ya que el índice de rendimiento había mejorado ostensiblemente con respecto a las otras evaluaciones.

Pero hay otro aspecto interesante de la evaluación que debemos formularnos: ¿es posible prever que evolución tendrá cada alumno en la próxima evaluación?. Como ya se ha comentado anteriormente el proceso de la evaluación es muy complicado ya que en él influyen muchas variables, tanto de tipo personal, familiar, social, afectivo, etc. Sin embargo si ordenamos a los alumnos de mayor a menor nota, luego lo dividimos en cuatro grupos (Superfuertes, fuertes, inestables y débiles) y a continuación analizamos la evolución de cada alumno a lo largo de las tres evaluaciones vemos un hecho interesante: los alumnos cuando cambian de nivel de una evaluación a otra lo hacen habitualmente ascendiendo o descendiendo un solo nivel. Esto tiene mucha importancia de cada a prevenir los suspensos en la evaluación siguiente, ya que sabemos que los mayores candidatos a suspender en la evaluación actual son los que en la evaluación anterior han estado en el grupo de los inestables y de los débiles. Sin embargo vemos que aquellos que se incluyeron en el grupo de los superfuertes difícilmente suspendían.

Para poder realizar de una forma sistemática y rigurosa la valoración del proceso de evaluación a nivel del centro como primer paso para mejorar la calidad de la enseñanza del mismo, hace falto algo más:

1º.- Hace falta que todos los profesores que imparten clases en los Ciclos Formativos comprendan todos los índices y criterios propuestos para la valoración.

2º.- Los profesores a los que se evalúa su sistema de calificación deben comprender que estos criterios están relacionados con los objetivos fundamentales de la Formación Profesional, es decir, con la instrucción de personal técnico altamente cualificado para afrontar los retos profesionales de su titulación, en ocasiones de nueva creación.

3º.- Los profesores deben percibir que este sistema de control de calidad tiene únicamente la finalidad de detectar los posibles problemas y de mejorar la actividad docente y en ningún momento una intención fiscalizadora.

Por lo tanto el marco necesario para realizar con éxito esta evaluación de la evaluación, consiste en la creación de un clima de confianza y comunicación abierta que permita asumir los puntos antes expuestos. Pero además de esto hace falta un sistema que permita ser operativos y rápidos en el análisis de los datos, ya que de no entregarse los resultados en los días siguientes a la evaluación se pierde parte de la eficacia del sistema. Para poder cumplir estos objetivos se ha diseñado una aplicación en ACCESS 97 que realiza de forma automática todos los cálculos y genera los informes que son entregados a cada profesor.

4.BIBLIOGRAFÍA.

1.- Ministerio de Sanidad y Consumo. Pruebas selectivas para el acceso a plazas de formación de médicos especialistas (1982-1992).

2.- Redondo Alvaro F.L. Análisis del proceso diagnóstico. Medicine 6 (9), 51-61.

3.- Tipos de estudio en investigación clínica. Medine 7 (104):4852-4857.

4.- Tiana Ferrer A. et al. Indicadores educativos. Cuadernos de pedagógía 256:49-77.