Criterios de evaluación: bases y perspectivas

 

Andrés Sánchez Moguel

La evaluación del aprendizaje es una práctica de suma importancia en el ámbito educativo a la que, sin embargo, se le ha dado poco espacio en la reflexión de los estudiosos de este tema en nuestro país. El estado de conocimiento sobre la evaluación del aprendizaje en el II Congreso Nacional de Investigación Educativa (Martínez y cols., 1993) señala que son muy pocos los trabajos realizados sobre este aspecto de la evaluación educativa a lo largo de la década comprendida de 1982 a 1992 (se encontraron únicamente 81 estudios, tesis y artículos, en revisión exhaustiva). Ya García Cortés en 1979 señalaba el problema de la "realización paupérrima de estudios de evaluación educativa en nuestro medio". En el III Congreso Nacional de Investigación Educativa (1995) se sigue viendo la dispersión de la temática, ya que los trabajos presentados son en general técnicos y centrados en problemas relativamente aislados (Sánchez Moguel, 1997).

La falta de interés teórico por el tema y el consiguiente poco espacio dedicado a su análisis en las instituciones formadoras de maestros ha llevado a la generalización de prácticas evaluativas del logro escolar con las siguientes características:

a) Falta de reflexión sobre las razones por las cuales se evalúa, dando prioridad al cumplimiento administrativo sobre la utilidad real de la información.

b) Procedimientos e instrumentos de evaluación poco planeados y mal estructurados.

c) Escaso análisis de lo obtenido en las evaluaciones, priorizando los intereses crediticios ("aprobé o no", "quince alumnos reprobaron", etcétera) por sobre los logros académicos ("he aprendido al cien por ciento este contenido", "ya hay un conocimiento generalizado de esta materia o no", etcétera).

d) Una serie de factores que distorsionan la medición de lo que los estudiantes realmente saben, tales como ligar la conducta a la calificación, las altas posibilidades de fraude o las pruebas que privilegian lo memorístico sobre lo reflexivo.

Por todo lo anterior, es importante regresar siempre a las bases, a las razones por las cuales se hace la evaluación educativa. El objetivo del presente trabajo es analizar algunas cuestiones de fondo acerca de la teoría de la evaluación, en su relación específica con la evaluación del aprendizaje, con la intención de mostrar a los partidarios de las posturas extremistas que las prácticas evaluativas en el aula, en la escuela y en el sistema educativo no tienen por qué ser ciegas recetas que inventó un técnico, y que debe haber una reflexión seria sobre la manera de abordar la tarea de evaluación y de extraer el significado de cada dato obtenido.

La evaluación educativa es una estrategia de recolección de información sobre los diferentes momentos, actores y auxiliares del proceso enseñanza-aprendizaje. Si bien es indispensable que cada profesor haga evaluaciones particulares y a profundidad de estos elementos al interior de su espacio de trabajo, es también necesario contar con perspectivas más generales de la labor académica que sirvan de monitor a la totalidad de la comunidad de las escuelas. Por tanto, la evaluación masiva de estudiantes, la evaluación reflexiva entre los maestros y la evaluación institucional se presentan como prácticas útiles en el acopio de datos globales sobre la situación escolar. Múltiples circunstancias han hecho que en algunas ocasiones la evaluación general se lleve a cabo con una perspectiva de conteo y control que recaba datos con instrumentos que no han sido depurados, asigna calificativos por simple tradición numérica,1 y genera listados llenos de cifras a los que no se da un uso en el perfeccionamiento del esquema educativo.

La intención de quienes realizan el proceso de evaluación y quienes lo promueven es decisiva en el énfasis que se va a dar a unos u otros elementos del sistema de evaluación que se genere. Así, ante el único interés de cumplir de la manera más eficiente posible con una exigencia administrativa o estatutaria, los evaluadores prefieren hacer instrumentos que estén listos para ser aplicados en muy poco tiempo, que sean lo más económicos posible en tiempo, dinero y esfuerzo, así como que el análisis de los datos resultantes de las aplicaciones sea rápido y no evidencie las carencias de sus instrumentos, aunque este análisis no tenga un uso fuera de los expedientes. En cambio, ante el interés de obtener información útil en el análisis de la situación educativa, las preferencias tienden a desarrollar instrumentos con un nivel suficiente de validez, confiabilidad y pertinencia que lleven a obtener datos adecuados para el propósito de conocer los resultados escolares, permitiéndose así hacer mayores inversiones de recursos que en otros modelos.

Varios puntos de decisión se plantean en este proceso: ¿quién debe decidir las áreas a evaluar, los contenidos de las áreas a evaluar y los métodos de evaluación?, ¿quién debe crear los instrumentos de evaluación?, ¿qué características deben tener los ítemes de los instrumentos y/o métodos de evaluación?, ¿en qué momento se pueden considerar adecuados los instrumentos y/o métodos de evaluación?, ¿qué criterios deben tomarse en cuenta para analizar la información obtenida?, ¿qué segmentos y agrupaciones de la información obtenida son más útiles, y para quién? La pertinencia y la utilidad del proceso dependen de que se den respuestas razonables a estas preguntas, en los momentos oportunos, perfilando un sistema.

Existe una serie de cuestiones con respecto a la forma de abordar el trabajo de la evaluación masiva que ha sido resuelta con base en criterios poco claros, e incluso sin siquiera considerar los problemas teóricos y de aplicación, planteando las decisiones en términos meramente técnicos y/o administrativos. García Cortés (1979) explica la gran importancia que tiene determinar, para cada caso específico, las respuestas a para qué evaluar y qué evaluar. Responder estas dos preguntas señala criterios que generalmente sirven de gran ayuda para tomar decisiones sobre la manera de operar un programa de evaluación.

Es conocido el hecho de que un instrumento y/o método de evaluación (desde una regla hasta un electroencefalógrafo) que va a ser utilizado en repetidas ocasiones, para sacar conclusiones al hacer comparaciones debe cumplir ciertos criterios de confiabilidad y validez, así como ser pertinente.

La confiabilidad se refiere a la estabilidad del instrumento a través del tiempo y de las muestras. Sabemos que las condiciones y cualidades de los actores educativos son dinámicas, así que esta primera definición no parece ser muy útil en el ámbito de la escuela. Una segunda aproximación refiere que la medida confiable es aquella que se encuentra libre de error. Sin embargo, aunque esto parece ser suficientemente exacto (nunca totalmente), en las ciencias naturales (por ejemplo, en la medición del contenido de sodio en un compuesto) y en las ciencias sociales es muy ingenuo pensar en alcanzar la exactitud (puede incluso plantearse la duda de la posibilidad o la necesidad de ella en el plano filosófico). Una definición que nos parece más viable para la tarea que nos ocupa es la de considerar semejante a lo que es semejante, y diferente a lo que lo es, lo cual acerca la noción cuantitativa de confiabilidad a la noción cualitativa de imparcialidad (Fernández Ríos, 1994).

Los estándares para la evaluación educativa y psicológica por medio de pruebas (apa, 1985) señalan que "la validez es la consideración más importante en la evaluación por medio de pruebas. El concepto se refiere a la pertinencia, significación y utilidad de las inferencias específicas que se hagan de los puntajes de una prueba". Es muy difundida la definición básica de validez en instrumentos de evaluación que indica que éstos son válidos cuando miden lo que pretenden medir (Magnusson, 1975). Sin embargo, este concepto de validez aparentemente tan simple se encuentra en el centro de una polémica que aún actualmente se lleva a cabo. Gray (1997), haciendo una pequeña revisión, señala que:

…en 1949 Cronbach declaró que la definición de validez como "la extensión con que una prueba mide lo que pretende medir" era comúnmente aceptada, aunque él prefería una ligera modificación: una prueba es válida en el grado en que sabemos qué mide o predice. Cureton (1951) provee una definición similar: la cuestión esencial de la validez en las pruebas es qué tan bien realizan la tarea para la cual se les está usando. La validez es definida entonces en términos de la correlación entre los puntajes de una prueba y los "verdaderos" puntajes del criterio. La perdurable definición de Anastasi (usada desde 1954 hasta 1997), "la validez es qué mide una prueba y qué tan bien lo hace", es también citada ampliamente.

Gray (op. cit.) señala también que, aunque Cronbach tendió a evitar redefinir el término surgido en 1949, en 1971 hizo un comentario que reavivó la controversia: "validación es el proceso de examinar la precisión de una predicción o inferencia específica hecha a partir de los puntajes de una prueba", o bien, como señalan otros autores, "la validez se refiere no a las puntuaciones o datos en sí mismos, sino a las inferencias que se hagan a partir de ellos bajo determinadas circunstancias" (Cronbach, Vernon, cit. en Silva y Martorell, 1991); "lo que se valida no es el instrumento, sino la interpretación de los datos obtenidos por medio de un procedimiento especificado" (Aragón, 1990); "la validez depende de la ‘adecuación y pertinencia de inferencias y acciones’ basadas en los resultados de la evaluación" (Messick, 1989, en Linn y Baker, 1996).

Finalmente, es importante señalar que, aunque muchos autores (Rudner, 1993; Niemi, 1996; Aragón, op. cit.; Tourón, 1989; Burns, 1996; gao, 1991) reportan al menos tres tipos "clásicos" de validez, actualmente existe una tendencia a considerar un tipo único de validez (Gray, op. cit.; Silva y Martorell, op. cit., quienes incluso sugieren que el concepto de confiabilidad también es mucho más cercano al de validez de lo que se ha pensado), del cual, eso sí, se obtienen distintos tipos de evidencias:

Se ha sugerido que la validez de constructo abarca tanto a la validez de criterio como a la de contenido. Sheperd anotó que la validez de constructo incluye los requisitos teóricos y empíricos de la validez de contenido y de criterio. Anastasi (1986) coincide en que la validez de constructo subsume los requisitos de la validez de contenido y de criterio. (Stapleton, 1997)

En resumen, debemos considerar como una cualidad primordial de las pruebas la posibilidad de extraer de manera correcta y verdadera el significado de sus puntajes. Dado que esto no depende sólo de la prueba sino también de las circunstancias de aplicación y los objetivos de la misma, diferentes aspectos de esta cualidad pueden ser considerados. Aunque esto puede parecer sencillo cuando los instrumentos de medición son muy cercanos a la realidad física, la tarea se complejiza conforme el objeto de evaluación se vuelve abstracto o difícil de observar directamente. Tal es el caso de la evaluación del aprendizaje.

Existen tres puntos de especial importancia en cuanto a la pertinencia de un procedimiento de evaluación:

1. Que el tipo de información arrojada sea realmente un indicador útil sobre los conocimientos y/o habilidades de la población.

2. Que existan criterios fundamentados para interpretar las cifras obtenidas en la examinación masiva.

3. Que la información obtenida llegue a los destinatarios que pueden darle utilidad, es decir, los profesores, planificadores académicos al interior de la escuela y los propios estudiantes.

De lo anterior se desarrollan los siguientes puntos:

• Que el tipo de información arrojada sea realmente un indicador útil sobre los conocimientos y/o habilidades de la población. Existe una discusión importante con respecto a los instrumentos de evaluación que se utilizan en educación. En realidad, el origen de la discusión está en el pseudoproblema de lo cuantitativo versus lo cualitativo. Algunos autores, como Díaz Barriga (1982), señalan que la evaluación no debe hacer uso de la tecnología de medición generada por la psicometría y perfeccionada constantemente pues "se minimiza tanto el proceso mismo de la evaluación del aprendizaje como la noción de aprendizaje y la de docencia."; otros plantean problemas técnicos en el uso de ciertos tipos de evaluación "objetiva", por ejemplo que sólo se mide lo que el alumno memoriza, o la posibilidad de acertar por azar (Fermín, 1971); finalmente, otros autores, reconociendo los problemas de "el hiato indudable entre la medida y lo que pretendemos medir" y "el uso de la medición en la evaluación educativa" (Tourón, 1989) confían, sin embargo, en el uso del método científico para la valoración escolar y generan estrategias cada vez más refinadas para salvar los problemas mencionados (Tourón, 1989; Tirado y Serrano, 1989; Rodríguez y García, 1982). Consideramos importante rescatar nociones de cada uno de estos planteamientos, que equilibren una práctica evaluativa eficaz, eficiente y útil. Así, creemos que el diseño de un instrumento de evaluación debe estar firmemente enraizado en una reflexión del para qué y el qué evaluar, de tal modo que si una técnica y el qué evaluar se revelan incompatibles, debe ser la técnica la que cambie. También que el trabajo teórico cuidadoso con academias de evaluación puede llevar a que éstas diseñen métodos e instrumentos de evaluación adecuados para la intención, lugar y momento específicos en que se reflexione como grupo. Y que la información obtenida con métodos e instrumentos puede ser analizada y divulgada de manera útil para la toma de decisiones en la institución educativa.

• Que existan criterios fundamentados para interpretar las cifras obtenidas en la examinación masiva. Una problemática común entre los que atacan el problema de la evaluación desde un punto de vista social y/o filosófico, que en cambio es poco tocado por quienes tienen el punto de vista únicamente técnico, es el criterio de pase-reprobación en el caso de evaluaciones con fines de acreditación, o el criterio de "aceptabilidad-inaceptabilidad" en el de evaluaciones para la toma de decisiones. Sabemos que existen en este sentido juicios "por criterio" y juicios "por norma". En los primeros, se establece de antemano el mínimo aceptable, que depende de una discusión teórica de lo que se va a evaluar, y en los segundos se juzga cada caso individual con base en la cercanía o lejanía que tenga con la media (por ejemplo, número de desviaciones estándar), y el sentido de esta distancia (positivo o negativo). En el papel, estos criterios pueden parecer fáciles de aplicar, pero en la práctica vale la pena reflexionar profundamente en los motivos y las consecuencias de permitir, por ejemplo, que sean acreditados estudiantes de medicina con calificaciones apenas pasables, además de relativas (dado que ante el examen de una escuela podrían obtener altas calificaciones y ante el de otra podrían ser bajas). En efecto, no hay una estandarización en la dificultad que deben tener este tipo de pruebas, ni normas o consejos de uso generalizado para establecer los criterios. Por todo ello, el conjunto de la sociedad escolar debe dedicar tiempo a la reflexión de este problema, aterrizándolo en programas concretos en los que se trabaje, y tomando decisiones con respecto a los criterios a emplear en ellos.

La relatividad llegó a la física —una de las ciencias más duras y clásicas— hace unos ochenta años; tal vez ya es tiempo de que llegue a la educación: no existen criterios ni fórmulas universales para llevar a cabo las tareas evaluativas, ni deben existir. Cada sociedad escolar debe definir los propios. "Las interpretaciones válidas del significado y la verdad son hechas por gente que comparte decisiones y las consecuencias de las decisiones", escribe Steinar Kvale a propósito del conocimiento (según traducción inédita de Carrascosa). Estos términos, llevados a la evaluación educativa, implican el compromiso y la reflexión de todos los participantes en el proceso de la educación.

• Que la información obtenida llegue a los destinatarios que pueden darle utilidad. El último problema que planteamos para reflexionar en cuanto a la pertinencia de la evaluación, es el de decidir la manera de presentar la información obtenida y el análisis realizado con base en la aplicación de los métodos e instrumentos, así como los modos e instancias de distribución de estos datos. Consideramos útil discutir de antemano estos elementos, y evaluar la certeza de nuestras decisiones luego de cada experiencia de divulgación, mejorando sucesivamente las estrategias de difusión con base en las observaciones que se hagan. También consideramos útil consignar el proceso de búsqueda de las mejores estrategias en escritos que puedan ser de utilidad a otros en su práctica evaluativa.

Conclusiones

Con base en lo reflexionado, se infiere que la evaluación de lo educativo es una tarea fundamental, por su función de retroalimentación del sistema y sus subsistemas. Pasaron ya los tiempos de decidir entre una evaluación cuantitativa y una cualitativa, aunque es cierto que subsiste el problema técnico de que algunos tipos de evaluación, por su naturaleza, tienden a pertenecer mayormente a uno de estos dos campos.

La evaluación de lo educativo debe ser llevada a cabo por la comunidad. Debe haber participación de los actores educativos en las diferentes fases de la evaluación, principalmente en las de fundamento (cuando se establecen los criterios, con base en valores reconocidos por el grupo) y en las de retroalimentación propiamente dicha. Una cultura de evaluación no significa una época de terror, de premios y castigos basados en procesos desconocidos que asignan números bajo reglas cabalísticas oscurísimas: ésa es la cultura de la zanahoria y el palo para hacer andar al "motor ecológico". En una cultura de evaluación hay un interés de los participantes del proceso educativo por conocer el desempeño personal y grupal para analizar lo alcanzado y dirigir esfuerzos con conocimiento de causa que aumenten las probabilidades de éxito, y hay también un esfuerzo sostenido por revisar y mejorar constantemente los medios por los que se obtiene la información que sirve de base para los análisis.

Nota

1 Nos referimos especialmente a la conocida "escala de cero a diez", en que seis o más significa "aprobado", es decir, adecuado, y cinco o menos significa "reprobado", es decir, inadecuado. Del mismo modo podemos hablar del sistema na-mb.

Bibliografía

American Psychological Association, Standards for Educational and Psychological Testing, Washington, D.C., apa, 1985.

Aragón, B. L., Elaboración de un instrumento de evaluación conductual, con validez de contenido y de tratamiento, para niños disléxicos, tesis de grado, enep-Iztacala, unam, 1990.

Burns, W. C., "Content Validity, Face Validity and Quantitative Face Validity", en R. S. Barrett (ed.), Fair employment strategies in human resource management, Quorum Books, 1996.

Díaz Barriga, A., "Tesis para una teoría de la evaluación y sus derivaciones en la docencia", Perfiles educativos, núm. 15, enero-marzo, cise-unam, 1982.

Fermín, M., La evaluación, los exámenes, las calificaciones, Kapelusz, 1971.

Fernández Ríos, L. F., Manual de psicología preventiva: teoría y práctica, Siglo xxi, Madrid, 1994.

gao, Designing Evaluations, United States General Accounting Office, 1991.

García Cortés, F., "La evaluación en la educación", Perfiles educativos, núm. 3, enero-marzo, cise-unam, 1979.

Gray, B. T., "Controversies Regarding the Nature of Score Validity: Still Crazy After All These Years", presentado en la reunión anual de la Southwest Educational Research Association, Austin, enero de 1997.

Kvale, Steinar, "Psicología posmoderna: ¿Una contradicción de términos?" (no publicado), traducción de C. Carrascosa.

Linn, R. L. y E. L. Baker, Assessing the validity of the National Assessment of Educational Progress: NAEP technical review panel white paper, U. S. Department of Education, 1996.

Magnusson, D., Teoría de los tests, Trillas, México, 1975.

Martínez, F. F., G. Fuentes Trejo, B. Cepeda Hinojosa y R. Burgos Fajardo, Estado de conocimiento 8: evaluación del aprendizaje, Comité Organizador del Segundo Congreso Nacional de Investigación Educativa/Sindicato Nacional de Trabajadores de la Educación, 1993.

Niemi, D., Instructional influences on content area explanations and representational knowledge: evidence for the construct validity of measures of principled understanding, National Center for Research on Evaluation, Standards, and Student Testing, 1996.

Rodríguez Cruz, H. M. y E. García González, Evaluación en el aula, Trillas, 1982.

Rudner, L. M. Test Evaluation, eric/ae, 1993 (http://136.242.172.58/intass.htm).

Sánchez Moguel, A., "Evaluación de la educación. Introducción", en Ángel Díaz Barriga (coord.), Currículum, evaluación y planeación educativa, comie, cesu, enep-Iztacala, 1997.

Silva, F. y C. Martorell, "Evaluación conductual y evaluación tradicional: la cuestión psicométrica", en: V. E. Caballo (ed.), Manual de técnicas de terapia y modificación de conducta, Siglo xxi, Madrid, 1991.

Stapleton, C. D., "Basic Concepts in Exploratory Factor Analysis (efa) as a Tool to Evaluate Score Validity: A Right-Brained Approach", presentado en la reunión anual de la Southwest Educational Research Association, Austin, enero de 1997.

Tirado Segura, F. y V. Serrano Carrillo, "En torno a la calidad de la educación pública y privada en México", Ciencia y Desarrollo, vol. xv, núm. 85, Conacyt marzo-abril de 1989.

Tourón, J., "La validación de constructo: su aplicación al ceed (Cuestionario para la evaluación de la eficacia docente)", Bordón, vol. 41 (3-4), 1989.