RevistaELectrónica deInvestigación yEValuaciónEducativa // 1999 // Volumen 4 // Número 2_4
ISSN 1134-4032 // D.L. SE-1138-94

 

MÉTODOS PARA EL CONTROL DE LAS TASAS DE EXPOSICIÓN EN TESTS ADAPTATÍVOS INFORMATIZADOS

por

Javier Revuelta
Vicente Ponsoda
Julio Olea
Julio.Olea@uam.es

Universidad Autónoma de Madrid 

 

RESUMEN

          En este trabajo se presentan tres nuevos métodos de control de las tasas de exposición de los items en tests adaptativos informatizados. El primero de ellos añade un componente aleatorio al método de máxima información. En el segundo se controla directamente la tasa de cada item, y sólo se administran aquellos items cuya tasa sea menor de un cierto valor. En el tercer método es una mezcla de los dos anteriores.

        Los tres métodos se ponen a prueba mediante simulación, junto con el método de máxima información y el de Sympson y Hetter. Se estudian los resultados en cuanto a precisión del test y control de la tasa. Finalmente, se discuten las ventajas de cada método y se sugieren algunas líneas de investigación.

ABSTRACT

          Three new item exposure control methods for computerized adaptive tests are introduced. The first one is based on maximum information, and adds a random component to the information provided by each item. The second one directly controls the exposure of each item, and apply only the items with and exposure lower than some arbitrary value. The third method is a mixture of the other two.

        The three methods, plus maximum information and the Sympson and Hetter method, are compared in a simulation study, with respect to test precision and exposure rate. Finally, we comment some future research lines.

 

 

1. INTRODUCCIÓN

        Uno de los objetivos de los test adaptativos informatizados (TAIs) es conseguir una estimación precisa del nivel de habilidad de los sujetos evaluados con un número reducido de items. La forma de lograrlo consiste en seleccionar para cada sujeto aquellos items que resultan mas informativos sobre su nivel de habilidad, esto es lo que se conoce cómo método de máxima información (MI).

        La cantidad de información que proporciona un item depende de sus parámetros y de los del sujeto evaluado, aunque puede afirmarse que, en general, si se usa el modelo logístico de tres parámetros un item será mas informativo cuanto mayor sea su capacidad discriminativa (parámetro 'a'), mas ceca este su nivel de dificultad (parámetro 'b') del nivel del sujeto (q) y menor sea la probabilidad de acierto al azar (c) (Hambleton y Swaminathan, 1985, págs. 104-105). Por lo tanto, los items que sean altamente discriminativos serán utilizados con mayor frecuencia en la aplicación de TAIs debido a la mayor información que proporcionan sobre q (Revuelta y Ponsoda, 1996).

        En la literatura sobre TAIs se denomina "exposición de un item" a la frecuencia con que dicho item se utiliza en repetidas administraciones de un test (Wainer, 1990). Algunos autores (Hulin, Drasgow y Parsons, 1983) han encontrado que la tasa de exposición es muy variable de unos items a otros. Es decir, mientras algunos items se utilizan en todos o casi todos los tests, otros permanecen infrautilizados.

        La excesiva variabilidad en las tasas de exposición causa problemas de orden práctico en la aplicación de los tests. Los items mas populares pueden ser conocidos por los sujetos antes de recibir el test, por ejemplo en un diseño test-retest. Esto puede causar una pérdida de las propiedades psicométricas de los items y, por tanto, de la validez del test.

        En consecuencia, puede ser ventajoso reducir la tasa de exposición de los items mas populares a costa de incluir en el test aquellos que son utilizados con menor frecuencia. Esto es lo que se denomina "control de la tasa de exposición".

        El objetivo que se busca con un método de control es lograr la mayor variedad posible en los items que se administran en diferentes test. En primer lugar es necesario reducir la tasa máxima de exposición, en comparación con la obtenida con MI. En segundo lugar, es conveniente evitar que haya items infrautilizados. Finalmente, es deseable lograr estos objetivos no sólo en el total de tests administrados, sino también en el total de tests aplicados a cada uno de los grupos de habilidad de los sujetos evaluados. De esta forma se asegura que si un mismo sujeto es evaluado varias veces con el mismo test, y su nivel de rasgo no sufre grandes cambios, los items que recibe son distintos.

        El control de la exposición implica que en algunas ocasiones no se emplean los items mas informativos del banco, con la consecuencia de que cabe esperar una reducción en la precisión en comparación con MI.

        En la literatura aparecen descritos varios métodos de control de la exposición, los cuales pueden clasificarse en dos grupos (Stocking, 1993):

1- Indirectos. Son los primeros que se desarrollaron. Básicamente añaden un componente aleatorio al método MI. Entre ellos puede citarse:


1- McBride y Martin (1983). El primer item del test se escoge al azar entre los 5 mas informativos, el segundo entre los 4, y así sucesivamente hasta el quinto y siguientes, en que se escoge el mas informativo.

2- Randomesque. (Kingsbury y Zara, 1989). Durante todo el test, el item que se va a aplicar se selecciona aleatoriamente entre los 5 mas informativos.

Otros métodos indirectos pueden consultarse en: Lewis, Subhiyah y Morrison (1995) , y Morrison, Subhiyah y Nungester (1995).

2- Directos. También emplean un componente aleatorio, pero su característica esencial es que incluyen parámetros que controlan de forma explícita la tasa de exposición.

        El método directo originario fue propuesto por Sympson y Hetter (1985), y consiste en signar a cada item un parámetro 'k', entre 0 y 1, que controla su tasa de exposición. Durante el test, cada vez que se selecciona un item se genera un valor aleatorio uniforme entre 0 y 1. Si dicho valor es menor que el parámetro se administra el item. En caso contrario el item queda inhabilitado para el test actual y se selecciona otro item. Algunas extensiones de este método han sido propuestas por Stocking (1993), Stocking y Lewis (1995) y Davey y Parshall (1995).


          De todos los métodos descritos, únicamente el de Davey y Parshall (1995) controla las tasas de exposición condicionadas al nivel de habilidad del sujeto. En todos los demás el control se realiza sobre el total de tests administrados.

 

2. MÉTODOS PROPUESTOS

        A continuación se describen tres nuevos métodos de control de las tasas de exposición: uno directo, otro indirecto y una mezcla de ambos. En los tres métodos el control es incondicional (sobre el total de tests administrados) y consisten en asignar un peso "w" a cada item "i" en cada selección. El item de mayor peso se selecciona y administra.

1- Progresivo (PR). Los primeros items del test se seleccionan de forma casi aleatoria, y en las siguientes selecciones se concede cada vez mas importancia a la información proporcionada por cada item (Revuelta, 1995. Revuelta y Ponsoda, 1996). Los pesos se calculan mediante la fórmula:

 

 


        Donde "s" es igual al número de items administrados dividido por la longitud máxima del test. R es un número aleatorio entre 0 y el valor máximo de la información en el banco de items, e I (q) es la información aportada por el item para la el nivel estimado de habilidad.

        Este método puede considerarse un refinamiento de los de McBride y Martin (1983) que incluye un componente aleatorio en los primeros items, y el de Kingsbury y Zara (1989), que incluye dicho componente durante todo el test.

 

2- Restringido (Rk). Los items se seleccionan por MI, sin tomar en consideración aquellos cuya tasa de exposición en los test anteriores supere el valor 'k' (Revuelta, 1995. Revuelta y Ponsoda, 1996). El peso de cada item es:

 



        Donde 'a' es el número de veces que se ha utilizado el item en los 't' tests anteriores. Con este método cada uno de los items está inhabilitado en un k% de los tests. Por lo tanto, para conseguir que el banco del items no se agote en ningún test, el valor de 'k' debe ser superior a la longitud del test dividida por el tamaño del banco.

        El método Rk es una simplificación de Sympson y Hetter (1985), con la cual se pretende evitar la complejidad que supone asignar los parámetros 'k' de este método. Este proceso se realiza mediante simulación, y los parámetros resultantes son dependientes de las condiciones del test en dichas simulaciones: longitud, distribución de q, etc.

 

3- Progresivo Restringido (Prk). En estudios anteriores (Revuelta, J, 1995. Revuelta, J. y Ponsoda, V. 1996) hemos encontrado que al utilizar el método PR la tasa máxima de exposición alcanza valores excesivamente altos, mientras que el número de items sin utilizar es reducido. Lo contrario sucede al utilizar el métoro Rk: la tasa máxima es óptima y el número de items sin utilizar es demasiado alto. Por esta razón, se propone un método combinado PR-Rk, el cual asigna un peso a cada item en la misma forma en que lo hace el Progresivo, pero además se controla la tasa máxima de exposición en la misma forma que con el método Rk. La fórmula del peso para cada item 'i' es:

 




        Al igual que en los métodos anteriores, se selecciona y administra el item de mayor peso.

        El objetivo de este trabajo es comparar los tres métodos propuestos (PR, Rk y PRk) con MI y SH en cuanto a la precisión del test y al control de la tasa. Respecto a la precisión, es necesario comparar el promedio de la diferencia entre q verdadera y estimada con cada uno de los métodos, y también la diferencia en precisión entre diferentes sujetos con cada método. La razón es que con los métodos Rk y PRk el tamaño del banco de items disponibles no es el mismo para todos los sujetos. Por este motivo, es posible que las diferencias en precisión entre diferentes sujetos sean mayores que con los demás métodos.

        En cuanto a la tasa de exposición. Es necesario comparar los valores de la tasa máxima, la cantidad de items infrautilizados y las diferencias en tasa entre los items.

        A continuación se describe un estudio de simulación en que se comparan estos resultados con cada método, finalmente, las conclusiones.



3. MÉTODO

        Condiciones. Se compararon los métodos MI, PR, Rk, PRk, SH y control (CO). En este último la selección de items se realizó de forma aleatoria. En los métodos Rk y PRk se empleó una tasa máxima del 40%, por esta razón el método se denominan en lo sucesivo R40 y PR40. La misma tasa se empleó en la estimación de los parámetros de exposición de SH.

        Los seis métodos se compararon en tests de 20, 40 y 60 items, tomados de un banco de 500 en el cual se empleó el modelo logístico de 3 parámetros (3pl). Combinando 6 métodos por 3 longitudes resulta un total de 18 condiciones.

        Procedimiento. En cada condición se repitió cinco veces la aplicación de un TAI a los mismos 2000 sujetos simulados, cuya habilidad se distribuía N(0, 1).

        No se utilizó un banco de items reales, sino que este se generó específicamente para esta simulación. Cada item consta únicamente de los tres parámetros: 'a', 'b' y 'c' característicos del modelo 3pl, del parámetro 'k' propio del método SH (el cual se estimó independientemente para cada una de las 18 condiciones), y de dos contadores: 'nt' que indica el número de tests que se han aplicado, y 'na' que indica el número de veces que el item ha sido administrado. A partir de los valores 'na' y 'nt' se realiza el control de la exposición en los métodos R40 y PR40.

        Los parámetros 'a', 'b' y 'c' se se generaron a partir de las siguientes distribuciones (Baker, 1992, págs. 203-207): 'a': Lognormal (-0.25, 0.5), 'b': N (0, 1) y 'c': Beta (5, 17). Esto produjo en un parámetro 'a' con media 0.93, desviación típica 0.41, mínimo 0.41 y máximo 2.37. Los mismos estadísticos correspondientes a 'b' son: 0.07, 0.95, -2.64 y 2.55. Los estadísticos de 'c' son: 0.23, 0.09, 0.029 y 0.51.

        Variables analizadas. Se calculó la media en las cinco repeticiones de cada condición de las siguientes variables: 1- Sesgo: nivel verdadero del sujeto menos nivel estimado. 2- RMSD: raíz cuadrada de la media de las diferencias al cuadrado entre habilidad real y estimada, es un indicador de la precisión media del test. 3- RDSD: raíz cuadrada de la desviación típica de las diferencias al cuadrado, es un indicador de las diferencias en precisión entre sujetos. 4- Coeficiente de variación de la tasa de exposición. 5- Valor máximo de la tasa. 6- Valor mínimo y 7- Número de items sin usar.



4. RESULTADOS

        La precisión depende fundamentalmente de la longitud del test. Con independencia del método, al aumentar la longitud aumenta también la precisión.

        Con todos los métodos se obtuvo un sesgo negativo, indicando que la q estimada es mayor que la verdadera, aunque las diferencias entre métodos no son significativas. En cuanto al RMSD, la mejor precisión se obtuvo com MI y la peor con CO. El valor de F es 57.51 (p < 0.00...) aunque únicamente son significativas las diferencias entre CO y el resto de los métodos. Lo mismo puede decirse de las diferencias en precisión entre los sujetos con cada método, medidas por el RDSD. En este caso el valor de F es 47.21 (p < 0.00...) , aunque sólo son significativas las diferencias entre CO y el resto de los métodos (ver tabla 1).

Tabla 1

Precisión del test por longitud y método de selección de items

 

        La función de información a lo largo del test muestra algunas diferencias entre los métodos. Esta consiste en la información media aportada por los items en la primera posición de los 2000 tests, respecto a la habilidad estimada final. La media de los items en la segunda posición, etc.

        Se calculó dicha función de información en la primera repetición de la condición de 40 items. El resultado indica que todos los métodos proporcionan los items mas informativos al principio del test, exceptuando PR y PRk con los cuales el máximo se alcanza entre los items 10 y 20. Con el método CO la información es una línea horizontal a lo largo de todo el test (ver gráfica 1).

        En cuanto a la tasa de exposición, los resultados del método MI no son adecuados. El máximo está en el 100% debido a que la habilidad inicial es la misma para todos los sujetos, y por tanto el primer item del test también. Además, un gran porcentaje del banco permanece sin utilizar y las diferencias entre los items son grandes.

        Los métodos R40, PR40 y SH tienen como ventaja que disminuyen la tasa máxima hasta el valor deseado, mientras que el número de items sin utilizar es similar al encontrado con MI. En cambio, con PR la tasa máxima es excesiva en tests largos debido a que no se ejerce control sobre. La ventaja de los métodos PR y PR40 es que disminuyen claramente el número de items sin utilizar, aunque ella (ver tabla 2).

Tabla 2

Control de la exposición por longitud del test y método de selección de items

 



5. CONCLUSIONES

        Los resultados de este estudio no son concluyentes debido a que cada método muestra ventajas e inconvenientes. Las diferencias en precisión entre los métodos no son significativas, aunque el mejor valor lo proporcionó el método MI. En cambio, existen claras diferencias en el control de la tasa.

        El principal objetivo del control: una tasa máxima no excesivamente alta, sólo se consigue con los métodos Rk, PRk y SH. No obstante, Rk y SH no proporcionan ventajas respecto al segundo objetivo: evitar la infrautilización de una parte del banco. Esto solo se consigue con los método PR y PRk.

        Los métodos de control tienen cada uno sus propios inconvenientes. SH es complicado de implementar y susceptible a cambios en las condiciones del test, como cambios en la longitud o simplemente en la distribución de habilidad de los sujetos evaluados. La razón está en que los parámetros 'k' empleados en este método dependen de estas condiciones. Resultaría interesante comprobar hasta que punto los parámetros del método SH son robustos a cambios en las condiciones del test, es decir, como varian las tasas de exposición al cambiar las condiciones del test manteniendo los mismos parámetros 'k'.

        Rk resuelve algunos de los problemas de SH, aunque produce mayores diferencias de precisión entre los sujetos. En cuanto al progresivo, el inconveniente está en que no se ejerce control sobre la tasa máxima, y puede resultar excesiva.

        En conclusión, el método combinado Prk parece la mejor solución de compromiso por sus resultados en precisión, tasa mínima y número de items sin utilizar. No obstante, debido a la gran cantidad de restricciones que este método impone en el criterio de máxima información, es posible que en futuros estudios aparezcan diferencias significativas en precisión al compararlo con MI, las cuales podrían reducirse aplicando tests mas largos con PRk que con MI.

        Una extensión de los método Rk y PRk consiste en calcular la tasa de exposición condicionada al valor de la habilidad estimada, no sólo en el total de test administrados. De esta forma no solamente se lograria controlar la tasa máxima en el total de tests administrados, sino también evitar que sujetos de habilidades similares reciban los mismos items.

        Finalmente, todos los métodos propuestos deben ponerse a prueba en condiciones mas realistas y con restricciones no psicométricas en la selección de items. Por ejemplo, utilizando tests estructurados. En los cuales el banco se divide en diversas áreas de contenido y es necesario incluir en el test una determinada cantidad de items de cada área.


6. REFERENCIAS

Baker, F. B. 1992. Item Response Theory, Parameter Estimation Techniques. Marcel Dekker. New York.

Davey, T., & Parshall, C.G. 1995. New algorithms for item selection and exposure control with computerized adaptive testing. Annual meeting of the American Educational Research Association. San Francisco.

Hambleton, R.K., & Swaminathan, H. 1985. Item Response Theory. Principles and Applications. Boston: Kluwer-Nijhoff Pub.

Hulin, C.L., Drasgow, F., & Parsons, C.K. 1983. Item Response Theory: Applications to Psychological Measurement. Homewood, IL.: Dow Jones-Irwin.

Kingsbury, G.G., & Zara, A.R. 1984. Procedures for selecting items for computerized adaptive tests. Applied Measurement in Education. Nº 2. Págs. 359-375.

Lewis, M.J., Subhiyah, R.G., & Morrison, C.A. 1995. A comparison of classification agreement between adaptive and full-length tests under the 1-PL and 2-PL models. Annual meeting of the American Educational Research Association. San Francisco.

McBride, J.R., & Martin, J.T. 1983. Reliability and validity of adaptive ability tests in a military setting. In D.J. Weiss (Ed.) New Horizons in Testing. Págs. 223-236. New York: Academic Press.

Morrison, C., Subhiyah, R., & Nungester, R. 1995. Item exposure rates for unconstrained and content-balanced computerized adaptive tests. Annual Meeting of the American Educational Research Association. San Francisco.

Revuelta, J. 1995. El control de la exposición de los items en tests adaptativos informatizados. Memoria de licenciatura. Universidad Autónoma de Madrid.

Revuelta, J., y Ponsoda, V. 1996. Metodos sencillos para el control de las tasas de exposicion en tests adaptativos informatizados. Psicológica, 17, 161-172.

Stocking, M. 1993. Controlling item exposure rates in a realistic daptive testing paradigm. Technical Report (RR 93-2). Princeton, NJ: Educational Testing Service.

Stocking, M, & Lewis, C. 1995. A New Method of Controlling Item Exposure in Computerized Adaptive Testing. Techical Report (RR-95-25). Princeton, NJ: Educational Testing Service.

Sympson, J.B., & Hetter, R.D. 1985. Controlling item exposure rates in computerized adaptive testing. Proceedings of the 27th Annual Meeting of the Military Testing Association. San Diego, CA: Navy Personnel Research and Development Center.

Wainer, H. 1990. Computerized adaptive testing: a primer. Hillsdale, New Jersey: LEA.