RevistaELectrónica deInvestigación yEValuaciónEducativa // 1999 // Volumen 4 //
Número 2_4
ISSN 1134-4032 //
D.L. SE-1138-94
RESUMEN
En
este trabajo se presentan tres nuevos métodos de control de las tasas de
exposición de los items en tests adaptativos informatizados. El primero de
ellos añade un componente aleatorio al método de máxima información. En el
segundo se controla directamente la tasa de cada item, y sólo se administran
aquellos items cuya tasa sea menor de un cierto valor. En el tercer método es
una mezcla de los dos anteriores.
Los tres métodos se ponen a prueba mediante simulación, junto con el método de
máxima información y el de Sympson y Hetter. Se estudian los resultados en
cuanto a precisión del test y control de la tasa. Finalmente, se discuten las
ventajas de cada método y se sugieren algunas líneas de investigación.
ABSTRACT
Three
new item exposure control methods for computerized adaptive tests are
introduced. The first one is based on maximum information, and adds a random
component to the information provided by each item. The second one directly
controls the exposure of each item, and apply only the items with and exposure
lower than some arbitrary value. The third method is a mixture of the other
two.
The three methods, plus maximum information and the Sympson and Hetter method,
are compared in a simulation study, with respect to test precision and exposure
rate. Finally, we comment some future research lines.
Uno de los objetivos de los test adaptativos informatizados (TAIs) es conseguir
una estimación precisa del nivel de habilidad de los sujetos evaluados con un
número reducido de items. La forma de lograrlo consiste en seleccionar para
cada sujeto aquellos items que resultan mas informativos sobre su nivel de
habilidad, esto es lo que se conoce cómo método de máxima información (MI).
La cantidad de información que proporciona un item depende de sus parámetros y
de los del sujeto evaluado, aunque puede afirmarse que, en general, si se usa
el modelo logístico de tres parámetros un item será mas informativo cuanto
mayor sea su capacidad discriminativa (parámetro 'a'), mas ceca este su nivel
de dificultad (parámetro 'b') del nivel del sujeto (q) y menor sea la
probabilidad de acierto al azar (c) (Hambleton y Swaminathan, 1985, págs.
104-105). Por lo tanto, los items que sean altamente discriminativos serán
utilizados con mayor frecuencia en la aplicación de TAIs debido a la mayor
información que proporcionan sobre q (Revuelta y Ponsoda, 1996).
En la literatura sobre TAIs se denomina "exposición de un item" a la
frecuencia con que dicho item se utiliza en repetidas administraciones de un
test (Wainer, 1990). Algunos autores (Hulin, Drasgow y Parsons, 1983) han
encontrado que la tasa de exposición es muy variable de unos items a otros. Es
decir, mientras algunos items se utilizan en todos o casi todos los tests,
otros permanecen infrautilizados.
La excesiva variabilidad en las tasas de exposición causa problemas de orden
práctico en la aplicación de los tests. Los items mas populares pueden ser
conocidos por los sujetos antes de recibir el test, por ejemplo en un diseño
test-retest. Esto puede causar una pérdida de las propiedades psicométricas de
los items y, por tanto, de la validez del test.
En consecuencia, puede ser ventajoso reducir la tasa de exposición de los items
mas populares a costa de incluir en el test aquellos que son utilizados con
menor frecuencia. Esto es lo que se denomina "control de la tasa de exposición".
El objetivo que se busca con un método de control es lograr la mayor variedad
posible en los items que se administran en diferentes test. En primer lugar es
necesario reducir la tasa máxima de exposición, en comparación con la obtenida
con MI. En segundo lugar, es conveniente evitar que haya items infrautilizados.
Finalmente, es deseable lograr estos objetivos no sólo en el total de tests
administrados, sino también en el total de tests aplicados a cada uno de los
grupos de habilidad de los sujetos evaluados. De esta forma se asegura que si
un mismo sujeto es evaluado varias veces con el mismo test, y su nivel de rasgo
no sufre grandes cambios, los items que recibe son distintos.
El control de la exposición implica que en algunas ocasiones no se emplean los
items mas informativos del banco, con la consecuencia de que cabe esperar una
reducción en la precisión en comparación con MI.
En la literatura aparecen descritos varios métodos de control de la exposición,
los cuales pueden clasificarse en dos grupos (Stocking, 1993):
1-
Indirectos. Son los primeros que se desarrollaron. Básicamente añaden
un componente aleatorio al método MI. Entre ellos puede citarse:
1- McBride y Martin (1983). El primer item del test se escoge al azar entre los
5 mas informativos, el segundo entre los 4, y así sucesivamente hasta el quinto
y siguientes, en que se escoge el mas informativo.
2- Randomesque. (Kingsbury y
Zara, 1989). Durante todo el test, el item que se va a aplicar se selecciona
aleatoriamente entre los 5 mas informativos.
Otros métodos indirectos pueden
consultarse en: Lewis, Subhiyah y Morrison (1995) , y Morrison, Subhiyah y
Nungester (1995).
2-
Directos. También emplean un componente aleatorio, pero su
característica esencial es que incluyen parámetros que controlan de forma
explícita la tasa de exposición.
El método directo originario fue propuesto por Sympson y Hetter (1985), y
consiste en signar a cada item un parámetro 'k', entre 0 y 1, que controla su
tasa de exposición. Durante el test, cada vez que se selecciona un item se
genera un valor aleatorio uniforme entre 0 y 1. Si dicho valor es menor que el
parámetro se administra el item. En caso contrario el item queda inhabilitado
para el test actual y se selecciona otro item. Algunas extensiones de este
método han sido propuestas por Stocking (1993), Stocking y Lewis (1995) y Davey
y Parshall (1995).
De todos los métodos
descritos, únicamente el de Davey y Parshall (1995) controla las tasas de
exposición condicionadas al nivel de habilidad del sujeto. En todos los demás
el control se realiza sobre el total de tests administrados.
A continuación se describen tres nuevos métodos de control de las tasas de
exposición: uno directo, otro indirecto y una mezcla de ambos. En los tres
métodos el control es incondicional (sobre el total de tests administrados) y
consisten en asignar un peso "w" a cada item "i" en cada selección.
El item de mayor peso se selecciona y administra.
1-
Progresivo (PR). Los primeros items del test se seleccionan de
forma casi aleatoria, y en las siguientes selecciones se concede cada vez mas
importancia a la información proporcionada por cada item (Revuelta, 1995.
Revuelta y Ponsoda, 1996). Los pesos se calculan mediante la fórmula:
Donde "s" es igual al
número de items administrados dividido por la longitud máxima del test. R es un
número aleatorio entre 0 y el valor máximo de la información en el banco de
items, e I (q) es la información aportada por el item para la el nivel estimado
de habilidad.
Este método puede considerarse un refinamiento de los de McBride y Martin
(1983) que incluye un componente aleatorio en los primeros items, y el de
Kingsbury y Zara (1989), que incluye dicho componente durante todo el test.
2-
Restringido (Rk). Los items se seleccionan por MI, sin tomar en
consideración aquellos cuya tasa de exposición en los test anteriores supere el
valor 'k' (Revuelta, 1995. Revuelta y Ponsoda, 1996). El peso de cada item es:
Donde 'a' es el número de veces que
se ha utilizado el item en los 't' tests anteriores. Con este método cada uno
de los items está inhabilitado en un k% de los tests. Por lo tanto, para
conseguir que el banco del items no se agote en ningún test, el valor de 'k'
debe ser superior a la longitud del test dividida por el tamaño del banco.
El método Rk es una simplificación de Sympson y Hetter (1985), con la cual se
pretende evitar la complejidad que supone asignar los parámetros 'k' de este
método. Este proceso se realiza mediante simulación, y los parámetros
resultantes son dependientes de las condiciones del test en dichas
simulaciones: longitud, distribución de q, etc.
3-
Progresivo Restringido (Prk). En estudios anteriores (Revuelta,
J, 1995. Revuelta, J. y Ponsoda, V. 1996) hemos encontrado que al utilizar el
método PR la tasa máxima de exposición alcanza valores excesivamente altos,
mientras que el número de items sin utilizar es reducido. Lo contrario sucede
al utilizar el métoro Rk: la tasa máxima es óptima y el número de items sin
utilizar es demasiado alto. Por esta razón, se propone un método combinado
PR-Rk, el cual asigna un peso a cada item en la misma forma en que lo hace el
Progresivo, pero además se controla la tasa máxima de exposición en la misma
forma que con el método Rk. La fórmula del peso para cada item 'i' es:
Al igual que en los métodos
anteriores, se selecciona y administra el item de mayor peso.
El objetivo de este trabajo es comparar los tres métodos propuestos (PR, Rk y
PRk) con MI y SH en cuanto a la precisión del test y al control de la tasa.
Respecto a la precisión, es necesario comparar el promedio de la diferencia
entre q verdadera y estimada con cada uno de los métodos, y también la
diferencia en precisión entre diferentes sujetos con cada método. La razón es
que con los métodos Rk y PRk el tamaño del banco de items disponibles no es el
mismo para todos los sujetos. Por este motivo, es posible que las diferencias
en precisión entre diferentes sujetos sean mayores que con los demás métodos.
En cuanto a la tasa de exposición. Es necesario comparar los valores de la tasa
máxima, la cantidad de items infrautilizados y las diferencias en tasa entre
los items.
A continuación se describe un estudio de simulación en que se comparan estos
resultados con cada método, finalmente, las conclusiones.
Condiciones. Se
compararon los métodos MI, PR, Rk, PRk, SH y control (CO). En este último la
selección de items se realizó de forma aleatoria. En los métodos Rk y PRk se
empleó una tasa máxima del 40%, por esta razón el método se denominan en lo
sucesivo R40 y PR40. La misma tasa se empleó en la estimación de los parámetros
de exposición de SH.
Los seis métodos se compararon en tests de 20, 40 y 60 items, tomados de un
banco de 500 en el cual se empleó el modelo logístico de 3 parámetros (3pl).
Combinando 6 métodos por 3 longitudes resulta un total de 18 condiciones.
Procedimiento. En cada
condición se repitió cinco veces la aplicación de un TAI a los mismos 2000
sujetos simulados, cuya habilidad se distribuía N(0, 1).
No se utilizó un banco de items reales, sino que este se generó específicamente
para esta simulación. Cada item consta únicamente de los tres parámetros: 'a',
'b' y 'c' característicos del modelo 3pl, del parámetro 'k' propio del método
SH (el cual se estimó independientemente para cada una de las 18 condiciones),
y de dos contadores: 'nt' que indica el número de tests que se han aplicado, y
'na' que indica el número de veces que el item ha sido administrado. A partir
de los valores 'na' y 'nt' se realiza el control de la exposición en los
métodos R40 y PR40.
Los parámetros 'a', 'b' y 'c' se se generaron a partir de las siguientes
distribuciones (Baker, 1992, págs. 203-207): 'a': Lognormal (-0.25, 0.5), 'b':
N (0, 1) y 'c': Beta (5, 17). Esto produjo en un parámetro 'a' con media 0.93,
desviación típica 0.41, mínimo 0.41 y máximo 2.37. Los mismos estadísticos
correspondientes a 'b' son: 0.07, 0.95, -2.64 y 2.55. Los estadísticos de 'c'
son: 0.23, 0.09, 0.029 y 0.51.
Variables analizadas. Se
calculó la media en las cinco repeticiones de cada condición de las siguientes
variables: 1- Sesgo: nivel verdadero del sujeto menos nivel estimado. 2- RMSD:
raíz cuadrada de la media de las diferencias al cuadrado entre habilidad real y
estimada, es un indicador de la precisión media del test. 3- RDSD: raíz
cuadrada de la desviación típica de las diferencias al cuadrado, es un
indicador de las diferencias en precisión entre sujetos. 4- Coeficiente de
variación de la tasa de exposición. 5- Valor máximo de la tasa. 6- Valor mínimo
y 7- Número de items sin usar.
La precisión depende fundamentalmente de la longitud del test. Con
independencia del método, al aumentar la longitud aumenta también la precisión.
Con todos los métodos se obtuvo un sesgo negativo, indicando que la q estimada
es mayor que la verdadera, aunque las diferencias entre métodos no son
significativas. En cuanto al RMSD, la mejor precisión se obtuvo com MI y la
peor con CO. El valor de F es 57.51 (p < 0.00...) aunque únicamente son
significativas las diferencias entre CO y el resto de los métodos. Lo mismo
puede decirse de las diferencias en precisión entre los sujetos con cada
método, medidas por el RDSD. En este caso el valor de F es 47.21 (p <
0.00...) , aunque sólo son significativas las diferencias entre CO y el resto
de los métodos (ver tabla 1).
Tabla 1
Precisión del test por longitud
y método de selección de items
La función de información a lo largo del test muestra algunas diferencias entre
los métodos. Esta consiste en la información media aportada por los items en la
primera posición de los 2000 tests, respecto a la habilidad estimada final. La
media de los items en la segunda posición, etc.
Se calculó dicha función de información en la primera repetición de la
condición de 40 items. El resultado indica que todos los métodos proporcionan
los items mas informativos al principio del test, exceptuando PR y PRk con los
cuales el máximo se alcanza entre los items 10 y 20. Con el método CO la
información es una línea horizontal a lo largo de todo el test (ver gráfica 1).
En cuanto a la tasa de exposición, los resultados del método MI no son
adecuados. El máximo está en el 100% debido a que la habilidad inicial es la
misma para todos los sujetos, y por tanto el primer item del test también.
Además, un gran porcentaje del banco permanece sin utilizar y las diferencias
entre los items son grandes.
Los métodos R40, PR40 y SH tienen como ventaja que disminuyen la tasa máxima
hasta el valor deseado, mientras que el número de items sin utilizar es similar
al encontrado con MI. En cambio, con PR la tasa máxima es excesiva en tests
largos debido a que no se ejerce control sobre. La ventaja de los métodos PR y
PR40 es que disminuyen claramente el número de items sin utilizar, aunque ella
(ver tabla 2).
Tabla 2
Control de la exposición por longitud
del test y método de selección de items
Los resultados de este estudio no son concluyentes debido a que cada método
muestra ventajas e inconvenientes. Las diferencias en precisión entre los
métodos no son significativas, aunque el mejor valor lo proporcionó el método
MI. En cambio, existen claras diferencias en el control de la tasa.
El principal objetivo del control: una tasa máxima no excesivamente alta, sólo
se consigue con los métodos Rk, PRk y SH. No obstante, Rk y SH no proporcionan
ventajas respecto al segundo objetivo: evitar la infrautilización de una parte
del banco. Esto solo se consigue con los método PR y PRk.
Los métodos de control tienen cada uno sus propios inconvenientes. SH es
complicado de implementar y susceptible a cambios en las condiciones del test,
como cambios en la longitud o simplemente en la distribución de habilidad de
los sujetos evaluados. La razón está en que los parámetros 'k' empleados en
este método dependen de estas condiciones. Resultaría interesante comprobar
hasta que punto los parámetros del método SH son robustos a cambios en las
condiciones del test, es decir, como varian las tasas de exposición al cambiar
las condiciones del test manteniendo los mismos parámetros 'k'.
Rk resuelve algunos de los problemas de SH, aunque produce mayores diferencias
de precisión entre los sujetos. En cuanto al progresivo, el inconveniente está
en que no se ejerce control sobre la tasa máxima, y puede resultar excesiva.
En conclusión, el método combinado Prk parece la mejor solución de compromiso
por sus resultados en precisión, tasa mínima y número de items sin utilizar. No
obstante, debido a la gran cantidad de restricciones que este método impone en
el criterio de máxima información, es posible que en futuros estudios aparezcan
diferencias significativas en precisión al compararlo con MI, las cuales
podrían reducirse aplicando tests mas largos con PRk que con MI.
Una extensión de los método Rk y PRk consiste en calcular la tasa de exposición
condicionada al valor de la habilidad estimada, no sólo en el total de test
administrados. De esta forma no solamente se lograria controlar la tasa máxima
en el total de tests administrados, sino también evitar que sujetos de
habilidades similares reciban los mismos items.
Finalmente, todos los métodos propuestos deben ponerse a prueba en condiciones
mas realistas y con restricciones no psicométricas en la selección de items.
Por ejemplo, utilizando tests estructurados. En los cuales el banco se divide
en diversas áreas de contenido y es necesario incluir en el test una
determinada cantidad de items de cada área.
Baker,
F. B. 1992. Item Response Theory, Parameter Estimation Techniques.
Marcel Dekker. New York.
Davey,
T., & Parshall, C.G. 1995. New algorithms for item selection and exposure
control with computerized adaptive testing. Annual meeting of the American
Educational Research Association. San Francisco.
Hambleton,
R.K., & Swaminathan, H. 1985. Item Response Theory. Principles and
Applications. Boston: Kluwer-Nijhoff Pub.
Hulin,
C.L., Drasgow, F., & Parsons, C.K. 1983. Item Response Theory:
Applications to Psychological Measurement. Homewood, IL.: Dow Jones-Irwin.
Kingsbury,
G.G., & Zara, A.R. 1984. Procedures for selecting items for computerized
adaptive tests. Applied Measurement in Education. Nº 2. Págs. 359-375.
Lewis,
M.J., Subhiyah, R.G., & Morrison, C.A. 1995. A comparison of classification
agreement between adaptive and full-length tests under the 1-PL and 2-PL
models. Annual meeting of the American Educational Research Association.
San Francisco.
McBride,
J.R., & Martin, J.T. 1983. Reliability and validity of adaptive ability
tests in a military setting. In D.J. Weiss (Ed.) New Horizons in Testing.
Págs. 223-236. New York: Academic Press.
Morrison,
C., Subhiyah, R., & Nungester, R. 1995. Item exposure rates for
unconstrained and content-balanced computerized adaptive tests. Annual
Meeting of the American Educational Research Association. San Francisco.
Revuelta,
J. 1995. El control de la exposición de los items en tests adaptativos
informatizados. Memoria de licenciatura. Universidad Autónoma de Madrid.
Revuelta,
J., y Ponsoda, V. 1996. Metodos sencillos para el control de las tasas de
exposicion en tests adaptativos informatizados. Psicológica, 17, 161-172.
Stocking,
M. 1993. Controlling item exposure rates in a realistic daptive testing
paradigm. Technical Report (RR 93-2). Princeton, NJ: Educational Testing
Service.
Stocking,
M, & Lewis, C. 1995. A New Method of Controlling Item Exposure in
Computerized Adaptive Testing. Techical Report (RR-95-25). Princeton, NJ:
Educational Testing Service.
Sympson,
J.B., & Hetter, R.D. 1985. Controlling item exposure rates in computerized
adaptive testing. Proceedings of the 27th Annual Meeting of the Military
Testing Association. San Diego, CA: Navy Personnel Research and
Development Center.
Wainer,
H. 1990. Computerized adaptive testing: a primer. Hillsdale, New
Jersey: LEA.