Estudios multivariados con datos nominales:
aportaciones del análisis logarítmico lineal
Ana
Delia Correa Piñero
Resumen
En este artículo se presentan las fases generales
del análisis logarítmico lineal, un procedimiento de análisis multivariado para
variables cualitativas o categoriales organizadas en tablas de contingencia
multidimensionales. Se describen las ecuaciones de los diversos modelos y el
proceso de ajuste, distinguiendo entre índices residuales y componentes para
valorar la importancia de los
efectos principales y de interacción en el ajuste del modelo. Adicionalmente,
se destaca la propiedad de partición de la prueba GZ para comprobar
subhipótesis de interacción específicas. Ilustramos con algunos cálculos los
procedimientos de análisis.
Palabras
clave: Tablas de contingencia multidimensionales, Ajuste de modelos logarítmico
lineales.
Abstract
This
paper describes the general phases of log‑linear analysis, a multivariate
technic for discrete data of multidimensional contingency tables. Equations of
various models, as well as fitting process are described. Residual and
component index are used to estimating the weight of main effects and
interactions on model goodness‑of‑fit. Likewise, the capability of
Gz lo be partitioned and to test especific interaction subhypotheses is
emphasized. Illustrative data analysis is presented.
Keywords: Multidimensional Contingency Tables, Log‑linear
Models Fit.
* ANA DELIA CORREA PIÑERO. Es profesora de
Metodología de la Investigación Educativa en la Universidad de La Laguna.
Trabaja en métodos y técnicas de investigación educativa y en programas
estadísticos computarizados.
Introducción
Las variables denominadas de
bajo nivel de medición (nominales) vienen siendo objeto últimamente de
desarrollos estadísticos multivariados de un nivel de complejidad y
sofisticación comparable al de la estadística multivariada para variables
continuas. Entre otros muchos, se encuentra el denominado Análisis Logarítmico
Lineal, un procedimiento de análisis para variables categoriales organizadas en
tablas de contingencia multidimensionales. Esta técnica tiene especial interés
para la investigación educativa, ya que con frecuencia, bien sea por la
carencia de instrumentos de medida más precisos o bien por la propia naturaleza
de los constructos estudiados, nuestras investigaciones incluyen variables de
este tipo, también conocidas como variables cualitativas.
Sin embargo, la abundancia de
literatura estadística sobre estos nuevos procedimientos no se refleja, por el
momento, en un conocimiento extendido de los mismos por parte de los
investigadores ni, por tanto, en su aplicación en las investigaciones. Aunque
hoy sean más conocidos que hace unos años, en la mayoría de los casos las variables
de tipo nominal continúan siendo objeto de limitados análisis bivariados aún
cuando las peculiaridades del problema de investigación requieran de
procedimientos más complejos. Parecer ser que se necesita cierto tiempo para
que esta técnica multivariada, al igual que otras muchas, forme parte de la
formación metodológica habitual de los licenciados en Ciencias de la Educación
y que ello se refleje en su actividad investigadora. Además de tiempo, creemos
que sería una buena contribución el incremento y difusión de literatura de tipo
"intermedio" que ejerza de puente entre creadores (estadísticos) y
usuarios (investigadores). Con esta tarea de divulgación no se pretende
vulgarizar la técnica, sino hacerla asequible a los no especialistas, que pueden
desalentarse ante la ocasional dureza del lenguaje estadístico usado en la
literatura especializada.
Este artículo tiene ese
propósito divulgador. Se dirige al lector/lectora que ya conozca los
procedimientos de construcción y análisis de tablas de contingencia bidimensionales
(índices de asociación bivariada, pruebas de independencia, índices de
asociación parcial, etc.). Estos procedimientos son válidos y útiles cuando se
analizan sólo dos variables o, todo lo más, se controla una tercera. No lo son,
en cambio, para analizar las interacciones complejas que pueden subyacer en
tablas de contingencia multidimensionales, donde se manejan tres o más
variables nominales simultáneamente. Presentaremos, pues, una descripción
general del procedimiento, acompañada de ejemplos que faciliten su comprensión.
Objetivos
y fases generales del análisis logarítmico lineal
Se atribuye a Birch (1963) el
origen indirecto de los modelos logarítmico lineales, a raíz de un trabajo
sobre problemas de asociación entre tres variables categoriales. Desde
entonces, este procedimiento ha venido siendo desarrollado y/o difundido por
una serie de autores, como Baker (1981), Benedetti y Brown (1978a; 1978b),
Bishop, Fienberg y Rolland (1975), Brown (1975; 1976), Fienberg (1977),
Goodrnan (1968;
1970; 1971; 1972a; 1972b; 1973; 1979; 1984),
Haberman (1974; 1978; 1979), Knoke y Burke (1982), Kotze (1982) y Upton (1978),
entre otros.
El objetivo es obtener un modelo
que se ajuste a las frecuencias observadas de una tabla de contingencia
multidimensional, describiendo adecuadamente las relaciones entre los factores
(o índices o variables) de la tabla. Estas relaciones pueden ordenarse por su
importancia, es decir, por su contribución al ajuste del modelo, y se pueden
determinar sus parámetros y comprobar su significación.
A diferencia de la mayoría de
los métodos, en este procedimiento la unidad de análisis no son las
puntuaciones individuales, sino conjuntos de sujetos. Estos conjuntos vienen
definidos por determinadas características o combinaciones de las categorías de
las variables implicadas. Tampoco lo que se entiende aquí por variable
dependiente es lo usual, ya que no es una variable sino una probabilidad de
casilla: la probabilidad de que un individuo seleccionado al azar pertenezca a
determinadas categorías de interés. Es decir, la probabilidad de que tenga una
determinada combinación de características (Knoke y Burke, 1982). Por ejemplo,
en una tabla IxJxK, Pijk es
la probabilidad de que un sujeto pertenezca a la categoría i de la primera variable,
a la categoría j de la segunda y a la categoría k de la tercera. Este conjunto
de probabilidades, o alguna función derivada, es lo que sirve como variable
dependiente.
La
finalidad del análisis es la de obtener un modelo o ecuación que explique las
variaciones en las probabilidades de
las casillas, postulando una serie de relaciones e interacciones entre las
variables.
El proceso de encontrar un modelo satisfactorio se
lleve siguientes etapas:
1) Proponer un modelo
para explicar los datos observados. El modelo hipotetiza una serie de
relaciones entre las variables. Por ejemplo, si se piensa que las variables son
mutuamente independientes, el modelo no debe contener elementos de interacción.
Normalmente, el investigador se apoya en un sustrato teórico previo para
proponer su modelo o hipótesis,
aunque hay procedimientos más inductivos para ello, sumamente útiles en
estudios exploratorios, por ejemplo las pruebas de asociación parcial,
marginal, simultáneas, etc. (Brown, 1976).
2) A partir de
la suposición de que el modelo propuesto es cierto, se deriva un conjunto de
expectativas sobre cómo tendrían que ser los datos para que se ajustasen a
dicho modelo. Siguiendo con el ejemplo de independencia mutua, se procedería a estimar cómo tendría que ser una muestra de tamaño dado si perteneciera a una
población donde las variables fuesen mutuamente independientes.
3) A continuación se comparan
las expectativas derivadas del modelo con los datos observados en la muestra y
se decide si el modelo es o no aceptable. En nuestro ejemplo, si la muestra perteneciera realmente a una población
donde las variables analizadas son independientes, cualquier posible
discrepancia entre los datos observados y las expectativas tendría que deberse
al azar. Esto supone someter a prueba nuestro modelo y esa comprobación se
realiza en base a algún estadístico, como ji2 o la
razón de verosimilitud de ji2), (G)2 que comparan las frecuencias
esperadas según el modelo, o frecuencias teóricas, y las observadas en la
muestra, o frecuencias empíricas.
4) Si las discrepancias son
pequeñas, se mantiene el modelo y se da el siguiente paso. De lo contrario,
habría que volver al paso 1 y proponer otro modelo. Naturalmente, ello podría
llevarnos a un replanteamiento de nuestra teoría, o del procedimiento, o de los
instrumentos utilizados para obtener los datos.
5) Finalmente, y como en otros
procedimientos de construcción de modelos, se estimarían los parámetros del
modelo aceptado, sus errores típicos, intervalos de confianza, etc. Estos parámetros
pueden ser traducidos a términos sustantivos y servir de base para proceder a
explicaciones y hacer predicciones.
Detallaremos este proceso a
medida que presentemos los diversos modelos rítmico lineales, organizando esta
presentación en base al tamaño de la tabla.
Modelos para tablas bivariadas
En una tabla bidimensional, se
propone un modelo para Pij: probabilidad de estar en la fila i y la columna j
de la tabla. En lugar de probabilidades, también se puede trabajar con las
frecuencias esperadas de esa casilla (Fij) o con su logaritmo (Lij). Formular
un modelo para probabilidades, para frecuencias esperadas o para logaritmos de
esas frecuencias es sólo una cuestión de conveniencia, ya que un modelo para
uno de estos elementos puede ser fácilmente traducido a un modelo para
cualquiera de los otros.
Las frecuencias esperadas o sus
logaritmos se representan como una función de una serie de parámetros. De la
misma forma que en ANOVA, hay parámetros de efectos principales y de
interacción. Estos efectos nos proporcionan dos tipos de información,
básicamente. En primer lugar, su presencia o ausencia del modelo nos indica la
estructura de los datos. Un efecto de interacción entre X e Y, por ejemplo, nos
indica una relación entre esas dos variables. En segundo lugar, se pueden
estimar los valores numéricos de los efectos (parámetros), lo que nos indicará
la intensidad de las relaciones entre las variables.
Modelo de No Efectos
El modelo más sencillo para una tabla IxJ (de dos
variables X e Y) es el que sostiene que todas las probabilidades de casilla (o
las frecuencias esperadas, o sus logaritmos) son iguales a una constante, es
decir, que no hay efectos de ningún tipo. El modelo de no efectos se
representaría simbólicamente como: Fij = μ',
o bien : Lij = μ.
El parámetro p representa la
media aritmética de los logaritmos de todas las casillas. Es análogo a la media
general del ANOVA o al término de
ordenada en el origen de la ecuación de regresión, e indica que las
frecuencias de cada una de las casillas de la tabla en la población son iguales
a una constante. Una muestra extraída de esa población tendría la misma
frecuencia en todas las casillas, excepto por variaciones del azar. Adoptar el
modelo de no efectos, de forma sustantiva, significaría mantener que: a) las
variables X e Y son estadísticamente independientes; b) todas las categorías de
X son igualmente probables; y c) todas las categorías de Y son igualmente
probables.
Si X tiene tres categorías, por ejemplo, es
igualmente probable pertenecer a Xl que a X2 que a X3. Dicho de otra forma, una
tercera parte de los casos estará en X1, otra tercera parte en X2 y otra
tercera parte en X3. Si Y es dicotómica, la probabilidad de estar en Y1 será
igual a la probabilidad de Y2, es decir 1/2.
Ya que lo habitual en la
investigación suele ser hipotetizar que existe algún tipo de relación entre las
variables, no es frecuente adoptar el modelo de no efectos.
Modelos
de Efectos Principales
Los efectos principales se definen como alejamientos
de la media general. Pueden postularse efectos debidos a la variable fila (Y) o
a la variable columna (X). En este sentido, existen similitudes con los efectos
de tratamiento en el ANOVA. Y de la misma forma que en el ANOVA,
tanto la suma de los efectos de fila como la suma de los efectos de columna es
igual a cero.
a) Modelo de Efectos de fila
Este modelo incluye una serie de parámetros que
indican una cierta cantidad de alejamiento de la equiprobabilidad en la
variable fila. Los efectos de isla pueden ser interpretados como medida del
sesgo de los casos contenidos en las distintas categorías de la variable fila:
si es más probable pertenecer a Y 1 que a Y2, entonces la distribución de Y es
desigual, está sesgada: hay un efecto de fila. El modelo de efectos de fila se
simbolizaría: : Fij = μ'. μ'iy. , o
bien : Lij = μ + μiy.
El superíndice indica un efecto principal de esa
variable, en este caso de la variable fila Y. La presencia de un subíndice
indica que los efectos de fila son un conjunto de términos, uno para cada nivel
de la variable. Es decir, hay varios términos correspondientes a un efecto de
fila: desde i=1 hasta I. Así, μ + μiy serian los términos de la ecuación correspondientes a la primera
fila. Finalmente, obsérvese que el primer modelo es multiplicativo y el segundo
sumativo. Esto es debido a que el logaritmo de un producto es igual a la suma
de los logaritmos de los términos de ese producto. Es sencillo volver al estado
inicial: simplemente se hallan antilogaritmos; es decir, un modelo para Lij se
puede convertir en un modelo para las frecuencias esperadas (Fij) hallando la
inversa del logaritmo. En adelante nos centraremos en la forma aditiva, de la
cual deriva precisamente el nombre logarítmico lineal: los términos p están en
métrica logarítmica y en forma lineal Algunos autores (Knoke y Burke, 1982, por
ejemplo) prefieren desarrollar las ecuaciones de los modelos en su forma
multiplicativa, pero eso, aunque introduce diferencias simbólicas, no cambia el
significado básico ni la finalidad del proceso.
En términos sustantivos,
el modelo de efectos de fila postularía que: a) hay independencia estadística
entre X e Y; b) las categorías de la variable X son igualmente probables; y c)
las categorías de la variable Y no son igualmente probables.
b) Modelo de Efectos de Columna
De la misma forma, aplicando lo
dicho a la variable columna X, se obtiene el modelo de Efectos de columna, que
vendría representado por: Lij = μ+μjx.
Este modelo aseveraría que: a) hay independencia estadística entre X e Y; b)
las categorías de Y son igualmente probables; y c) las categorías de X no son
igualmente probables.
Modelo de Independencia
Este modelo contiene efectos
principales tanto de fila como de columna, además del parámetro de la media
general, pero no efectos de interacción, por tanto establece independencia
estadística entre X e Y y se simbolizaría: : Lij = μ+ μjy
+ μjx.
La suposición más importante del modelo es que X
e Y no
están asociadas. Eso significa que el parámetro que representaría esa relación
se iguala a cero y, por tanto, no se incluye en el modelo. La ausencia de
relación, sin embargo, no impide que haya efectos de columna y de fila. En
suma, el modelo asegura que: a) X e Y no están relacionadas; y b) ni las
categorías de X ni las de Y son equiprobables.
Volviendo a las analogías con
ANOVA, pueden interpretarse los términos de los modelos vistos hasta ahora
como: μ es una frecuencia constante en todas las casillas; μjy
es la contribución a la frecuencia de casilla debida al factor fila y μjx.
es la contribución a la frecuencia de casilla debida
al factor columna. En suma, la presencia de estos coeficientes en un modelo
tiene un significado claro: indicó no equiprobabilidad de las categorías. Pero
sus valores numéricos son algo difíciles de interpretar, ya que no tienen
límites superior e inferior. Simplemente, cuanto más se alejen de cero, en
ambas direcciones, mayor será el efecto.
Modelo
saturado
Se puede ampliar el modelo
anterior estableciendo una relación entre X e Y; esto supone añadir un efecto
de interacción: : Lij = μ+ μjy +
μjx+ μjjyx
El modelo obtenido se llama
saturado porque contiene tantos parámetros independientes como casillas hay en
la tabla. Dicho de otra forma, y como su nombre indica, no se pueden añadir más
parámetros a un modelo ya saturado. La media general y los efectos principales tienen el
significado que ya hemos visto anteriormente. A1 nuevo componente μjjyx,
que mide la asociación entre X e Y, se le llama interacción de primer orden o
también interacción de dos factores. Algunos autores la llaman de segundo
orden, quizá porque incluye dos variables. En realidad, la interacción mínima o
primaria que podemos encontrar es entre dos variables. Una sola variable puede
presentar sesgo, es decir, un efecto principal, pero no interacción. Por tanto,
denominamos de primer orden a la interacción mínima posible, es decir, entre
dos variables. Incluir esta interacción en un modelo significa hipotetizar la
no independencia estadística. En concreto, el modelo saturado en tablas de dos
variables X e Y mantiene que: a) existe relación entre X e Y; b) ni las
categorías de X ni las de Y son equiprobables.
El
modelo saturado siempre se ajusta los datos observados, en el sentido de que
las frecuencias esperadas bajo ese modelo siempre son iguales a las frecuencias
observadas. Esto no garantiza que siempre sea el modelo más adecuado, porque si
a nuestros datos subyace realmente la independencia entre X e Y, cualquier
parámetro de interacción que calculásemos siguiendo el modelo saturado, daría
siempre cero. Si hemos postulado un modelo saturado y al hacer los cálculos
encontramos que los parámetros de interacción dan cero, la conclusión obvia e
inmediata a extraer es que no resulta un buen modelo. De hecho, se acepta el
modelo saturado sólo si no se obtiene un buen ajuste con modelos más sencillos
o parsimoniosos. En el ANOVA, un modelo equivalente a nuestro modelo saturado
sería de tipo probabilístico, porque incluye un componente error. El modelo
logarítmico lineal saturado, en cambio, no contiene término error, es determinístico.
Por eso se ajusta totalmente a
las frecuencias observadas.
A estas alturas, el investigador podría preguntarse
si se podría formular un modelo que contenga interacciones de dos factores pero
no efectos de fila o de columna. En realidad sí, pero sus matemáticas son mucho
más complejas. Por tanto, los modelos permisibles están limitados por el principio
jerárquico. Este principio puede ser
enunciado de diversas formas, significando todas lo mismo. Reynolds (1977:66)
lo define en base a los símbolos contenidos en el modelo: ` `Si un término p de
un modelo contiene (en su `exponente') un conjunto de letras representando
diferentes variables, entonces el modelo también debe contener los términos p
correspondientes a todos los subconjuntos de esas letras." Baker (1981:84)
lo define de forma práctica: "un modelo dado implica que todos los
submodelos legítimos fueron ajustados antes que el modelo de interés".
Brown (1976:39) destaca sus propiedades para simplificar la notación de los
modelos: ` `Los modelos jerárquicos pueden especificarse simplemente por las
interacciones de más alto orden, cuya presencia implica la de los efectos
restantes. Este conjunto [de efectos] será el conjunto definitorio mínimo para
el modelo".
Es decir, para una tabla de dos variables, el modelo
pl presupone la inclusión de μy y μx , ya que
las letras X e Y son subconjuntos de XY. Dicho de otra forma, si no está μy
en el modelo, tampoco estará μyx
. En una tabla de 3 variables, el "conjunto definitorio mínimo" para
el modelo saturado sería μijk . Bien, pues a los
modelos que siguen este principio se les denomina jerárquicos y a los que no lo
siguen, no jerárquicos. El método logarítmico lineal puede ser aplicado a
también a los modelos no jerárquicos, lo que requiere de un reajuste de los
procedimientos. De todas formas, la modalidad jerárquica es más utilizada que
la no jerárquica. En suma, "algunos métodos de estimación logarítmico
lineales no permiten al investigador incluir interacciones de un cierto orden
mientras omita los términos de orden inferior que están anidados en él"
(Knoke y Burke, 1982:20). Es cierto que hay ocasiones en que es preciso
trabajar con modelos no jerárquicos, pero en este trabajo nos limitaremos a los
que cumplen dicho principio.
Modelos
para tablas de tres variables
Consideremos una tabla IxJxK. A1
igual que en el caso anterior se podría considerar un modelo de no efectos, o
un modelo de efectos de una sola de las variables (bien sea X, Y o Z). Otros
modelos posibles serían los siguientes:
Modelo
de Independencia Mutua
Este modelo sólo contiene
efectos principales y, claro, la media general. Es decir: Lijk =
μ+ μjy + μjx+ μkz
, siendo Lijk el logaritmo de la frecuencia esperada Fijk
en la casilla ijk de la tabla. El modelo asegura la independencia mutua entre
las tres variables. Eso significa que no hay relación entre ninguna de todas
las posibles combinaciones de dos variables de la tabla (XY,XZ,YZ), aunque sí
efectos principales debidos a cada una de las tres variables.
Modelos
con una Interacción de dos Factores
Este modelo, además de la media general y los
efectos principales, presentaría una interacción de primer orden (o de dos
factores), bien sea XY, YZ o XZ. P. ej.: Lijk = μ+ μjy
+ μjx+ μkz+ μjjyx
. Este modelo asegura, entre otras cosas, que: a) existe relación entre X
e Y; b) esta relación no depende de Z (es la misma en cualquiera de las
categorías de Z); c) ni X ni Y se relacionan por su parte con Z. Además,
asegura que ninguna de las variables tiene categorías equiprobables: están
presentes todos los efectos principales, ya que el modelo es jerárquico.
Modelos con dos Interacciones de dos Factores
El modelo anterior se puede ampliar hasta establecer
dos interacciones de dos variables, simplemente añadiendo el término
correspondiente. Por ejemplo: Lijk = μ+ μjy
+ μjx+ μkz+ μjjyx+
μjkxz
Este modelo afirma que: a) ninguna de las variables
tiene categorías equiprobables; b) existe relación entre X e Y; c) existe
relación entre X y Z; d) no existe relación directa entre Y y Z, pero ya que
ambas están relacionadas con X, guardan entre sí una relación indirecta o
espúrea.
Este último punto tiene connotaciones importantes.
Analizando sólo Y y Z podríamos encontrar que están asociadas, pero esta
asociación se debería a X. Suponiendo que no hayan más variables importantes
desconocidas, y por decirlo en términos "causales", un cambio en X
produciría un cambio en Y y en Z, dando la impresión de que estas dos últimas
variables covarían. Sólo será evidente la independencia entre Y y Z cuando se
tome en cuenta explícitamente a X. Por ello se dice que este modelo asegura la
independencia condicional entre Y y Z. Dicho de otra forma: controlando X se
elimina la relación. También se podría expresar como: Y y Z son
condicionalmente independientes.
Naturalmente, se podría haber incluido en el modelo
a μikyz, en lugar de μjkxz. Se pueden elaborar diferentes versiones del modelo
de una interacción de dos factores o del modelo de dos interacciones de dos
factores, dependiendo de cuáles se incluyan y cuáles no.
Modelo
con todas las Interacciones de dos Factores
Se trata, sencillamente,
de añadir la interacción que el modelo anterior dejó fuera:
Lijk
= μ+ μjy + μjx+
μkz+ μjjyx+ μjkxz
+ μikyz
La aseveración fundamental del modelo es que: a)
cada variable está relacionada con cada una de las otras. Controlar cualquiera
de las variables no esconde ni altera las relaciones entre las otras. Además,
el hecho de que, bien se controle X, Y o Z, las relaciones se sigan manteniendo
igual, implica que no hay interacción de 3 factores.
Modelo
Saturado
Cuando se incluye la interacción
de tres factores, o de segundo orden, se llega al modelo saturado, donde el
número de parámetros independientes coincide con el número de casillas de la
tabla y se representa:
Lijk = μ+ μjy +
μjx+ μkz+ μjjyx+
μjkxz + μikyz+ μijkxyz
El modelo afirma, como novedad adicional a los
anteriores, que: a) todas las variables están relacionadas entre sí. Dicho de
otro modo, la presencia de una interacción de tres
factores indica que cualquiera
de las asociaciones entre dos variables cambia de acuerdo con los cambios en
los niveles de la tercera variable. Por ejemplo, para una categoría de Z, la
relación entre X e Y es fuerte; y para la otra categoría de Z, esa misma
asociación es débil.
Generalización
de los modelos básicos a tablas multivariadas
Aunque ya
con tres variables una tabla se puede considerar multivariada, preferimos, por
razones de claridad en la presentación, distinguir primero el caso multivariado
más sencillo. Los elementos básicos (independencia mutua o condicional,
equiprobabilidad, interacción) se pueden aplicar a tablas de más de 3
variables. La inclusión de nuevos índices, simplemente aumenta la variedad de
modelos.
El significado del modelo puede extraerse de un
análisis de los parámetros p que incluye o excluye. Por ejemplo, un modelo para
una tabla IxJxKxL como el siguiente:
Lijk = μ+ μjy +
μjx+ μkz+ μlw
+μjjyx+ μjkxz + μikyz+
μijkxyz
reflejaría que: a) las variables X, Y y Z están
relacionadas unas con otras (de dos en dos); b) además, esas tres están
relacionadas entre sí (es decir, que cualquiera de las relaciones entre dos de
esas variables depende de los niveles de la tercera); c) ninguna variable tiene
categorías equiprobables; d) la variable W no se relaciona con ninguna otra.
Como se observa, el modelo sigue el principio
jerárquico: si se incluye un término cualquiera, también se incluyen los
"subtérminos" contenidos en él. En este modelo no se ha incluido la
interacción de 4 factores (lo que hubiera dado lugar al modelo saturado). De
incluirse, hubiera significado que el esquema de relaciones entre las tres
variables dependería de los niveles de una cuarta variable.
Hasta ahora hemos usado una notación o simbolización
que podríamos calificar de exhaustiva, representando los modelos mediante la
especificación de todos sus efectos, con el fin de aclarar el significado mismo
de los modelos. Pero normalmente los modelos logarítmico lineales se expresan
mediante una notación simplificada o estandarizada, que tiene las siguientes características:
‑ Se prescinde de la media general,
entendiendo que siempre está presente.
‑ Se representan los efectos principales de
una variable cualquiera por la inicial del nombre de esa variable.
‑ Se representan los efectos de interacción de
primer orden con las dos iniciales correspondientes.
‑ Se prescinde de especificar un efecto
principal cuando la inicial correspondiente está incluida en una interacción de
primer orden. Esto nos lo permite el principio jerárquico. Sí sería preciso, en
cambio, para aquellas variables que no figuren en ningún efecto de interacción.
‑ Por la misma razón, se prescinde de
especificar un efecto de primer orden (de dos factores) cuando las dos
iniciales correspondientes están ya incluidas en una interacción de segundo orden
(de tres factores).
‑ Generalizando: no es preciso especificar los
efectos de menor orden cuando están contenidos en un efecto de orden superior.
‑ Si se habla de variables
"abstractas" las iniciales de los nombres se sustituyen por letras
arbitrarias (A,B,C,...; X,Y,Z,...).
Las ventajas son considerables.
Por ejemplo, en el caso de una tabla de 4 variables (Y, X, Z, W) IxJxKxL el
modelo con todos los efectos principales se representaría: Y,X,Z,W. Un modelo
con dos interacciones de primer orden se representaría: W,YX,XZ. Un modelo con
una interacción de segundo orden se representaría: W,YXZ. Y el modelo saturado
se representaría: YXZW. Igualmente, pueden encontrarse modelos representados
por números, correspondiendo cada número a una variable. Por ejemplo, el modelo
12,13,23 sería el modelo con todas las interacciones de primer orden en una
tabla de 3 variables. También es habitual encontrar en la notación
estandarizada el uso de paréntesis o corchetes o llaves. Por ejemplo, el modelo
de todas las interacciones de dos variables en el caso de 4 variables, puede
encontrarse como YX, YZ, YW, XZ, XW, ZW, como (YX, YZ, YW, XZ, XW, ZW) o como
[YX] [YZ] [YWl [XZ] [XWI [ZW].
El
ajuste de modelos
Un vez determinado el modelo, se
procede a su ajuste, es decir, a comparar las frecuencias esperadas bajo ese
modelo con las frecuencias empíricas obtenidas en la investigación.
En algunos modelos existen fórmulas explícitas para
la estimación de las frecuencias esperadas. Por ejemplo, en una tabla bivariada
los estimadores bajo el modelo de independencia se calcularían mediante:
Fij =( fi+ f+j )/N, donde fi+
y f+j son los totales marginales de Y y X.
En general, en una tabla
bivariada se pueden estimar de esta forma las frecuencias esperadas para todos
los modelos, excepto el saturado. Para tablas mayores no existen estimadores
directos para la mayoría de los modelos y en su lugar el cálculo se realiza
mediante el ajuste proporcional iterativo (Bishop et al, 1975; Haber y Brown, 1986).
Una vez determinadas las
frecuencias esperadas, se procede al ajuste del modelo, bien con la prueba ji2 o
bien con G2. Esta última tiene la ventaja de poder ser dividida en diversos
componentes para probar subhipótesis dentro de un modelo más amplio
(Shaffer,1973a,1973b; Halperin, Nehrke, Hulicka y Morganti,1976;
Fienberg,1977). No obstante, ambos estadísticos normalmente tienen casi el
mismo valor numérico y se llega generalmente a las mismas conclusiones.
Como en la prueba ji2 típica, pequeños
valores de la medida indican un satisfactorio ajuste, mientras que valores
grandes sugieren la inadecuación del modelo. Se puede usar la tabla de la
distribución ji2 para encontrar la probabilidad de obtener un valor
de ji2 tan grande como el
observado o más grande que el observado bajo la hipótesis de que el modelo es
cierto. Para ello, se determinan los grados de libertad restando al número de
casillas el número de parámetros independientes incluidos en el modelo.
Ya que ambas pruebas sólo se aproximan a una
distribución ji2, el investigador debe estar seguro que la aproximación es
razonablemente buena. El método "funciona" con muestras al azar
suficientemente grandes con ninguno o alguno de los marginales fijados. Qué se
entiende por "suficientemente grandes" es difícil de precisar. Una
regla empírica es que si N (el tamaño de la muestra) dividido por el número de
casillas de la tabla es mayor que cinco, la prueba sería exacta. Pero, como
cualquier generalización, ésta podría tener excepciones, especialmente si las
observaciones se amontonan en unas pocas casillas, lo cual daría lugar a otro
problema (frecuencias esperadas muy pequeñas) que también afecta a la validez
del uso de ambos estadísticos.
Veamos (Tabla 1) un ejemplo de análisis a partir de
la siguiente tabla de contingencia tridimensional (datos ficticios):
Tabla
I: Carrera(C) x Sexo(S) x Período de tiempo(T)
Z:1960‑70
X: sexo
Y:carrera |
Hombres |
Mujeres |
Totales |
Ciencias Humanidades Técnicas Totales |
69 85 105 259 |
12 113 36 161 |
81 198 141 420 |
Z:1971‑80
X: sexo
Y:carrera |
Hombres |
Mujeres |
Totales |
Ciencias Humanidades Técnicas Totales |
124 68 136 328 |
34 116 98 248 |
158 184 234 576 |
Los modelos se representarán mediante la notación
abreviada. Así, las iniciales de las variables implicadas son S: sexo, C:
carrera y T: período de tiempo. Hemos realizado el ajuste de todos los posibles
modelos mediante el programa 417 de BMDP (Brown, 1983). Los resultados, se
reflejan en la Tabla 2.
Tabla 2: Resultados del ajuste de todos los modelos
logarítmico lineales posibles para la Tabla 1
MODELO GL G2 PROB. ji2 PROB.
ITER |
S. 10 215,42 0,0000 196,38 0,0000 1 T. 10 222,87 0,0000 188,96 0,0000 1 C. 9 205,99 0,0000 192,62 0,0000 1 S,T. 9 190,89 0,0000 177,39 0,0000 1 T,C. 8 181,45 0,0000 167,46 0,0000 1 C,S. 8 174,00 0,0000 164,75 0,0000 1 S,T,C. 7 149,47 0,0000 140,56 0,0000 1 ST. 8 188,64 0,0000 180,33 0,0000 1 SC. 6 62,60 0,0000 60,80 0,0000 1 TC. 6 156,91 0,0000 147,80 0,0000 1 S,TC. 5 124,93 0,0000 119,81 0,0000 1 T,SC. 5 38,06 0,0000 37,28 0,0000 1 C,ST. 6 147,23 0,0000 143,93 0,0000 1 ST,SC. 4 35,82 0,0000 35,35 0,0000 1 SC,TC. 3 13,52 0,0036 13,21 0,0042 1 TC,ST. 4 122,69 0,0000 118,14 0,0000 1 * ST,SC,TC. 2 2,49 0,2885 2,47 0,2907 6 STC 0 0,00 0,0000 0,00 0,0000 0 |
Como se ve, el único modelo satisfactorio es el de 3
interacciones de dos factores (ST,SC,TC) ya que el investigador normalmente,
aunque no siempre, desea encontrar el modelo más parsimonioso, es decir, el que
tenga los menos parámetros posibles pero que presente un buen ajuste. Este
modelo sugiere que hay relaciones mutuas entre las tres variables, pero que
ninguna de las relaciones entre dos de ellas se ve afectada por la tercera. Es
decir, no hay interacción de las tres variables. También se habrá observado
cómo los grados de libertad van disminuyendo a medida que el modelo aumenta de
tamaño, hasta llegar al modelo saturado, que no tiene gl. Naturalmente, esto
deriva de la fórmula para determinar los gl y establece otra analogía con
ANOVA,en el cual los gl se van descomponiendo exactamente de la misma forma.
Quizá en este punto convenga hacer unas aclaraciones
sobre un tema que puede plantear dudas, sobre todo por las continuas analogías
que, a título clarificador, venimos estableciendo entre este análisis y el
ANOVA. Posiblemente el lector estará familiarizado con algunos programas de
ordenador para análisis de varianza, de una vía o factorial. Aun sin poseer
conocimientos sobre los entresijos matemáticos de esa técnica, puede interpretar
lo sustancial de un listado basándose en unas cuantas indicaciones prácticas.
En ANOVA, un efecto principal o un efecto de interacción es significativo
cuando F lleva asociada una probabilidad igual o menor al nivel alfa elegido.
Si elige un nivel del 1 %, la probabilidad del efecto debe ser menor o igual a
0,01 para ser considerado significativo. Igualmente, si elige el 5%, dicha
probabilidad debe ser menor o igual a 0,05. No sólo el ANOVA, sino muchos otros
análisis pueden ser interpretados de la misma forma a partir de un listado de
ordenador, aun sin poseer muchos conocimientos sobre la estadística subyacente.
Por eso, es probable que alguien se sorprenda al ver que consideramos como
"mejor modelo" en la Tabla 2 al modelo de 3 interacciones de dos
factores, cuyo ajuste lleva asociada una probabilidad de 0,2885, en tanto que
se rechazan los otros modelos, que llevan asociada una probabilidad inferior a
0,01. Vamos a aclararlo.
Medidas residuales y medidas
componentes
El procedimiento de análisis logarítmico lineal
consiste en una comparación de diferencias: diferencias entre las frecuencias
observadas y las esperadas bajo cierto modelo; es decir, se intenta ajustar ambas
frecuencias y comprobar la "calidad" de ese ajuste. La medida de
calidad del ajuste es, por tanto, una medida residual. Si los "residuos" que quedan al intentar ajustar
son demasiado grandes (valores grandes de ji2de G, es que las diferencias entre los datos observados y
los esperados son tan grandes que no hay manera de que ambas cosas puedan
considerarse iguales (ajustables), ni aún por errores del azar. Es decir, el
ajuste sería forzado, de "mala calidad", el modelo no se ajusta a
nuestros datos, por tanto, es un mal modelo, luego, lo rechazamos. El hecho de
que valores grandes de ji2
o G2 vayan asociados a probabilidades muy pequeñas
(inferiores a 0,05 o a 0,01) indica que lo que es "significativo" es
el "residuo", es decir, el desajuste del modelo con nuestros datos.
Por el contrario, valores pequeños de ambas pruebas van asociados con
probabilidades muy altas. Se podría concluir, en estos caso'!, que el residuo
es muy pequeño: nuestros datos se parecen mucho a lo que se espera bajo el
modelo y, por consiguiente, el desajuste no es significativo, de forma que
aceptamos el modelo. Ayuda a aclararlo mejor la distinción entre los conceptos
de ji2 (o G2)residual y ji2 (o G2) componente (Baker, 1981). Además, estas dos nociones permiten
explorar más a fondo los resultados de un análisis logarítmico lineal,
extrayendo información adicional acerca de los datos. La medida de calidad del
ajuste que se obtiene en los listados, es una medida residual, bien sea ji2 o bien
G2. Imaginemos
un modelo Ml, para el cual hemos hallado su ji2 residual,
al que llamamos rl. Supongamos otro modelo M2 que contiene todos los términos
de M1 más uno o varios términos adicionales. También calculamos su ji2 residual
correspondiente y lo llamamos r2. Pues bien, a la diferencia r1 ‑r2 se le
llama ji2 componente.
Esta medida componente se debe (se adscribe, se corresponde)
exclusivamente a los nuevos términos añadidos a M2, y es un índice de en qué
medida esos nuevos términos colaboran o contribuyen a la calidad del ajuste de
M2. Es decir, se resta el residual del modelo que no tenga una determinada
interacción AB pero sí las otras, del residual del modelo que las tiene todas.
Eso nos da la medida componente de ese término AB que falta en el modelo más
completo. Cuanto mayor sea la medida componente de un determinado efecto menor
será su residual. Y a mayor componente, mayor importancia de ese efecto en el
ajuste del modelo.
En síntesis, la calidad del ajuste de un modelo se
determina mediante su residual, mientras que la importancia en dicho ajuste de
un término cualquiera (bien sea un efecto principal o un efecto de interacción
de cualquier orden) se determina mediante su componente. Y este índice se
obtiene restando el valor residual de un modelo que no contenga ese término del
residual de un modelo mayor que sí lo contenga. Naturalmente, puede haber más
de un modelo que contenga el término de interés, pero sólo se pueden utilizar
para hacer el cálculo aquellos modelos que sólo se diferencien precisamente
en dicho término. Analizaremos
según estos principios los datos de la Tabla 2 donde encontramos como mejor
modelo el (ST,SC,TC). Los resultados serían:
G2 componente de ST = 13,52 ‑ 2,49 = 11,03 con 1
gl
G2 componente de SC = 122,69 ‑ 2,49 = 120,2 con
2 gl
G2 componente de TC = 35,82 ‑ 2,49 = 33,33 con 2
gl
El término del modelo que más
contribuye a la calidad de su ajuste es la relación entre Sexo y Carrera, le
sigue la relación entre Período de Tiempo y Carrera y, finalmente, con la menor
contribución, la relación entre Período de Tiempo y Sexo. Con estos resultados
no es de extrañar que, del resto de los posibles modelos para estos datos
(ninguno de los cuales ajustaba bien), presenten un menor residual aquellos qué
contienen la relación SC (residuales del orden de 13,52 en el modelo SC,TC o de
38,06 en el modelo T,SC). Los que contienen, en cambio, la relación ST muestran
residuales muy grandes (por ejemplo: 147,23 en el modelo C,ST; 122,69 en el
modelo TC,ST). Hay un modelo que tiene a ST y muestra un residual relativamente
pequeño (35,82), pero es el modelo ST,SC, es decir, lo que ayuda a disminuir
ese residual es la presencia del término SC, que es el más intenso.
En términos sustantivos, todo
esto quiere decir que la relación que muestran las variables sexo y carrera
(que indica que los dos sexos no figuran por igual en las diversas carreras) es más importante, más
considerable que la que se da entre período de tiempo y carrera (que indica que
a lo largo del tiempo, el esquema de elección de carrera ha variado), y ésta, a
su vez, es más considerable que la que existe entre sexo y período de tiempo
(que indicaría que en los dos períodos analizados, se ha modificado la cantidad
de personas de uno y otro sexo que estudian carreras universitarias).
Naturalmente, la teoría nos ayudaría a buscar más explicaciones y hacer
interpretaciones más finas de los resultados. Recordemos que estos datos eran
ficticios, y no vale la pena redundar aquí en más intentos de explicación. Era
sólo un ejemplo de qué tipo de conclusiones pueden sacarse a partir de un
ajuste.
Se habrá observado que para los cálculos anteriores
elegimos G2 y no
ji2. En realidad se puede hacer con cualquiera de los dos, pero
haberlo hecho con G2 permite obtener datos adicionales. Como mencionábamos
más atrás, es preferible el uso de G2, aunque es menos conocido que ji2, entre
otras cosas por la posibilidad de partición de este estadístico para probar
subhipótesis específicas. Es decir, además de indicar la contribución del
término al modelo, se pueden probar adicionalmente subhipótesis referidas sólo
a un término cualquiera, sabiendo que el valor G2 componente sigue una distribución ji2
con grados de libertad iguales a la diferencia entre los grados de libertad de
los modelos restados para aislar dicho componente. Por eso, en los cálculos
anteriores, junto al valor de la diferencia poníamos los grados de libertad.
Pues bien, para 2 g.l. y un alfa de 0,005 la distribución ji2
presenta un valor tabular de 10,597. Con el mismo alfa y 1 g.l. el valor
tabular es de 7,879. Las tres interacciones, pues, resultan significativas,
aunque la interacción ST está cercana al límite de la no significatividad.
No debe confundirse la significatividad de una
interacción cualquiera con la significatividad del ajuste de un modelo
representado por esa interacción. Es decir, la prueba de la interacción SC es
una cosa, ajustar el modelo [SC] es otra. La prueba de la interacción SC se
refiere sólo a esa interacción y nada más (por eso sus grados de libertad son
(2‑1)(3‑1)=2. El modelo [SC] se refiere a todo un conjunto de
efectos, principales y de interacción, contenidos en él por el principio
jerárquico, y sus grados de libertad son muy diferentes (6). Ya se vio en la
tabla que el modelo SC no se ajustaba para nada a los datos. Es decir, aunque
la interacción SC sea significativa, no es suficiente como modelo para explicar
los datos.
A partir de todo lo anterior, son evidentes las
ventajas del análisis logarítmico lineal con respecto al enfoque clásico, bajo
el cual sólo podían comprobarse hipótesis de independencia entre las variables
de una tabla de contingencia bidimensional. Esta técnica, en cambio, aumenta la
cantidad de información que se puede extraer de los datos. Cada modelo ofrece
información sobre la estructura que se hipotetiza subyace a los datos. El
ajuste de los datos al modelo puede ser determinado mediante los índices
residuales. Los índices componentes, por su parte, nos informan con respecto a
la contribución de los diversos términos del modelo a la calidad de su ajuste,
indicando esto, en definitiva, una mayor o menor importancia de unos términos
con respecto a los otros.
Existen muchos otros aspectos que, por razones de
espacio no podemos tratar aquí
y que dejaremos para próximos trabajos: cálculo de
parámetros y errores típicos, análisis de casillas extremas, influencia de la
combinación de categorías en el ajuste de modelos, categorización de datos
continuos, etc., etc. Todos estos aspectos permiten al investigador analizar
más exhaustivamente sus datos y obtener una imagen detallada de la estructura
que subyace a una tabla de contingencia multidimensional.
Referencias
BAKER, F. B. (1981). Log‑linear, logit‑linear
models: A didactic. Journal of
Educational Statistics, 6(1) 75‑102.
BENEDETTI, J.K. & BROWN, M.B. (1978a). Altemate
Methods of building log‑linear models. Proceedings of the 9th international biometric conference 2, 209‑227.
BENEDETTI, J.K. Y BROWN, M.B. (1978b). Strategies for die selection of log‑linear
models. Biometrics, 34, 680‑686.
BIRCH, M.W. (1963). Maximum likelyhood in three way
contingency tables. J. Royal Statistical
Soc. 25, B, 220‑233.
BISHOP, Y.M., FIENBERG, S.E. & HOLLAND, P.W. (1975). DiscreteMultivariateAnalysis: Theory and
Practice. Cambridge, Massachussetts: MIT Press.
BROWN, M.B. (1975). The asymptotic standard errors of some
estimates of uncertainty in the two‑way contingency table. Psychometrika,
40(3), 291‑296.
BROWN,
M.B. (1976). Screening effects in multidimensional contingency tables. Journal of Applied
Statistics, 25, 37‑46.
BROWN, M.B. (1983) P4F. Two‑way and Multi‑way
Frequency Tables ‑ Measures of Association and the Log‑Linear Model
(Complete and Incomplete .Tables). En
W.J. DIXON (Ed.) BMDP Statistical
Software, (143‑206). California: University of California Press.
FIEMBERG, S.E. (1977). The analysis of cross‑classified
categorical data.. Cambridge, Massachusetts: MTT Press.
GOODMAN, L.A.(1968). The analysis of cross‑classified
data. J. Amer. Stafst. Assoc. 63, 1091‑1131.
GOODMAN, L.A. (1970). The multivariate analysis of
qualitative data: interactions among multiple classifications. Journal American
Statistical 65, 226‑256.
GOODMAN, L.A. (1971). The analysis of multidimensional
contingency tables: stepwise procedures and direct estimations methods for
building models for multiple classifications. Technometrics, 13 (1), 33‑61.
GOODMAN,
L.A. (1972a). A modified multiple regression approach to the analysis of
dichotomous variables. American Sociology Review, 37, 28‑46.
GOODMAN, L.A. (1972b). A general model for the analysis of
surveys. American
Journal of Sociology, 77, 1035‑1086.
GOODMAN, L.A. (1973). The analysis of multidimensional
contingency tables when some variables are posterior to others: a modified path
analysis approach. Biometrika,
60, 178192.
GOODMAN, L.A. (1979). Simple models for the analysis of
association in cross classifications having ordered categories. J. Amer. Stat. Assoc., 74, 537‑552.
GOODMAN, L.A. (1984) The Analysis of Cross‑Classified Data Having Ordered
Categories. New York: Harvard University Press.
HABER, M. & BROWN, M.B. (1986). Maximum likelihood
methods for log‑linear models when expected frequencies are subject to
linear constraints. Journal
of the American Statistical Association, 81 (394),
477‑482.
HABERMAN, S.J. (1974). The analysis of frequency
data.. Chicago: Univ. Chicago Press.
HABERMAN, S.J. (1978). Analysis of qualitative data (Volt,). New
York: Academic Press:
HABERMAN, S.J. (1979). Analysis of qualitative data (Vol 11). New
York: Academic Press:
HALPERIN, S.; NEHRKE, M.; HULICKA, I. & MORGANTI, J.
(1976). Partitioning chisquare the analysis of contingency tables with
repeated measurements. Experimental
Aging Research, 2 (2) 105‑118.
KNOKE,
D. & BURKE, P.J. (1982). Log‑Linear
Models. Beverly Hills, California: Sage Pubns.
KOTZE, T.J. (1982). The log‑linear model and its
applications to multi‑way contingency tables. En D.M. HAWKINS (Ed.)
Topics in
applied multivariate analysis, (142‑182).
Cambridge: Cambridge Univ. Press.
REYNOLDS,
H.T. (1977). Analysis
of nominal data. Beverly Hills, California: Sage Pubns.
SHAFFER, J.P. (1973a). Defining and testing hypotheses in
multidimensional contingency tables. Psychological
Bulletin, 79, 127‑141.
SHAFFER, J.P. (1973b). Testing especific hypotheses in
contingency tables: Chi‑square partitioning and other methods. Psychological Reports, 33 (2)
343‑348.
UPTON,
G. (1978). The
analysis of cross‑tabulated data. New York:
Wiley.