Estudios multivariados con datos nominales: aportaciones del análisis logarítmico lineal

 

    Ana Delia Correa Piñero

 

Resumen

 

En este artículo se presentan las fases generales del análisis logarítmico lineal, un procedimiento de análisis multivariado para variables cualitativas o categoriales organizadas en tablas de contingencia multidimensionales. Se describen las ecuaciones de los diversos modelos y el proceso de ajuste, distinguiendo entre índices residuales y componentes para valorar la importancia de los efectos principales y de interacción en el ajuste del modelo. Adicionalmente, se destaca la propiedad de partición de la prueba GZ para comprobar subhipótesis de interacción específicas. Ilustramos con algunos cálculos los procedimientos de análisis.

 

Palabras clave: Tablas de contingencia multidimensionales, Ajuste de modelos logarítmico lineales.

 

 

Abstract

 

This paper describes the general phases of log‑linear analysis, a multivariate technic for discrete data of multidimensional contingency tables. Equations of various models, as well as fitting process are described. Residual and component index are used to estimating the weight of main effects and interactions on model goodness‑of‑fit. Likewise, the capability of Gz lo be partitioned and to test especific interaction subhypotheses is emphasized. Illustrative data analysis is presented.

 

Keywords: Multidimensional Contingency Tables, Log‑linear Models Fit.

 

 

 

 

* ANA DELIA CORREA PIÑERO. Es profesora de Metodología de la Investigación Educativa en la Universidad de La Laguna. Trabaja en métodos y técnicas de investigación educativa y en programas estadísticos computarizados.


Introducción

Las variables denominadas de bajo nivel de medición (nominales) vienen siendo objeto últimamente de desarrollos estadísticos multivariados de un nivel de complejidad y sofisticación comparable al de la estadística multivariada para variables continuas. Entre otros muchos, se encuentra el denominado Análisis Logarítmico Lineal, un procedimiento de análisis para variables categoriales organizadas en tablas de contingencia multidimensionales. Esta técnica tiene especial interés para la investigación educativa, ya que con frecuencia, bien sea por la carencia de instrumentos de medida más precisos o bien por la propia naturaleza de los constructos estudiados, nuestras investigaciones incluyen variables de este tipo, también conocidas como variables cualitativas.

Sin embargo, la abundancia de literatura estadística sobre estos nuevos procedimientos no se refleja, por el momento, en un conocimiento extendido de los mismos por parte de los investigadores ni, por tanto, en su aplicación en las investigaciones. Aunque hoy sean más conocidos que hace unos años, en la mayoría de los casos las variables de tipo nominal continúan siendo objeto de limitados análisis bivariados aún cuando las peculiaridades del problema de investigación requieran de procedimientos más complejos. Parecer ser que se necesita cierto tiempo para que esta técnica multivariada, al igual que otras muchas, forme parte de la formación metodológica habitual de los licenciados en Ciencias de la Educación y que ello se refleje en su actividad investigadora. Además de tiempo, creemos que sería una buena contribución el incremento y difusión de literatura de tipo "intermedio" que ejerza de puente entre creadores (estadísticos) y usuarios (investigadores). Con esta tarea de divulgación no se pretende vulgarizar la técnica, sino hacerla asequible a los no especialistas, que pueden desalentarse ante la ocasional dureza del lenguaje estadístico usado en la literatura especializada.

Este artículo tiene ese propósito divulgador. Se dirige al lector/lectora que ya conozca los procedimientos de construcción y análisis de tablas de contingencia bidimensionales (índices de asociación bivariada, pruebas de independencia, índices de asociación parcial, etc.). Estos procedimientos son válidos y útiles cuando se analizan sólo dos variables o, todo lo más, se controla una tercera. No lo son, en cambio, para analizar las interacciones complejas que pueden subyacer en tablas de contingencia multidimensionales, donde se manejan tres o más variables nominales simultáneamente. Presentaremos, pues, una descripción general del procedimiento, acompañada de ejemplos que faciliten su comprensión.

 

Objetivos y fases generales del análisis logarítmico lineal

 

Se atribuye a Birch (1963) el origen indirecto de los modelos logarítmico lineales, a raíz de un trabajo sobre problemas de asociación entre tres variables categoriales. Desde entonces, este procedimiento ha venido siendo desarrollado y/o difundido por una serie de autores, como Baker (1981), Benedetti y Brown (1978a; 1978b), Bishop, Fienberg y Rolland (1975), Brown (1975; 1976), Fienberg (1977), Goodrnan (1968;

 

1970; 1971; 1972a; 1972b; 1973; 1979; 1984), Haberman (1974; 1978; 1979), Knoke y Burke (1982), Kotze (1982) y Upton (1978), entre otros.

El objetivo es obtener un modelo que se ajuste a las frecuencias observadas de una tabla de contingencia multidimensional, describiendo adecuadamente las relaciones entre los factores (o índices o variables) de la tabla. Estas relaciones pueden ordenarse por su importancia, es decir, por su contribución al ajuste del modelo, y se pueden determinar sus parámetros y comprobar su significación.

A diferencia de la mayoría de los métodos, en este procedimiento la unidad de análisis no son las puntuaciones individuales, sino conjuntos de sujetos. Estos conjuntos vienen definidos por determinadas características o combinaciones de las categorías de las variables implicadas. Tampoco lo que se entiende aquí por variable dependiente es lo usual, ya que no es una variable sino una probabilidad de casilla: la probabilidad de que un individuo seleccionado al azar pertenezca a determinadas categorías de interés. Es decir, la probabilidad de que tenga una determinada combinación de características (Knoke y Burke, 1982). Por ejemplo, en una tabla IxJxK, Pijk  es la probabilidad de que un sujeto pertenezca a la categoría i de la primera variable, a la categoría j de la segunda y a la categoría k de la tercera. Este conjunto de probabilidades, o alguna función derivada, es lo que sirve como variable dependiente.

   La finalidad del análisis es la de obtener un modelo o ecuación que explique las variaciones en las    probabilidades de las casillas, postulando una serie de relaciones e interacciones entre las variables.

El proceso de encontrar un modelo satisfactorio se lleve siguientes etapas:

1) Proponer un modelo para explicar los datos observados. El modelo hipotetiza una serie de relaciones entre las variables. Por ejemplo, si se piensa que las variables son mutuamente independientes, el modelo no debe contener elementos de interacción. Normalmente, el investigador se apoya en un sustrato teórico previo para proponer su modelo o hipótesis, aunque hay procedimientos más inductivos para ello, sumamente útiles en estudios exploratorios, por ejemplo las pruebas de asociación parcial, marginal, simultáneas, etc. (Brown, 1976).

2) A partir de la suposición de que el modelo propuesto es cierto, se deriva un conjunto de expectativas sobre cómo tendrían que ser los datos para que se ajustasen a dicho modelo. Siguiendo con el ejemplo de independencia mutua, se procedería a estimar cómo tendría que ser una muestra de tamaño dado si perteneciera a una población donde las variables fuesen mutuamente independientes.

3) A continuación se comparan las expectativas derivadas del modelo con los datos observados en la muestra y se decide si el modelo es o no aceptable. En nuestro ejemplo, si la muestra perteneciera realmente a una población donde las variables analizadas son independientes, cualquier posible discrepancia entre los datos observados y las expectativas tendría que deberse al azar. Esto supone someter a prueba nuestro modelo y esa comprobación se realiza en base a algún estadístico, como ji2 o la razón de verosimilitud de ji2), (G)2 que comparan las frecuencias esperadas según el modelo, o frecuencias teóricas, y las observadas en la muestra, o frecuencias empíricas.

4) Si las discrepancias son pequeñas, se mantiene el modelo y se da el siguiente paso. De lo contrario, habría que volver al paso 1 y proponer otro modelo. Naturalmente, ello podría llevarnos a un replanteamiento de nuestra teoría, o del procedimiento, o de los instrumentos utilizados para obtener los datos.

5) Finalmente, y como en otros procedimientos de construcción de modelos, se estimarían los parámetros del modelo aceptado, sus errores típicos, intervalos de confianza, etc. Estos parámetros pueden ser traducidos a términos sustantivos y servir de base para proceder a explicaciones y hacer predicciones.

Detallaremos este proceso a medida que presentemos los diversos modelos rítmico lineales, organizando esta presentación en base al tamaño de la tabla.

 

Modelos para tablas bivariadas

 

En una tabla bidimensional, se propone un modelo para Pij: probabilidad de estar en la fila i y la columna j de la tabla. En lugar de probabilidades, también se puede trabajar con las frecuencias esperadas de esa casilla (Fij) o con su logaritmo (Lij). Formular un modelo para probabilidades, para frecuencias esperadas o para logaritmos de esas frecuencias es sólo una cuestión de conveniencia, ya que un modelo para uno de estos elementos puede ser fácilmente traducido a un modelo para cualquiera de los otros.

Las frecuencias esperadas o sus logaritmos se representan como una función de una serie de parámetros. De la misma forma que en ANOVA, hay parámetros de efectos principales y de interacción. Estos efectos nos proporcionan dos tipos de información, básicamente. En primer lugar, su presencia o ausencia del modelo nos indica la estructura de los datos. Un efecto de interacción entre X e Y, por ejemplo, nos indica una relación entre esas dos variables. En segundo lugar, se pueden estimar los valores numéricos de los efectos (parámetros), lo que nos indicará la intensidad de las relaciones entre las variables.

 

    Modelo de No Efectos

 

El modelo más sencillo para una tabla IxJ (de dos variables X e Y) es el que sostiene que todas las probabilidades de casilla (o las frecuencias esperadas, o sus logaritmos) son iguales a una constante, es decir, que no hay efectos de ningún tipo. El modelo de no efectos se representaría simbólicamente como: Fij = μ',

o bien : Lij = μ.

El parámetro p representa la media aritmética de los logaritmos de todas las casillas. Es análogo a la media general del ANOVA o al término de ordenada en el origen de la ecuación de regresión, e indica que las frecuencias de cada una de las casillas de la tabla en la población son iguales a una constante. Una muestra extraída de esa población tendría la misma frecuencia en todas las casillas, excepto por variaciones del azar. Adoptar el modelo de no efectos, de forma sustantiva, significaría mantener que: a) las variables X e Y son estadísticamente independientes; b) todas las categorías de X son igualmente probables; y c) todas las categorías de Y son igualmente probables.

Si X tiene tres categorías, por ejemplo, es igualmente probable pertenecer a Xl que a X2 que a X3. Dicho de otra forma, una tercera parte de los casos estará en X1, otra tercera parte en X2 y otra tercera parte en X3. Si Y es dicotómica, la probabilidad de estar en Y1 será igual a la probabilidad de Y2, es decir 1/2.

Ya que lo habitual en la investigación suele ser hipotetizar que existe algún tipo de relación entre las variables, no es frecuente adoptar el modelo de no efectos.

 

Modelos de Efectos Principales

 

Los efectos principales se definen como alejamientos de la media general. Pueden postularse efectos debidos a la variable fila (Y) o a la variable columna (X). En este sentido, existen similitudes con los efectos de tratamiento en el ANOVA. Y de la misma forma que en el ANOVA, tanto la suma de los efectos de fila como la suma de los efectos de columna es igual a cero.

a) Modelo de Efectos de fila

Este modelo incluye una serie de parámetros que indican una cierta cantidad de alejamiento de la equiprobabilidad en la variable fila. Los efectos de isla pueden ser interpretados como medida del sesgo de los casos contenidos en las distintas categorías de la variable fila: si es más probable pertenecer a Y 1 que a Y2, entonces la distribución de Y es desigual, está sesgada: hay un efecto de fila. El modelo de efectos de fila se simbolizaría: : Fij = μ'. μ'iy. , o bien : Lij = μ + μiy.

El superíndice indica un efecto principal de esa variable, en este caso de la variable fila Y. La presencia de un subíndice indica que los efectos de fila son un conjunto de términos, uno para cada nivel de la variable. Es decir, hay varios términos correspondientes a un efecto de fila: desde i=1 hasta I. Así, μ + μiy   serian los términos de la ecuación correspondientes a la primera fila. Finalmente, obsérvese que el primer modelo es multiplicativo y el segundo sumativo. Esto es debido a que el logaritmo de un producto es igual a la suma de los logaritmos de los términos de ese producto. Es sencillo volver al estado inicial: simplemente se hallan antilogaritmos; es decir, un modelo para Lij se puede convertir en un modelo para las frecuencias esperadas (Fij) hallando la inversa del logaritmo. En adelante nos centraremos en la forma aditiva, de la cual deriva precisamente el nombre logarítmico lineal: los términos p están en métrica logarítmica y en forma lineal Algunos autores (Knoke y Burke, 1982, por ejemplo) prefieren desarrollar las ecuaciones de los modelos en su forma multiplicativa, pero eso, aunque introduce diferencias simbólicas, no cambia el significado básico ni la finalidad del proceso.       

En términos sustantivos, el modelo de efectos de fila postularía que: a) hay independencia estadística entre X e Y; b) las categorías de la variable X son igualmente probables; y c) las categorías de la variable Y no son igualmente probables.

 

 

b) Modelo de Efectos de Columna

De la misma forma, aplicando lo dicho a la variable columna X, se obtiene el modelo de Efectos de columna, que vendría representado por: Lij = μ+μjx. Este modelo aseveraría que: a) hay independencia estadística entre X e Y; b) las categorías de Y son igualmente probables; y c) las categorías de X no son igualmente probables.

 

Modelo de Independencia

 

Este modelo contiene efectos principales tanto de fila como de columna, además del parámetro de la media general, pero no efectos de interacción, por tanto establece independencia estadística entre X e Y y se simbolizaría: : Lij = μ+ μjy + μjx.

La suposición más importante del modelo es que X e  Y no están asociadas. Eso significa que el parámetro que representaría esa relación se iguala a cero y, por tanto, no se incluye en el modelo. La ausencia de relación, sin embargo, no impide que haya efectos de columna y de fila. En suma, el modelo asegura que: a) X e Y no están relacionadas; y b) ni las categorías de X ni las de Y son equiprobables.

Volviendo a las analogías con ANOVA, pueden interpretarse los términos de los modelos vistos hasta ahora como: μ es una frecuencia constante en todas las casillas; μjy es la contribución a la frecuencia de casilla debida al factor fila y μjx.  es la contribución a la frecuencia de casilla debida al factor columna. En suma, la presencia de estos coeficientes en un modelo tiene un significado claro: indicó no equiprobabilidad de las categorías. Pero sus valores numéricos son algo difíciles de interpretar, ya que no tienen límites superior e inferior. Simplemente, cuanto más se alejen de cero, en ambas direcciones, mayor será el efecto.

 

Modelo saturado

 

Se puede ampliar el modelo anterior estableciendo una relación entre X e Y; esto supone añadir un efecto de interacción: : Lij = μ+ μjy + μjx+ μjjyx

El modelo obtenido se llama saturado porque contiene tantos parámetros independientes como casillas hay en la tabla. Dicho de otra forma, y como su nombre indica, no se pueden añadir más parámetros a un modelo ya saturado. La media general y los efectos principales tienen el significado que ya hemos visto anteriormente. A1 nuevo componente μjjyx, que mide la asociación entre X e Y, se le llama interacción de primer orden o también interacción de dos factores. Algunos autores la llaman de segundo orden, quizá porque incluye dos variables. En realidad, la interacción mínima o primaria que podemos encontrar es entre dos variables. Una sola variable puede presentar sesgo, es decir, un efecto principal, pero no interacción. Por tanto, denominamos de primer orden a la interacción mínima posible, es decir, entre dos variables. Incluir esta interacción en un modelo significa hipotetizar la no independencia estadística. En concreto, el modelo saturado en tablas de dos variables X e Y mantiene que: a) existe relación entre X e Y; b) ni las categorías de X ni las de Y son equiprobables.

El modelo saturado siempre se ajusta los datos observados, en el sentido de que las frecuencias esperadas bajo ese modelo siempre son iguales a las frecuencias observadas. Esto no garantiza que siempre sea el modelo más adecuado, porque si a nuestros datos subyace realmente la independencia entre X e Y, cualquier parámetro de interacción que calculásemos siguiendo el modelo saturado, daría siempre cero. Si hemos postulado un modelo saturado y al hacer los cálculos encontramos que los parámetros de interacción dan cero, la conclusión obvia e inmediata a extraer es que no resulta un buen modelo. De hecho, se acepta el modelo saturado sólo si no se obtiene un buen ajuste con modelos más sencillos o parsimoniosos. En el ANOVA, un modelo equivalente a nuestro modelo saturado sería de tipo probabilístico, porque incluye un componente error. El modelo logarítmico lineal saturado, en cambio, no contiene término error, es determinístico. Por eso se ajusta totalmente a las frecuencias observadas.

A estas alturas, el investigador podría preguntarse si se podría formular un modelo que contenga interacciones de dos factores pero no efectos de fila o de columna. En realidad sí, pero sus matemáticas son mucho más complejas. Por tanto, los modelos permisibles están limitados por el principio jerárquico. Este principio puede ser enunciado de diversas formas, significando todas lo mismo. Reynolds (1977:66) lo define en base a los símbolos contenidos en el modelo: ` `Si un término p de un modelo contiene (en su `exponente') un conjunto de letras representando diferentes variables, entonces el modelo también debe contener los términos p correspondientes a todos los subconjuntos de esas letras." Baker (1981:84) lo define de forma práctica: "un modelo dado implica que todos los submodelos legítimos fueron ajustados antes que el modelo de interés". Brown (1976:39) destaca sus propiedades para simplificar la notación de los modelos: ` `Los modelos jerárquicos pueden especificarse simplemente por las interacciones de más alto orden, cuya presencia implica la de los efectos restantes. Este conjunto [de efectos] será el conjunto definitorio mínimo para el modelo".

Es decir, para una tabla de dos variables, el modelo pl presupone la inclusión de μy y μx , ya que las letras X e Y son subconjuntos de XY. Dicho de otra forma, si no está μy  en el modelo, tampoco estará μyx . En una tabla de 3 variables, el "conjunto definitorio mínimo" para el modelo saturado sería μijk . Bien, pues a los modelos que siguen este principio se les denomina jerárquicos y a los que no lo siguen, no jerárquicos. El método logarítmico lineal puede ser aplicado a también a los modelos no jerárquicos, lo que requiere de un reajuste de los procedimientos. De todas formas, la modalidad jerárquica es más utilizada que la no jerárquica. En suma, "algunos métodos de estimación logarítmico lineales no permiten al investigador incluir interacciones de un cierto orden mientras omita los términos de orden inferior que están anidados en él" (Knoke y Burke, 1982:20). Es cierto que hay ocasiones en que es preciso trabajar con modelos no jerárquicos, pero en este trabajo nos limitaremos a los que cumplen dicho principio.

 

Modelos para tablas de tres variables

 

Consideremos una tabla IxJxK. A1 igual que en el caso anterior se podría considerar un modelo de no efectos, o un modelo de efectos de una sola de las variables (bien sea X, Y o Z). Otros modelos posibles serían los siguientes:

 

Modelo de Independencia Mutua

 

Este modelo sólo contiene efectos principales y, claro, la media general. Es decir: Lijk = μ+ μjy + μjx+ μkz , siendo Lijk el logaritmo de la frecuencia esperada Fijk en la casilla ijk de la tabla. El modelo asegura la independencia mutua entre las tres variables. Eso significa que no hay relación entre ninguna de todas las posibles combinaciones de dos variables de la tabla (XY,XZ,YZ), aunque sí efectos principales debidos a cada una de las tres variables.

 

Modelos con una Interacción de dos Factores

 

Este modelo, además de la media general y los efectos principales, presentaría una interacción de primer orden (o de dos factores), bien sea XY, YZ o XZ. P. ej.: Lijk = μ+ μjy + μjx+ μkz+ μjjyx . Este modelo asegura, entre otras cosas, que: a) existe relación entre X e Y; b) esta relación no depende de Z (es la misma en cualquiera de las categorías de Z); c) ni X ni Y se relacionan por su parte con Z. Además, asegura que ninguna de las variables tiene categorías equiprobables: están presentes todos los efectos principales, ya que el modelo es jerárquico.

 

 

 

 

   Modelos con dos Interacciones de dos Factores

 

El modelo anterior se puede ampliar hasta establecer dos interacciones de dos variables, simplemente añadiendo el término correspondiente. Por ejemplo: Lijk = μ+ μjy + μjx+ μkz+ μjjyx+ μjkxz

Este modelo afirma que: a) ninguna de las variables tiene categorías equiprobables; b) existe relación entre X e Y; c) existe relación entre X y Z; d) no existe relación directa entre Y y Z, pero ya que ambas están relacionadas con X, guardan entre sí una relación indirecta o espúrea.

Este último punto tiene connotaciones importantes. Analizando sólo Y y Z podríamos encontrar que están asociadas, pero esta asociación se debería a X. Suponiendo que no hayan más variables importantes desconocidas, y por decirlo en términos "causales", un cambio en X produciría un cambio en Y y en Z, dando la impresión de que estas dos últimas variables covarían. Sólo será evidente la independencia entre Y y Z cuando se tome en cuenta explícitamente a X. Por ello se dice que este modelo asegura la independencia condicional entre Y y Z. Dicho de otra forma: controlando X se elimina la relación. También se podría expresar como: Y y Z son condicionalmente independientes.

Naturalmente, se podría haber incluido en el modelo a μikyz, en lugar de μjkxz. Se pueden elaborar diferentes versiones del modelo de una interacción de dos factores o del modelo de dos interacciones de dos factores, dependiendo de cuáles se incluyan y cuáles no.

 

Modelo con todas las Interacciones de dos Factores

 

Se trata, sencillamente, de añadir la interacción que el modelo anterior dejó fuera:

 Lijk = μ+ μjy + μjx+ μkz+ μjjyx+ μjkxz + μikyz

La aseveración fundamental del modelo es que: a) cada variable está relacionada con cada una de las otras. Controlar cualquiera de las variables no esconde ni altera las relaciones entre las otras. Además, el hecho de que, bien se controle X, Y o Z, las relaciones se sigan manteniendo igual, implica que no hay interacción de 3 factores.

 

Modelo Saturado

Cuando se incluye la interacción de tres factores, o de segundo orden, se llega al modelo saturado, donde el número de parámetros independientes coincide con el número de casillas de la tabla y se representa:

Lijk = μ+ μjy + μjx+ μkz+ μjjyx+ μjkxz + μikyz+ μijkxyz

El modelo afirma, como novedad adicional a los anteriores, que: a) todas las variables están relacionadas entre sí. Dicho de otro modo, la presencia de una interacción de tres

factores indica que cualquiera de las asociaciones entre dos variables cambia de acuerdo con los cambios en los niveles de la tercera variable. Por ejemplo, para una categoría de Z, la relación entre X e Y es fuerte; y para la otra categoría de Z, esa misma asociación es débil.

 

Generalización de los modelos básicos a tablas multivariadas

 

Aunque ya con tres variables una tabla se puede considerar multivariada, preferimos, por razones de claridad en la presentación, distinguir primero el caso multivariado más sencillo. Los elementos básicos (independencia mutua o condicional, equiprobabilidad, interacción) se pueden aplicar a tablas de más de 3 variables. La inclusión de nuevos índices, simplemente aumenta la variedad de modelos.

El significado del modelo puede extraerse de un análisis de los parámetros p que incluye o excluye. Por ejemplo, un modelo para una tabla IxJxKxL como el siguiente:

Lijk = μ+ μjy + μjx+ μkz+ μlwjjyx+ μjkxz + μikyz+ μijkxyz

 

reflejaría que: a) las variables X, Y y Z están relacionadas unas con otras (de dos en dos); b) además, esas tres están relacionadas entre sí (es decir, que cualquiera de las relaciones entre dos de esas variables depende de los niveles de la tercera); c) ninguna variable tiene categorías equiprobables; d) la variable W no se relaciona con ninguna otra.

Como se observa, el modelo sigue el principio jerárquico: si se incluye un término cualquiera, también se incluyen los "subtérminos" contenidos en él. En este modelo no se ha incluido la interacción de 4 factores (lo que hubiera dado lugar al modelo saturado). De incluirse, hubiera significado que el esquema de relaciones entre las tres variables dependería de los niveles de una cuarta variable.

Hasta ahora hemos usado una notación o simbolización que podríamos calificar de exhaustiva, representando los modelos mediante la especificación de todos sus efectos, con el fin de aclarar el significado mismo de los modelos. Pero normalmente los modelos logarítmico lineales se expresan mediante una notación simplificada o estandarizada, que tiene las siguientes características:

‑ Se prescinde de la media general, entendiendo que siempre está presente.

‑ Se representan los efectos principales de una variable cualquiera por la inicial del nombre de esa variable.

‑ Se representan los efectos de interacción de primer orden con las dos iniciales correspondientes.

‑ Se prescinde de especificar un efecto principal cuando la inicial correspondiente está incluida en una interacción de primer orden. Esto nos lo permite el principio jerárquico. Sí sería preciso, en cambio, para aquellas variables que no figuren en ningún efecto de interacción.

‑ Por la misma razón, se prescinde de especificar un efecto de primer orden (de dos factores) cuando las dos iniciales correspondientes están ya incluidas en una interacción de segundo orden (de tres factores).

‑ Generalizando: no es preciso especificar los efectos de menor orden cuando están contenidos en un efecto de orden superior.

‑ Si se habla de variables "abstractas" las iniciales de los nombres se sustituyen por letras arbitrarias (A,B,C,...; X,Y,Z,...).

Las ventajas son considerables. Por ejemplo, en el caso de una tabla de 4 variables (Y, X, Z, W) IxJxKxL el modelo con todos los efectos principales se representaría: Y,X,Z,W. Un modelo con dos interacciones de primer orden se representaría: W,YX,XZ. Un modelo con una interacción de segundo orden se representaría: W,YXZ. Y el modelo saturado se representaría: YXZW. Igualmente, pueden encontrarse modelos representados por números, correspondiendo cada número a una variable. Por ejemplo, el modelo 12,13,23 sería el modelo con todas las interacciones de primer orden en una tabla de 3 variables. También es habitual encontrar en la notación estandarizada el uso de paréntesis o corchetes o llaves. Por ejemplo, el modelo de todas las interacciones de dos variables en el caso de 4 variables, puede encontrarse como YX, YZ, YW, XZ, XW, ZW, como (YX, YZ, YW, XZ, XW, ZW) o como [YX] [YZ] [YWl [XZ] [XWI [ZW].

 

El ajuste de modelos

 

Un vez determinado el modelo, se procede a su ajuste, es decir, a comparar las frecuencias esperadas bajo ese modelo con las frecuencias empíricas obtenidas en la investigación.

En algunos modelos existen fórmulas explícitas para la estimación de las frecuencias esperadas. Por ejemplo, en una tabla bivariada los estimadores bajo el modelo de independencia se calcularían mediante:

 Fij =(  fi+ f+j )/N, donde fi+ y f+j son los totales marginales de Y y X.

En general, en una tabla bivariada se pueden estimar de esta forma las frecuencias esperadas para todos los modelos, excepto el saturado. Para tablas mayores no existen estimadores directos para la mayoría de los modelos y en su lugar el cálculo se realiza mediante el ajuste proporcional iterativo (Bishop et al, 1975; Haber y Brown, 1986).

Una vez determinadas las frecuencias esperadas, se procede al ajuste del modelo, bien con la prueba ji2 o bien con G2. Esta última tiene la ventaja de poder ser dividida en diversos componentes para probar subhipótesis dentro de un modelo más amplio (Shaffer,1973a,1973b; Halperin, Nehrke, Hulicka y Morganti,1976; Fienberg,1977). No obstante, ambos estadísticos normalmente tienen casi el mismo valor numérico y se llega generalmente a las mismas conclusiones.

Como en la prueba ji2 típica, pequeños valores de la medida indican un satisfactorio ajuste, mientras que valores grandes sugieren la inadecuación del modelo. Se puede usar la tabla de la distribución ji2 para encontrar la probabilidad de obtener un valor de ji2  tan grande como el observado o más grande que el observado bajo la hipótesis de que el modelo es cierto. Para ello, se determinan los grados de libertad restando al número de casillas el número de parámetros independientes incluidos en el modelo.

Ya que ambas pruebas sólo se aproximan a una distribución ji2, el investigador debe estar seguro que la aproximación es razonablemente buena. El método "funciona" con muestras al azar suficientemente grandes con ninguno o alguno de los marginales fijados. Qué se entiende por "suficientemente grandes" es difícil de precisar. Una regla empírica es que si N (el tamaño de la muestra) dividido por el número de casillas de la tabla es mayor que cinco, la prueba sería exacta. Pero, como cualquier generalización, ésta podría tener excepciones, especialmente si las observaciones se amontonan en unas pocas casillas, lo cual daría lugar a otro problema (frecuencias esperadas muy pequeñas) que también afecta a la validez del uso de ambos estadísticos.

Veamos (Tabla 1) un ejemplo de análisis a partir de la siguiente tabla de contingencia tridimensional (datos ficticios):

 

                                            Tabla I: Carrera(C) x Sexo(S) x Período de tiempo(T)

 

Z:1960‑70

X: sexo

 

Y:carrera

Hombres

Mujeres

Totales

Ciencias

Humanidades

Técnicas

Totales

69

85

105

259

 

12

113

36

161

81

198

141

420

 

Z:1971‑80

X: sexo

Y:carrera

Hombres

Mujeres

Totales

 

Ciencias

Humanidades

Técnicas

Totales

124

68

136

328

34

116

98

248

158

184

234

576

 

         

Los modelos se representarán mediante la notación abreviada. Así, las iniciales de las variables implicadas son S: sexo, C: carrera y T: período de tiempo. Hemos realizado el ajuste de todos los posibles modelos mediante el programa 417 de BMDP (Brown, 1983). Los resultados, se reflejan en la Tabla 2.

 

 

Tabla 2: Resultados del ajuste de todos los modelos logarítmico lineales posibles para la Tabla 1

 

 

       MODELO                GL        G2               PROB.      ji2            PROB.     ITER

 

   S.              10  215,42   0,0000  196,38   0,0000    1   

   T.              10  222,87   0,0000  188,96   0,0000    1

   C.                9  205,99   0,0000  192,62   0,0000    1   

   S,T.             9  190,89   0,0000  177,39   0,0000    1

   T,C.             8  181,45   0,0000  167,46   0,0000    1   

   C,S.             8  174,00   0,0000  164,75   0,0000    1

   S,T,C.          7  149,47   0,0000  140,56   0,0000    1   

   ST.              8  188,64   0,0000  180,33   0,0000    1

   SC.              6    62,60   0,0000    60,80   0,0000    1   

   TC.              6  156,91   0,0000  147,80   0,0000    1

   S,TC.           5  124,93   0,0000  119,81   0,0000    1

   T,SC.           5    38,06   0,0000    37,28   0,0000    1

   C,ST.           6  147,23   0,0000  143,93   0,0000    1

   ST,SC.         4    35,82   0,0000    35,35   0,0000    1

   SC,TC.         3    13,52   0,0036    13,21   0,0042    1

   TC,ST.         4  122,69   0,0000  118,14   0,0000    1

* ST,SC,TC.      2      2,49  0,2885       2,47   0,2907   6

   STC             0     0,00   0,0000     0,00   0,0000    0

 

 

Como se ve, el único modelo satisfactorio es el de 3 interacciones de dos factores (ST,SC,TC) ya que el investigador normalmente, aunque no siempre, desea encontrar el modelo más parsimonioso, es decir, el que tenga los menos parámetros posibles pero que presente un buen ajuste. Este modelo sugiere que hay relaciones mutuas entre las tres variables, pero que ninguna de las relaciones entre dos de ellas se ve afectada por la tercera. Es decir, no hay interacción de las tres variables. También se habrá observado cómo los grados de libertad van disminuyendo a medida que el modelo aumenta de tamaño, hasta llegar al modelo saturado, que no tiene gl. Naturalmente, esto deriva de la fórmula para determinar los gl y establece otra analogía con ANOVA,en el cual los gl se van descomponiendo exactamente de la misma forma.

Quizá en este punto convenga hacer unas aclaraciones sobre un tema que puede plantear dudas, sobre todo por las continuas analogías que, a título clarificador, venimos estableciendo entre este análisis y el ANOVA. Posiblemente el lector estará familiarizado con algunos programas de ordenador para análisis de varianza, de una vía o factorial. Aun sin poseer conocimientos sobre los entresijos matemáticos de esa técnica, puede interpretar lo sustancial de un listado basándose en unas cuantas indicaciones prácticas. En ANOVA, un efecto principal o un efecto de interacción es significativo cuando F lleva asociada una probabilidad igual o menor al nivel alfa elegido. Si elige un nivel del 1 %, la probabilidad del efecto debe ser menor o igual a 0,01 para ser considerado significativo. Igualmente, si elige el 5%, dicha probabilidad debe ser menor o igual a 0,05. No sólo el ANOVA, sino muchos otros análisis pueden ser interpretados de la misma forma a partir de un listado de ordenador, aun sin poseer muchos conocimientos sobre la estadística subyacente. Por eso, es probable que alguien se sorprenda al ver que consideramos como "mejor modelo" en la Tabla 2 al modelo de 3 interacciones de dos factores, cuyo ajuste lleva asociada una probabilidad de 0,2885, en tanto que se rechazan los otros modelos, que llevan asociada una probabilidad inferior a 0,01. Vamos a aclararlo.

 

Medidas residuales y medidas componentes

 

El procedimiento de análisis logarítmico lineal consiste en una comparación de diferencias: diferencias entre las frecuencias observadas y las esperadas bajo cierto modelo; es decir, se intenta ajustar ambas frecuencias y comprobar la "calidad" de ese ajuste. La medida de calidad del ajuste es, por tanto, una medida residual. Si los "residuos" que quedan al intentar ajustar son demasiado grandes (valores grandes de ji2de G, es que las diferencias entre los datos observados y los esperados son tan grandes que no hay manera de que ambas cosas puedan considerarse iguales (ajustables), ni aún por errores del azar. Es decir, el ajuste sería forzado, de "mala calidad", el modelo no se ajusta a nuestros datos, por tanto, es un mal modelo, luego, lo rechazamos. El hecho de que valores grandes de ji2 o G2 vayan asociados a probabilidades muy pequeñas (inferiores a 0,05 o a 0,01) indica que lo que es "significativo" es el "residuo", es decir, el desajuste del modelo con nuestros datos. Por el contrario, valores pequeños de ambas pruebas van asociados con probabilidades muy altas. Se podría concluir, en estos caso'!, que el residuo es muy pequeño: nuestros datos se parecen mucho a lo que se espera bajo el modelo y, por consiguiente, el desajuste no es significativo, de forma que aceptamos el modelo. Ayuda a aclararlo mejor la distinción entre los conceptos de ji2 (o G2)residual y ji2 (o G2) componente (Baker, 1981). Además, estas dos nociones permiten explorar más a fondo los resultados de un análisis logarítmico lineal, extrayendo información adicional acerca de los datos. La medida de calidad del ajuste que se obtiene en los listados, es una medida residual, bien sea ji2 o bien G2. Imaginemos un modelo Ml, para el cual hemos hallado su ji2 residual, al que llamamos rl. Supongamos otro modelo M2 que contiene todos los términos de M1 más uno o varios términos adicionales. También calculamos su ji2 residual correspondiente y lo llamamos r2. Pues bien, a la diferencia r1 ‑r2 se le llama ji2 componente. Esta medida componente se debe (se adscribe, se corresponde) exclusivamente a los nuevos términos añadidos a M2, y es un índice de en qué medida esos nuevos términos colaboran o contribuyen a la calidad del ajuste de M2. Es decir, se resta el residual del modelo que no tenga una determinada interacción AB pero sí las otras, del residual del modelo que las tiene todas. Eso nos da la medida componente de ese término AB que falta en el modelo más completo. Cuanto mayor sea la medida componente de un determinado efecto menor será su residual. Y a mayor componente, mayor importancia de ese efecto en el ajuste del modelo.

En síntesis, la calidad del ajuste de un modelo se determina mediante su residual, mientras que la importancia en dicho ajuste de un término cualquiera (bien sea un efecto principal o un efecto de interacción de cualquier orden) se determina mediante su componente. Y este índice se obtiene restando el valor residual de un modelo que no contenga ese término del residual de un modelo mayor que sí lo contenga. Naturalmente, puede haber más de un modelo que contenga el término de interés, pero sólo se pueden utilizar para hacer el cálculo aquellos modelos que sólo se diferencien precisamente en dicho término. Analizaremos según estos principios los datos de la Tabla 2 donde encontramos como mejor modelo el (ST,SC,TC). Los resultados serían:

 

G2 componente de ST = 13,52 ‑ 2,49 = 11,03 con 1 gl

G2 componente de SC = 122,69 ‑ 2,49 = 120,2 con 2 gl

G2 componente de TC = 35,82 ‑ 2,49 = 33,33 con 2 gl

 

El término del modelo que más contribuye a la calidad de su ajuste es la relación entre Sexo y Carrera, le sigue la relación entre Período de Tiempo y Carrera y, finalmente, con la menor contribución, la relación entre Período de Tiempo y Sexo. Con estos resultados no es de extrañar que, del resto de los posibles modelos para estos datos (ninguno de los cuales ajustaba bien), presenten un menor residual aquellos qué contienen la relación SC (residuales del orden de 13,52 en el modelo SC,TC o de 38,06 en el modelo T,SC). Los que contienen, en cambio, la relación ST muestran residuales muy grandes (por ejemplo: 147,23 en el modelo C,ST; 122,69 en el modelo TC,ST). Hay un modelo que tiene a ST y muestra un residual relativamente pequeño (35,82), pero es el modelo ST,SC, es decir, lo que ayuda a disminuir ese residual es la presencia del término SC, que es el más intenso.

En términos sustantivos, todo esto quiere decir que la relación que muestran las variables sexo y carrera (que indica que los dos sexos no figuran por igual en las diversas carreras) es más importante, más considerable que la que se da entre período de tiempo y carrera (que indica que a lo largo del tiempo, el esquema de elección de carrera ha variado), y ésta, a su vez, es más considerable que la que existe entre sexo y período de tiempo (que indicaría que en los dos períodos analizados, se ha modificado la cantidad de personas de uno y otro sexo que estudian carreras universitarias). Naturalmente, la teoría nos ayudaría a buscar más explicaciones y hacer interpretaciones más finas de los resultados. Recordemos que estos datos eran ficticios, y no vale la pena redundar aquí en más intentos de explicación. Era sólo un ejemplo de qué tipo de conclusiones pueden sacarse a partir de un ajuste.

Se habrá observado que para los cálculos anteriores elegimos G2 y no ji2. En realidad se puede hacer con cualquiera de los dos, pero haberlo hecho con G2 permite obtener datos adicionales. Como mencionábamos más atrás, es preferible el uso de G2, aunque es menos conocido que ji2, entre otras cosas por la posibilidad de partición de este estadístico para probar subhipótesis específicas. Es decir, además de indicar la contribución del término al modelo, se pueden probar adicionalmente subhipótesis referidas sólo a un término cualquiera, sabiendo que el valor G2 componente sigue una distribución ji2 con grados de libertad iguales a la diferencia entre los grados de libertad de los modelos restados para aislar dicho componente. Por eso, en los cálculos anteriores, junto al valor de la diferencia poníamos los grados de libertad. Pues bien, para 2 g.l. y un alfa de 0,005 la distribución ji2 presenta un valor tabular de 10,597. Con el mismo alfa y 1 g.l. el valor tabular es de 7,879. Las tres interacciones, pues, resultan significativas, aunque la interacción ST está cercana al límite de la no significatividad.

No debe confundirse la significatividad de una interacción cualquiera con la significatividad del ajuste de un modelo representado por esa interacción. Es decir, la prueba de la interacción SC es una cosa, ajustar el modelo [SC] es otra. La prueba de la interacción SC se refiere sólo a esa interacción y nada más (por eso sus grados de libertad son (2‑1)(3‑1)=2. El modelo [SC] se refiere a todo un conjunto de efectos, principales y de interacción, contenidos en él por el principio jerárquico, y sus grados de libertad son muy diferentes (6). Ya se vio en la tabla que el modelo SC no se ajustaba para nada a los datos. Es decir, aunque la interacción SC sea significativa, no es suficiente como modelo para explicar los datos.

A partir de todo lo anterior, son evidentes las ventajas del análisis logarítmico lineal con respecto al enfoque clásico, bajo el cual sólo podían comprobarse hipótesis de independencia entre las variables de una tabla de contingencia bidimensional. Esta técnica, en cambio, aumenta la cantidad de información que se puede extraer de los datos. Cada modelo ofrece información sobre la estructura que se hipotetiza subyace a los datos. El ajuste de los datos al modelo puede ser determinado mediante los índices residuales. Los índices componentes, por su parte, nos informan con respecto a la contribución de los diversos términos del modelo a la calidad de su ajuste, indicando esto, en definitiva, una mayor o menor importancia de unos términos con respecto a los otros.

Existen muchos otros aspectos que, por razones de espacio no podemos tratar aquí

y que dejaremos para próximos trabajos: cálculo de parámetros y errores típicos, análisis de casillas extremas, influencia de la combinación de categorías en el ajuste de modelos, categorización de datos continuos, etc., etc. Todos estos aspectos permiten al investigador analizar más exhaustivamente sus datos y obtener una imagen detallada de la estructura que subyace a una tabla de contingencia multidimensional.

 

Referencias

 

BAKER, F. B. (1981). Log‑linear, logit‑linear models: A didactic. Journal of Educational Statistics, 6(1) 75‑102.

BENEDETTI, J.K. & BROWN, M.B. (1978a). Altemate Methods of building log‑linear models. Proceedings of the 9th international biometric conference 2, 209‑227.

BENEDETTI, J.K. Y BROWN, M.B. (1978b). Strategies for die selection of log‑linear models. Biometrics, 34, 680‑686.

BIRCH, M.W. (1963). Maximum likelyhood in three way contingency tables. J. Royal Statistical Soc. 25, B, 220‑233.

BISHOP, Y.M., FIENBERG, S.E. & HOLLAND, P.W. (1975). DiscreteMultivariateAnalysis: Theory and Practice. Cambridge, Massachussetts: MIT Press.

BROWN, M.B. (1975). The asymptotic standard errors of some estimates of uncertainty in the two‑way contingency table. Psychometrika, 40(3), 291‑296.

BROWN, M.B. (1976). Screening effects in multidimensional contingency tables. Journal of Applied Statistics, 25, 37‑46.

BROWN, M.B. (1983) P4F. Two‑way and Multi‑way Frequency Tables ‑ Measures of Association and the Log‑Linear Model (Complete and Incomplete .Tables). En W.J. DIXON (Ed.) BMDP Statistical Software, (143‑206). California: University of California Press.

FIEMBERG, S.E. (1977). The analysis of cross‑classified categorical data.. Cambridge, Massachusetts: MTT Press.

GOODMAN, L.A.(1968). The analysis of cross‑classified data. J. Amer. Stafst. Assoc. 63, 1091‑1131.

GOODMAN, L.A. (1970). The multivariate analysis of qualitative data: interactions among multiple classifications. Journal American Statistical 65, 226‑256.

GOODMAN, L.A. (1971). The analysis of multidimensional contingency tables: stepwise procedures and direct estimations methods for building models for multiple classifications. Technometrics, 13 (1), 33‑61.

 

GOODMAN, L.A. (1972a). A modified multiple regression approach to the analysis of dichotomous variables. American Sociology Review, 37, 28‑46.

GOODMAN, L.A. (1972b). A general model for the analysis of surveys. American Journal of Sociology, 77, 1035‑1086.

GOODMAN, L.A. (1973). The analysis of multidimensional contingency tables when some variables are posterior to others: a modified path analysis approach. Biometrika, 60, 178­192.

GOODMAN, L.A. (1979). Simple models for the analysis of association in cross classifications having ordered categories. J. Amer. Stat. Assoc., 74, 537‑552.

GOODMAN, L.A. (1984) The Analysis of Cross‑Classified Data Having Ordered Categories. New York: Harvard University Press.

HABER, M. & BROWN, M.B. (1986). Maximum likelihood methods for log‑linear models when expected frequencies are subject to linear constraints. Journal of the American Statistical Association, 81 (394), 477‑482.

HABERMAN, S.J. (1974). The analysis of frequency data.. Chicago: Univ. Chicago Press.

HABERMAN, S.J. (1978). Analysis of qualitative data (Volt,). New York: Academic Press:

HABERMAN, S.J. (1979). Analysis of qualitative data (Vol 11). New York: Academic Press:

HALPERIN, S.; NEHRKE, M.; HULICKA, I. & MORGANTI, J. (1976). Partitioning chi­square the analysis of contingency tables with repeated measurements. Experimental Aging Research, 2 (2) 105‑118.

KNOKE, D. & BURKE, P.J. (1982). Log‑Linear Models. Beverly Hills, California: Sage Pubns.

KOTZE, T.J. (1982). The log‑linear model and its applications to multi‑way contingency tables. En D.M. HAWKINS (Ed.) Topics in applied multivariate analysis, (142‑182). Cambridge: Cambridge Univ. Press.

REYNOLDS, H.T. (1977). Analysis of nominal data. Beverly Hills, California: Sage Pubns.

SHAFFER, J.P. (1973a). Defining and testing hypotheses in multidimensional contingency tables. Psychological Bulletin, 79, 127‑141.

SHAFFER, J.P. (1973b). Testing especific hypotheses in contingency tables: Chi‑square partitioning and other methods. Psychological Reports, 33 (2) 343‑348.

UPTON, G. (1978). The analysis of cross‑tabulated data. New York: Wiley.