Monografias | Pruebas de independencia y homogeneidad

Pruebas de independencia y homogeneidad

Resumen: Dada la necesidad de bibliografía para la asignatura Informática Medica II se concibió este Material de Apoyo a la Docencia cuyo contenido forma parte del programa analítico de la asignatura. En el mismo se expone el sumario siguiente: Relación entre variables. Tablas de contingencia. Pruebas no paramétricas de independencia y homogeneidad. Estadígrafo chi-cuadrado.

Publicación enviada por Dra. Nelsa María Sagaró del Campo y Dra. Meydis María Macías Navarro


 

Resumen

Dada la necesidad de bibliografía para la asignatura Informática Medica II se concibió este Material de Apoyo a la Docencia cuyo contenido forma parte del programa analítico de la asignatura. En el mismo se expone el sumario siguiente: Relación entre variables. Tablas de contingencia. Pruebas no paramétricas de independencia y homogeneidad. Estadígrafo chi-cuadrado.

Relación entre variables

Es frecuente en la práctica de la investigación biomédica trabajar con variables cualitativas tales como la presencia de diferentes diagnósticos médicos, la presencia o ausencia de una enfermedad, la necesidad de evaluar la efectividad de diferentes tratamientos cuando la variable respuesta se expresa en relación con la  desaparición de determinados signos y síntomas de la enfermedad. Muchas veces se necesita relacionar estas variables con otras del mismo tipo para determinar si existe asociación estadística entre las mismas, también con frecuencia es necesario  evaluar determinados factores de riesgo de una enfermedad para lo cual hay que determinar si la proporción de personas con un posible factor de riesgo de una enfermedad es mayor entre los que tienen la  enfermedad que entre aquellas personas que no la tienen, para lo cual nos interesaría determinar si estas diferencias son estadísticamente significativas.

Cuando estamos ante un problema en el cual necesitamos estudiar la relación existente entre 2 variables cualitativas, nos vemos obligados a resumir esta información en una Tabla de Contingencia que no es mas que una tabla estadística en la que se entrecruza la información de 2 o más variables cualitativas o de mas nivel, pero con escala Nominal, Ordinal o de Intervalo, que se utiliza para estudiar la relación existente entre las mismas.

La tabla de Contingencia que se utiliza con más frecuencia es la que se utiliza para estudiar la relación entre 2 variables cualitativas que tendría la configuración siguiente:

Esta es una tabla de contingencia de R x C, una tabla de éste tipo tiene (R – 1) (C-1) grados de libertad, que son las celdas que pueden llenarse libremente sin depender del resto de los valores de la tabla.

Por ejemplo la primera fila tiene C - 1 celdas que pueden llenarse libremente, sin embargo la ultima  tiene un valor determinado por el total de la fila menos el valor de la suma de las observaciones de las celdas de esa fila.

Lo mismo sucede con las columnas donde la primera columna tiene R - 1 celdas que pueden llenarse libremente, sin embargo la ultima  tiene un valor determinado por el total de esa  columna menos el valor de la suma de las observaciones de las celdas de esa la columna.

La tabla anterior se puede generar a partir de 2 procedimientos:

Se selecciona una muestra de tamaño n.. y se clasifican los individuos según las variables anteriores, la variable 1 con C categorías y la 2 con R categorías. En éste caso se fija el tamaño total de la muestra sin embargo la distribución de los individuos que constituyen la muestra en relación a las 2 variables es aleatoria.

La tabla que se genera esta constituida por R x C celdas y cada una de ellas tiene en su interior la frecuencia absoluta de individuos según la combinación de niveles de medición o de categorías, por ejemplo en la celda 11 hay  n11 individuos provenientes de la muestra n.. que tienen la variable 1 con la categoría 1 y la variable 2 con la categoría 1.

Si nos interesa saber si ambas variables están asociadas estadísticamente tendríamos que realizar una Prueba de Independencia.

Se seleccionan C  muestras de tamaños n.1 , n.2 . . . , n.c   y se clasifican los individuos de cada una de estas muestras según la variable 2 con R categorías.

La tabla que se genera esta constituida por R x C celdas y cada una de ellas tiene en su interior la frecuencia absoluta de individuos según la combinación de niveles de medición o de categorías, por ejemplo en la celda 11 hay  n11 individuos provenientes de la muestra n.1  que tienen la variable 2 con la categoría 1. En éste caso se fija uno de los 2 márgenes de la tabla., lo que implica la selección de varias muestras independientes, por lo que solo queda al azar la distribución de los individuos que constituyen la muestra en relación al otro criterio de clasificación ,que en éste caso es la variable  cualitativa estudiada.

Si nos interesa saber si las C muestras difieren significativamente en relación con la forma de distribución de  la variable 2  tendríamos que realizar una Prueba de Homogeneidad.

A continuación se exponen en detalle cada una de estas prueba , debe señalarse que aunque matemáticamente son iguales ,ambas Pruebas son diferentes.

PRUEBA DE INDEPENDENCIA.

Esta prueba permite medir la significación de la asociación entre 2 variables de clasificación o sea entre 2 variables cualitativas.

Sea una tabla de contingencia de 2 entradas

Donde :

n11    Es el numero de individuos que tienen la categoría 1 de ambas variables.

n21 Es el numero de individuos que tienen la categoría 1 de la variable 1 y la 2  de

      la   variable 2.

n1. Es el total de individuos que tiene la categoría 1 de la variable 2.

n.1  . Es el total de individuos que tiene la categoría 1 de la variable 1.

n.. Es el total de individuos de la muestra.

Una tabla de contingencia como la anterior se denota T.C. de C x R, o sea tabla de contingencia de C filas por R columnas.

Sea entonces:

Pij  Es la probabilidad de que un individuo seleccionado al azar de la población

     pertenezca a la celda situada en la i-esima fila y la j-esima columna.

Pi. Es la probabilidad de que un individuo seleccionado al azar de la población

     pertenezca a la i-esima fila .

p.j Es la probabilidad de que un individuo seleccionado al azar de la población

     pertenezca a la j-esima columna.

Entonces expresamos la hipotesis de No Asociación  entre las 2 variables mediante la siguiente formulación:

Ho : Pij = Pi. P.j    para toda i= 1,2,3,...,C  y  j= 1,2,3,...,R.

Sean   n..  el numero total de individuos de la muestra y nij  el numero de individuos de la celda ij constituida por la fila i-esima y la columna j-esima.

Se docimará la hipótesis establecida mediante la siguiente expresión:

Bajo el supuesto que Ho sea cierta, o sea bajo la hipótesis de No Asociación, puede sustituirse Pij  por el producto Pi. P.j ,transformándose la expresión en:

 

---® , se distribuye Chi Cuadrado

Pero como Pi.  y  P.j  son parámetros desconocidos ,es necesario estimarlos mediante sus estimadores máximo verosímiles que son ni./n..  y  n.j /n.. respectivamente, por lo que la expresión anterior se transforma en :

Debe destacarse que nij   es el valor observado, o sea el numero de individuos que hay en la celda ij de la tabla de contingencia, mientras que es el valor esperado de esta celda, estimado bajo el modelo de Independencia, por lo que el numerador de esta expresión nos permite medir las discrepancias existentes entre los valores observados y los esperados bajo éste modelo.

La sustitución de Pi.  y  P.j   por sus  estimadores conlleva a disminuir 1 grado de libertad por cada parámetro estimado, de forma que en éste caso el estadígrafo utilizado tiene una distribución  con ( C – 1) ( R – 1 ) grados de libertad.

Algunos autores sugieren incluir en el estadígrafo la corrección de continuidad de Yates, que consiste en restarle ½ al numerador de la expresión para que el valor obtenido de la  disminuya y sea mas difícil rechazar la hipotesis nula , sin embargo actualmente se sugiere considerar el uso de esta corrección  solo en los casos de las tablas de contingencias de 2x2, para atenuar así el efecto de usar una distribución continua ( )  para representar una distribución discreta de frecuencias muestrales, en éste  caso se generaría una tabla como la siguiente:

En éste caso particular podría utilizarse una expresión simplificada del estadígrafo, que incluye la corrección de Yates:

® con 1 grado de libertad.

 

Solo resta ahora fijar la regla de decisión:

Sí la calculada es mayor que la tabulada con (C-1)(R-1) grados de libertad para determinado nivel de significación, entonces rechazo la hipotesis nula, que en éste caso es de No Asociación = Independencia.

La lógica de esta regla de decisión se basa en que si se cumple el modelo de Independencia entonces las estimaciones de las Pij  a partir de éste modelo deben producir escasas discrepancias entre los valores observados presentes en la tabla de frecuencias observadas y  los estimados por el modelo, produciendo un valor del estadígrafo pequeño, que no me permitiría rechazar la hipotesis nula de No Asociación. Sin embargo si el modelo no se cumple las discrepancias serán grandes y entonces el valor del estadígrafo será grande también, por lo que en éste caso si rechazase la hipotesis nula de no-asociación = Independencia, se podría interpretar estos resultados como que hay una asociación estadística significativa entre las 2 variables estudiadas.

Limitaciones de la Prueba:

Siempre que en mas del 20% de las celdas de la tabla de contingencia existan valores esperados menores que 5 o que en una sola celda haya un valor esperados menor que 1, no debe usarse así la prueba. En éste caso deben agruparse las categorías siguiendo un sentido lógico para así poder aumentar también los valores esperados.

En el caso de la tabla de 2x2 si existe una sola celda con valor esperado menor que 5 , esto representaría un 25% , en éste tipo de tabla no es posible unir categorías , entonces en éste caso podría usarse en lugar de esta prueba la de las   Probabilidades exactas de Fisher.

Planteamiento y solución de una situación practica.

Se desea conocer si existe asociación entre el habito de fumar y el  bajo peso al nacer en una población, para lo cual se selecciona una muestra aleatoria de 100  recién nacidos, obteniéndose los resultados siguientes:

      

Considere a=0.05.

En éste caso tenemos 1 muestra aleatoria y se quiere determinar si existe asociación estadística significativa entre 2 variables cualitativas ( Bajo peso al nacer y Habito de Fumar) por lo que la prueba que debe utilizarse es la de Independencia.

Las Hipótesis a plantear serian las siguientes:

       Ho:  Pij= Pi. x P.j     Þ    Independencia     Þ    No existe Asociación

       H1:: Pij ¹ Pi. x P.j     Þ No existe Independencia ÞExiste Asociación.

Debemos verificar si se cumplen las condiciones para realizar una Prueba Chi Cuadrado, calculando los valores esperados mediante la expresión ni. x n.j/n.., obtenemos los resultados siguientes:

 

HABITO DE FUMAR

BAJO PESO AL NACER

 

TOTAL

 

SI

NO

 

PRESENTE

20

20

40

AUSENTE

30

30

60

TOTAL

50

50

100

 

Puede observarse que en todas las celdas las frecuencias esperadas son mayores que 5, por lo que puede realizarse la prueba.

Como tenemos una tabla de contingencia de 2x2, podemos utilizar la fórmula del estadígrafo simplificado:

 

=  =15.04

Regla de Decisión:

Si la   C 2 calculada = 15.04 es mayor que la C 2  tabulada = 3.84 con 1 grado de libertad y un a= 0.05 entonces rechazo la hipotesis nula , por lo que si rechazo que hay independencia ,  entonces hay asociación estadística significativa entre el habito de fumar y el bajo peso al nacer.

Si realizamos la prueba con un paquete estadístico en una computadora obtendríamos los resultados siguientes:

C2 = 15.04   Grados de Libertad = 1    p= 0.0001052

Entonces verificaría que todos los valores esperados sean mayores que 5, y como en éste caso se cumple esta restricción podemos usar esta prueba.

Al considerar un a=0.05, como la p asociada al valor del estadígrafo  p= 0.0001052  es menor  que a=0.05 , se  rechaza la hipotesis nula de no-asociación, por lo que llegamos a la conclusión que hay asociación estadística significativa entre ambas variables.

Nos interesaría entonces observar los  por cientos para interpretar la prueba:

Se evidencia entonces que es mas frecuente tener un recién nacido bajo peso en madres fumadoras que en las no fumadoras, siendo esta diferencia estadísticamente significativa..

Esta prueba solo permite determinar la significación de la asociación entre 2 variables cualitativas, la intensidad de esta asociación se medirá con otras medidas que se explicaran posteriormente.

PRUEBA DE HOMOGENEIDAD.

Cuando tenemos varias muestras y se desea determinar si son homogéneas con relación a la distribución en las mismas de una  variable cualitativa estamos debemos emplear esta prueba. A continuación  se expondrá mediante un ejemplo la misma.

Con la finalidad de evaluar el habito de fumar como factor de riesgo del cáncer del pulmón, se seleccionan 2 muestras aleatorias, una de  pacientes con esta enfermedad y la otra de personas sin esta condición. A continuación se brinda la información obtenida:

La información  que se resume en una tabla de contingencia como la anterior puede expresarse de forma general:

Donde :

P1. = n1. /n..  es la probabilidad de fumar

P2. =n2. /n..  es la probabilidad de no fumar

P11 = n11/n.1 es la probabilidad de fumar de los pacientes con cáncer del pulmón.

P12 = n12/n.2 es la probabilidad de fumar de las personas sin con cáncer del

                                                                                                             pulmón.

Si el habito de fumar esta relacionado con el cáncer del pulmón se supone que la proporción de fumadores sea mayor entre las personas que tienen esta enfermedad que entre las que no la tienen, por esto nos interesa determinar como hipotesis alternativa  H1: P11¹ P12

Nos interesa docimar las hipotesis siguientes:

Ho: P11= P12

H1: P11¹ P12

La tabla de contingencia anterior tiene los márgenes fijos, pues sacamos 2 muestras y por eso fijamos los valores de n.1 (pacientes con cáncer del pulmón) y n.2 (personas sin esta enfermedad), eso hace que cada  individuo ubicado en una celda sólo tiene 2 posibilidades de respuesta: fuman o no por lo que cada individuo tiene una distribución Bernoulli.

En cada celda hay un conjunto de individuos por lo que n variables Bernoulli Þdistribución Binomial, de esta forma tenemos que:

ni j      ® b ( E(ni j  )=  , V(ni j)= ) , o sea ,  ni j

es una variable con distribución Binomial y tiene un Valor Esperado E(ni j  ) y una Varianza V(ni j) definidas anteriormente.

Entonces se necesita conocer los valores esperados de cada una de las celdas de la tabla de contingencia y esto lo podemos hacer aplicando las expresiones anteriores:

E(n11)= = = 6.3         

 

E(n12)= = =14.7

 

E(n21)= = = 17.7

 

E(n22)= = =41.3

 

Si ya conocemos los valores observados y los valores esperados sólo necesitamos un estadígrafo con una distribución conocida que nos permita determinar si hay diferencias significativas entre los valores observados y los valores que se esperarían bajo el supuesto que la hipótesis nula fuera cierta ,o sea si se cumpliera que la distribución de las proporciones en ambas muestras es similar.

El estadígrafo que nos permite determinar lo anterior es:

®C2  con (C- 1) (R – 1) grados de libertad.

Como en éste caso estamos ante una tabla de contingencia de 2x2 utilizaremos la expresión reducida que lleva implícita la corrección de continuidad:

® con 1 grado de libertad, sustituyendo en esta expresión los valores de la tabla:

 

= 5.42

 

Solo resta ahora fijar la regla de decisión:

Sí la calculada es mayor que la tabulada con (C-1)(R-1) grados de libertad para determinado nivel de significación, entonces rechazo la hipótesis nula, que en éste caso es que la proporción de fumadores es similar en ambas muestras, lo que sugiere que en éste caso H1: P11¹ P12 , o sea la proporción de fumadores es diferente en ambos grupos.

La lógica de esta regla de decisión se basa en que si se cumple la hipótesis nula Ho: P11= P12      se   deben producir escasas discrepancias entre los valores observados presentes en la tabla de frecuencias observadas y  los valores esperados estimados, produciendo un valor del estadígrafo pequeño, que no  permitiría rechazar la hipótesis nula de igualdad de proporciones.

Sin embargo si la hipótesis nula  no se cumple las discrepancias serán grandes y entonces el valor del estadígrafo será grande también, por lo que en éste caso si rechazaría la hipótesis nula de igualdad de proporciones, entonces en éste caso podría interpretar estos resultados como que la proporción de fumadores es diferente en ambos grupos,  o sea. que se cumple la  H1: P11¹ P12 .

En nuestro ejemplo obtuvimos una  C 2 calculada = 5.42  que  es mayor que la C 2  tabulada = 3.84 con 1 grado de libertad y un a= 0.05 entonces se rechaza la hipótesis nula, por lo que si rechazo que la proporción de fumadores es similar en ambas muestras,  entonces hay diferencias estadísticas significativas entre el habito de fumar y el cáncer del pulmón.

Si realizamos la prueba con un paquete estadístico en una computadora obtendríamos los resultados siguientes:

C2 = 5.42   Grados de Libertad = 1    p= 0.0198649

Entonces como verificaría si todos los valores esperados son mayores que 5, como en éste caso se cumple esta restricción podemos usar esta prueba.

Al considerar un a=0.05 , como la p asociada al valor del estadígrafo  p= 0.0198649  es menor  que a=0.05 , se  rechaza la hipotesis nula de no diferencias entre las proporciones , por lo que llegamos a la conclusión que hay diferencia estadística significativa  entre ambas muestras en relación a la distribución de esta variable.

Limitaciones de la Prueba:

Al igual que se expreso en el caso de la Prueba de Independencia en esta Prueba se mantienen las misma restricciones, que se repiten a continuación;

Siempre que en mas del 20% de las celdas de la tabla de contingencia existan valores esperados menores que 5 o que en una sola celda haya un valor esperados menor que 1, no debe usarse así la prueba. En éste caso deben agruparse las categorías siguiendo un sentido lógico para así poder aumentar también los valores esperados.

En el caso de la tabla de 2x2 si existe una sola celda con valor esperado menor que 5 , esto representaría un 25% , en éste tipo de tabla no es posible unir categorías , entonces en éste caso podría usarse en lugar de esta prueba la de las   Probabilidades exactas de Fisher.

Planteamiento y solución de una situación practica.

Se necesita probar la efectividad de 3 tratamientos para controlar la hipertensión arterial, para lo cual se seleccionan 3 muestras aleatorias de pacientes hipertensos y se asignan aleatoriamente los tratamientos a los pacientes estudiados. La variable respuesta es el control de la hipertensión arterial a los 6 meses de tratamiento, los resultados obtenidos se relacionan a continuación:

 

HIPERTENSION ARTERIAL

TRATAMIENTOS

 

1

2

3

CONTROLADA

50

160

185

NO CONTROLADA

50

40

15

TOTAL

100

200

200

Considere a=0.05.

En éste caso tenemos 3 muestras aleatorias y se quiere determinar si existen diferencias estadísticas significativas entre 2 variables cualitativas (tratamientos e hipertensión controlada) por lo que la prueba que debe utilizarse es la de Homogeneidad.

Las Hipótesis a plantear serian las siguientes: