Monografias | Pruebas de independencia y homogeneidadPruebas de independencia y homogeneidadResumen: Dada la necesidad de bibliografía para la asignatura Informática Medica II se concibió este Material de Apoyo a la Docencia cuyo contenido forma parte del programa analítico de la asignatura. En el mismo se expone el sumario siguiente: Relación entre variables. Tablas de contingencia. Pruebas no paramétricas de independencia y homogeneidad. Estadígrafo chi-cuadrado. Resumen
Dada
la necesidad de bibliografía para la asignatura Informática Medica II se
concibió este Material de Apoyo a la Docencia cuyo contenido forma parte del
programa analítico de la asignatura. En el mismo se expone el sumario
siguiente: Relación entre variables. Tablas de contingencia. Pruebas no paramétricas
de independencia y homogeneidad. Estadígrafo chi-cuadrado. Es
frecuente en la práctica de la investigación biomédica trabajar con variables
cualitativas tales como la presencia de diferentes diagnósticos médicos, la
presencia o ausencia de una enfermedad, la necesidad de evaluar la efectividad
de diferentes tratamientos cuando la variable respuesta se expresa en relación
con la desaparición de
determinados signos y síntomas de la enfermedad. Muchas veces se necesita
relacionar estas variables con otras del mismo tipo para determinar si existe
asociación estadística entre las mismas, también con frecuencia es necesario
evaluar determinados factores de riesgo de una enfermedad para lo cual
hay que determinar si la proporción de personas con un posible factor de riesgo
de una enfermedad es mayor entre los que tienen la
enfermedad que entre aquellas personas que no la tienen, para lo cual nos
interesaría determinar si estas diferencias son estadísticamente
significativas. Cuando
estamos ante un problema en el cual necesitamos estudiar la relación existente
entre 2 variables cualitativas, nos vemos obligados a resumir esta información
en una Tabla de Contingencia que no es mas que una tabla estadística en la que
se entrecruza la información de 2 o más variables cualitativas o de mas nivel,
pero con escala Nominal, Ordinal o de Intervalo, que se utiliza para estudiar la
relación existente entre las mismas. La
tabla de Contingencia que se utiliza con más frecuencia es la que se utiliza
para estudiar la relación entre 2 variables cualitativas que tendría la
configuración siguiente: Esta
es una tabla de contingencia de R x C, una tabla de éste tipo tiene (R – 1)
(C-1) grados de libertad, que son las celdas que pueden llenarse libremente sin
depender del resto de los valores de la tabla. Por
ejemplo la primera fila tiene C - 1 celdas que pueden llenarse libremente, sin
embargo la ultima tiene un valor
determinado por el total de la fila menos el valor de la suma de las
observaciones de las celdas de esa fila. Lo
mismo sucede con las columnas donde la primera columna tiene R - 1 celdas que
pueden llenarse libremente, sin embargo la ultima
tiene un valor determinado por el total de esa
columna menos el valor de la suma de las observaciones de las celdas de
esa la columna. La
tabla anterior se puede generar a partir de 2 procedimientos: Se
selecciona una muestra de tamaño n.. y se clasifican los individuos según las
variables anteriores, la variable 1 con C categorías y la 2 con R categorías.
En éste caso se fija el tamaño total de la muestra sin embargo la distribución
de los individuos que constituyen la muestra en relación a las 2 variables es
aleatoria. La
tabla que se genera esta constituida por R x C celdas y cada una de ellas tiene
en su interior la frecuencia absoluta de individuos según la combinación de
niveles de medición o de categorías, por ejemplo en la celda 11 hay
n11 individuos provenientes de la muestra n.. que tienen la variable 1
con la categoría 1 y la variable 2 con la categoría 1. Si
nos interesa saber si ambas variables están asociadas estadísticamente tendríamos
que realizar una Prueba
Se
seleccionan C muestras de tamaños
n.1 , n.2 . . . , n.c y se
clasifican los individuos de cada una de estas muestras según la variable 2 con
R categorías. La
tabla que se genera esta constituida por R x C celdas y cada una de ellas tiene
en su interior la frecuencia absoluta de individuos según la combinación de
niveles de medición o de categorías, por ejemplo en la celda 11 hay
n11 individuos provenientes de la muestra n.1 que tienen la variable 2 con la categoría 1. En éste caso
se fija uno de los 2 márgenes de la tabla., lo que implica la selección de
varias muestras independientes, por lo que solo queda al azar la distribución
de los individuos que constituyen la muestra en relación al otro criterio de
clasificación ,que en éste caso es la variable
cualitativa estudiada. Si
nos interesa saber si las C muestras difieren significativamente en relación
con la forma de distribución de la
variable 2 tendríamos que realizar
una Prueba
A
continuación se exponen en detalle cada una de estas prueba , debe señalarse
que aunque matemáticamente son iguales ,ambas Pruebas son diferentes. PRUEBA
Esta
prueba permite medir la significación de la asociación entre 2 variables de
clasificación o sea entre 2 variables cualitativas. Sea
una tabla de contingencia de 2 entradas Donde
: n11
Es el numero de individuos que tienen la categoría 1 de ambas variables. n21
Es el numero de individuos que tienen la categoría 1 de la variable 1 y la 2
de
la variable 2. n1.
Es el total de individuos que tiene la categoría 1 de la variable 2. n.1
. Es el total de individuos que
tiene la categoría 1 de la variable 1. n..
Es el total de individuos de la muestra. Una
tabla de contingencia como la anterior se denota T.C. de C x R, o sea tabla de
contingencia de C filas por R columnas. Sea
entonces: Pij
Es la probabilidad de que un individuo seleccionado al azar de la población
pertenezca a la celda situada en la i-esima fila y la j-esima columna. Pi.
Es la probabilidad de que un individuo seleccionado al azar de la población
pertenezca a la i-esima fila . p.j
Es la probabilidad de que un individuo seleccionado al azar de la población
pertenezca a la j-esima columna. Entonces
expresamos la hipotesis de No Asociación entre
las 2 variables mediante la siguiente formulación: Ho
: Pij = Pi. P.j para
toda i= 1,2,3,...,C y
j= 1,2,3,...,R. Sean
n.. el numero total de
individuos de la muestra y nij el
numero de individuos de la celda ij constituida por la fila i-esima y la columna
j-esima. Se
docimará la hipótesis establecida mediante la siguiente expresión:
Bajo
el supuesto que Ho sea cierta, o sea bajo la hipótesis de No Asociación, puede
sustituirse Pij por el producto Pi.
P.j ,transformándose la expresión en:
Pero
como Pi. y
P.j son parámetros
desconocidos ,es necesario estimarlos mediante sus estimadores máximo verosímiles
que son ni./n.. y n.j /n.. respectivamente, por lo que la expresión anterior
se transforma en :
Debe
destacarse que nij es el
valor observado, o sea el numero de individuos que hay en la celda ij de la
tabla de contingencia, mientras que
La
sustitución de Pi. y
P.j por sus
estimadores conlleva a disminuir 1 grado de libertad por cada parámetro
estimado, de forma que en éste caso el estadígrafo utilizado tiene una
distribución
Algunos
autores sugieren incluir en el estadígrafo la corrección de continuidad de
Yates, que consiste en restarle ½ al numerador de la expresión para que el
valor obtenido de la
En
éste caso particular podría utilizarse una expresión simplificada del estadígrafo,
que incluye la corrección de Yates:
Solo
resta ahora fijar la regla de decisión: Sí
la
La
lógica de esta regla de decisión se basa en que si se cumple el modelo de
Independencia entonces las estimaciones de las Pij
a partir de éste modelo deben producir escasas discrepancias entre los
valores observados presentes en la tabla de frecuencias observadas y
los estimados por el modelo, produciendo un valor del estadígrafo pequeño,
que no me permitiría rechazar la hipotesis nula de No Asociación. Sin embargo
si el modelo no se cumple las discrepancias serán grandes y entonces el valor
del estadígrafo será grande también, por lo que en éste caso si rechazase la
hipotesis nula de no-asociación = Independencia, se podría interpretar estos
resultados como que hay una asociación estadística significativa entre las 2
variables estudiadas. Limitaciones
de la Prueba: Siempre
que en mas del 20% de las celdas de la tabla de contingencia existan valores
esperados menores que 5 o que en una sola celda haya un valor esperados menor
que 1, no debe usarse así la prueba. En éste caso deben agruparse las categorías
siguiendo un sentido lógico para así poder aumentar también los valores
esperados. En
el caso de la tabla de 2x2 si existe una sola celda con valor esperado menor que
5 , esto representaría un 25% , en éste tipo de tabla no es posible unir
categorías , entonces en éste caso podría usarse en lugar de esta prueba la
de las Probabilidades exactas
de Fisher. Planteamiento
y solución de una situación practica. Se
desea conocer si existe asociación entre el habito de fumar y el bajo peso al nacer en una población, para lo cual se
selecciona una muestra aleatoria de 100 recién
nacidos, obteniéndose los resultados siguientes:
Considere
a=0.05. En
éste caso tenemos 1 muestra aleatoria y se quiere determinar si existe asociación
estadística significativa entre 2 variables cualitativas ( Bajo peso al nacer y
Habito de Fumar) por lo que la prueba que debe utilizarse es la de
Independencia. Las
Hipótesis a plantear serian las siguientes:
Ho: Pij= Pi. x P.j
Þ
Independencia Þ
No existe Asociación
H1:: Pij ¹
Pi. x P.j Þ
No existe Independencia ÞExiste
Asociación. Debemos
verificar si se cumplen las condiciones para realizar una Prueba Chi Cuadrado,
calculando los valores esperados mediante la expresión ni. x n.j/n.., obtenemos
los resultados siguientes: HABITO
DE FUMAR BAJO
PESO AL NACER TOTAL SI NO PRESENTE 20 20 40 AUSENTE 30 30 60 TOTAL 50 50 100 Puede
observarse que en todas las celdas las frecuencias esperadas son mayores que 5,
por lo que puede realizarse la prueba. Como
tenemos una tabla de contingencia de 2x2, podemos utilizar la fórmula del estadígrafo
simplificado:
Regla
de Decisión: Si
la C
2 calculada = 15.04 es mayor que la C
2 tabulada = 3.84 con 1 grado de
libertad y un a=
0.05 entonces rechazo la hipotesis nula , por lo que si rechazo que hay
independencia , entonces hay
asociación estadística significativa entre el habito de fumar y el bajo peso
al nacer. Si
realizamos la prueba con un paquete estadístico en una computadora obtendríamos
los resultados siguientes: C2
= 15.04 Grados de Libertad =
1 p= 0.0001052 Entonces
verificaría que todos los valores esperados sean mayores que 5, y como en éste
caso se cumple esta restricción podemos usar esta prueba. Al
considerar un a=0.05,
como la p asociada al valor del estadígrafo
p= 0.0001052 es menor que a=0.05
, se rechaza la hipotesis nula de
no-asociación, por lo que llegamos a la conclusión que hay asociación estadística
significativa entre ambas variables. Nos
interesaría entonces observar los por
cientos para interpretar la prueba: Se
evidencia entonces que es mas frecuente tener un recién nacido bajo peso en
madres fumadoras que en las no fumadoras, siendo esta diferencia estadísticamente
significativa.. Esta
prueba solo permite determinar la significación de la asociación entre 2
variables cualitativas, la intensidad de esta asociación se medirá con otras
medidas que se explicaran posteriormente. PRUEBA
Cuando
tenemos varias muestras y se desea determinar si son homogéneas con relación a
la distribución en las mismas de una variable
cualitativa estamos debemos emplear esta prueba. A continuación
se expondrá mediante un ejemplo la misma. Con
la finalidad de evaluar el habito de fumar como factor de riesgo del cáncer del
pulmón, se seleccionan 2 muestras aleatorias, una de
pacientes con esta enfermedad y la otra de personas sin esta condición.
A continuación se brinda la información obtenida: La
información que se resume en una
tabla de contingencia como la anterior puede expresarse de forma general: Donde
: P1.
= n1. /n.. es la probabilidad de
fumar P2.
=n2. /n.. es la probabilidad de no
fumar P11
= n11/n.1 es la probabilidad de fumar de los pacientes con cáncer del pulmón. P12
= n12/n.2 es la probabilidad de fumar de las personas sin con cáncer del
pulmón. Si
el habito de fumar esta relacionado con el cáncer del pulmón se supone que la
proporción de fumadores sea mayor entre las personas que tienen esta enfermedad
que entre las que no la tienen, por esto nos interesa determinar como hipotesis
alternativa H1: P11¹
P12 Nos
interesa docimar las hipotesis siguientes: Ho:
P11= P12 H1:
P11¹
P12 La
tabla de contingencia anterior tiene los márgenes fijos, pues sacamos 2
muestras y por eso fijamos los valores de n.1 (pacientes con cáncer del pulmón)
y n.2 (personas sin esta enfermedad), eso hace que cada individuo ubicado en una celda sólo tiene 2 posibilidades de
respuesta: fuman o no por lo que cada individuo tiene una distribución
Bernoulli. En
cada celda hay un conjunto de individuos por lo que n variables Bernoulli Þdistribución
Binomial, de esta forma tenemos que: ni
j ®
b ( E(ni j )=
es
una variable con distribución Binomial y tiene un Valor Esperado E(ni j
) y una Varianza V(ni j) definidas anteriormente. Entonces
se necesita conocer los valores esperados de cada una de las celdas de la tabla
de contingencia y esto lo podemos hacer aplicando las expresiones anteriores: E(n11)=
E(n12)=
E(n21)=
E(n22)=
Si
ya conocemos los valores observados y los valores esperados sólo necesitamos un
estadígrafo con una distribución conocida que nos permita determinar si hay
diferencias significativas entre los valores observados y los valores que se
esperarían bajo el supuesto que la hipótesis nula fuera cierta ,o sea si se
cumpliera que la distribución de las proporciones en ambas muestras es similar.
El
estadígrafo que nos permite determinar lo anterior es:
Como
en éste caso estamos ante una tabla de contingencia de 2x2 utilizaremos la
expresión reducida que lleva implícita la corrección de continuidad:
Solo
resta ahora fijar la regla de decisión: Sí
la
La
lógica de esta regla de decisión se basa en que si se cumple la hipótesis
nula Ho: P11= P12 se deben producir escasas discrepancias entre los valores
observados presentes en la tabla de frecuencias observadas y
los valores esperados estimados, produciendo un valor del estadígrafo
pequeño, que no permitiría
rechazar la hipótesis nula de igualdad de proporciones. Sin
embargo si la hipótesis nula no se
cumple las discrepancias serán grandes y entonces el valor del estadígrafo será
grande también, por lo que en éste caso si rechazaría la hipótesis nula de
igualdad de proporciones, entonces en éste caso podría interpretar estos
resultados como que la proporción de fumadores es diferente en ambos grupos,
o sea. que se cumple la H1:
P11¹
P12 . En
nuestro ejemplo obtuvimos una C
2 calculada = 5.42 que
es mayor que la C
2 tabulada = 3.84 con 1 grado de
libertad y un a=
0.05 entonces se rechaza la hipótesis nula, por lo que si rechazo que la
proporción de fumadores es similar en ambas muestras,
entonces hay diferencias estadísticas significativas entre el habito de
fumar y el cáncer del pulmón. Si
realizamos la prueba con un paquete estadístico en una computadora obtendríamos
los resultados siguientes: C2
= 5.42 Grados de Libertad = 1
p= 0.0198649 Entonces
como verificaría si todos los valores esperados son mayores que 5, como en éste
caso se cumple esta restricción podemos usar esta prueba. Al
considerar un a=0.05
, como la p asociada al valor del estadígrafo
p= 0.0198649 es menor que a=0.05
, se rechaza la hipotesis nula de
no diferencias entre las proporciones , por lo que llegamos a la conclusión que
hay diferencia estadística significativa entre
ambas muestras en relación a la distribución de esta variable. Limitaciones
de la Prueba: Al
igual que se expreso en el caso de la Prueba de Independencia en esta Prueba se
mantienen las misma restricciones, que se repiten a continuación; Siempre
que en mas del 20% de las celdas de la tabla de contingencia existan valores
esperados menores que 5 o que en una sola celda haya un valor esperados menor
que 1, no debe usarse así la prueba. En éste caso deben agruparse las categorías
siguiendo un sentido lógico para así poder aumentar también los valores
esperados. En
el caso de la tabla de 2x2 si existe una sola celda con valor esperado menor que
5 , esto representaría un 25% , en éste tipo de tabla no es posible unir
categorías , entonces en éste caso podría usarse en lugar de esta prueba la
de las Probabilidades exactas
de Fisher. Planteamiento
y solución de una situación practica. Se
necesita probar la efectividad de 3 tratamientos para controlar la hipertensión
arterial, para lo cual se seleccionan 3 muestras aleatorias de pacientes
hipertensos y se asignan aleatoriamente los tratamientos a los pacientes
estudiados. La variable respuesta es el control de la hipertensión arterial a
los 6 meses de tratamiento, los resultados obtenidos se relacionan a continuación: HIPERTENSION
ARTERIAL TRATAMIENTOS 1 2 3 CONTROLADA 50 160 185 NO
CONTROLADA 50 40 15 TOTAL 100 200 200 Considere
a=0.05. En
éste caso tenemos 3 muestras aleatorias y se quiere determinar si existen
diferencias estadísticas significativas entre 2 variables cualitativas
(tratamientos e hipertensión controlada) por lo que la prueba que debe
utilizarse es la de Homogeneidad. Las
Hipótesis a plantear serian las siguientes: | |||||||||||||||||||||||||||||||||||||||||||||||||