Monografias | Correlación y Regresión

Correlación y Regresión

Resumen: Dada la necesidad de bibliografía para la asignatura Informática Medica II se concibió este Material de Apoyo a la Docencia cuyo contenido forma parte del programa analítico de la asignatura. En el mismo se expone el sumario siguiente: Relación entre variables. Problemas de Correlación y Regresión. Diagrama de Dispersión. Utilidad. Coeficiente de correlación lineal muestral (r) y Coeficiente de correlación lineal poblacional (r).

Publicación enviada por Dra. Nelsa María Sagaró del Campo y Dra. Meydis María Macías Navarro


 

Resumen

Dada la necesidad de bibliografía para la asignatura Informática Medica II se concibió este Material de Apoyo a la Docencia cuyo contenido forma parte del programa analítico de la asignatura. En el mismo se expone el sumario siguiente: Relación entre variables. Problemas de Correlación y Regresión. Diagrama de Dispersión. Utilidad. Coeficiente de correlación lineal muestral (r) y Coeficiente de correlación lineal poblacional (r). Prueba de Hipótesis sobre el Coeficiente de correlación lineal. poblacional. La regresión lineal. Breve noción sobre el cálculo de los coeficientes mediante el método de los mínimos cuadrados. Breve noción sobre las pruebas de hipótesis para el coeficiente de correlación (r) y de la regresión.

Relación entre variables

Muchos de los trabajos de investigación que se realizan en las diferentes disciplinas de las ciencias médicas y de la salud, centran su atención en la determinación de la relación existente entre dos variables. Por ejemplo, es posible que se desee conocer cómo varía en el laboratorio la respuesta de un animal a un fármaco a medida que varía la dosis; o cuál es la relación que existe entre la presión sanguínea y la edad; o si existe una relación entre dos determinaciones fisiológicas y bioquímicas obtenidas en los mismos pacientes; o a nivel comunitario, cuál es la relación existente entre los diversos índices de salud y el nivel disponible de la asistencia sanitaria. Muchos otros ejemplos servirían para ilustrar problemas comunes para investigadores que trabajan en este campo.

La correlación y la regresión constituyen las técnicas estadísticas utilizadas para investigar este tipo de relaciones, las que si bien están relacionadas, tienen propósitos diferentes. La correlación es útil para medir si la relación que existe entre las variables es aproximadamente lineal o no; mientras que la regresión sirve para buscar la ecuación matemática que mejor describe la relación entre las variables.

Ambas técnicas deben su origen al científico inglés Sir Francis Galton (1822-1911). Él aclaró los conceptos de regresión en los informes de sus investigaciones sobre la herencia, primero en los guisantes y posteriormente, en la estatura humana. Describió una tendencia del hijo adulto, que tiene padres bajos o altos, de regresar hacia la estatura promedio de la población general.

Se dice que dos variables están correlacionadas cuando los cambios de una de ellas se acompañan de cambios en la otra  variable en una misma unidad de observación. La correlación lineal es un método que permite medir si la relación que existe entre dos variables es aproximadamente lineal o no.

Si los resultados de la medición de una variable se incrementan con el incremento de la otra, o si éstos disminuyen con la disminución de la otra, entonces la correlación es positiva; mientras que si la relación es inversa, entonces la  correlación es negativa.

Para estudiar esta relación lo primero  que se hace y que sin duda es de mucho provecho es graficar a través de un diagrama de dispersión tal relación, llamado así porque lo que hace es mostrar la dispersión de los pares de valores (xi,yi) .

Este diagrama de dispersión se construye fácilmente, marcando en un par de ejes cartesianos los distintos puntos (x1,y1); (x2,y2);...; (xn,yn), resultantes de n observaciones de dichas variables. De esta forma podemos conocer si hay relación o no entre las variables X e Y , y si esta relación está próxima o no a la relación lineal, es decir, si se puede explicar mediante el empleo de una línea recta.

Sin embargo al realizar un diagrama de dispersión, pueden presentarse varias situaciones:

Que aparezca una tendencia clara y definida, es decir, que la correlación entre las variables resulte evidente. Este es un caso muy poco frecuente.

Que la correlación entre las variables no aparezca tan clara; si bien los datos, aunque presentan una serie de fluctuacio­nes, manifiestan una tendencia definida. Esta situación se presenta frecuentemente en la práctica.

Que los datos experimentales se presenten como un conglomerado de puntos, donde no puede apreciarse tendencia alguna y donde aparentemente no existe correlación. También es frecuente.

Coeficiente de correlación lineal de Pearson (r)(r):

Generalmente es conveniente disponer de un índice del grado de vinculación lineal entre X y Y, que no dependa de las escalas en que se miden X y Y como sucede con la covarianza, sino que exprese intrínsecamente el grado de correlación o alineación entre ambas. Para ello se utiliza el coeficiente de correlación lineal de Pearson (r), mediante la siguiente expresión (fórmula 3):

                                                                                                                           

donde:

Sxy: es la covarianza entre x e y

 sx: desviación típica de x

 sy: desviación típica de y

r sirve para medir la fuerza de la relación entre dos v.a , o sea, el grado en que ambas están relacionadas linealmente, siendo las dos variables cuantitativas.

A continuación te mostramos las propiedades del mismo.

Propiedades:

No tiene unidades de medida (adimensional).

Acotado entre -1 y 1

Los valores extremos señalan que existe dependencia lineal perfecta entre ambas variables X e Y    (-1 negativa perfecta y 1 positiva perfecta).

El valor 0 señala que no existe dependencia lineal alguna entre ambas variables, aunque si puede existir una dependencia funcional más compleja. Es por esto, que este coeficiente debe utilizarse con cuidado a la hora de interpretar los resultados.

El signo (+) indica que ambas v.a crecen o decrecen simultánea­mente y el signo (-) indica que cuando una variable crece, la otra decrece, o sea, son inversas.

Esta medida parte del supuesto de que X e Y son v.a y que la distribución de valores (x,y) es una distribución normal bidimensional o bivariada.

En la mayoría de las situaciones no es posible calcular r, ya que no se conocen los parámetros que  intervienen en éstas y   por tanto se hace necesario estimarlos.

Si se tiene una muestra de tamaño n para los valores correspondien­tes a estas dos v.a; digamos (x1,y1); (x2,y2);...;(xn,yn) un estimador para r viene dado por r (fórmula 4):

Para hacer el cálculo más simple se ha desarrollado la expresión siguiente (fórmula 5)

 

 La interpretación de un coeficiente de correlación como medida de la intensidad de la relación lineal entre dos variables es puramente matemática y libre de cualquier implicación de causa-efecto. El hecho de que las dos variables tiendan a crecer o decrecer juntas no indica que la una tenga un efecto directo o indirecto sobre la otra. Ambas pueden estar influidas por otras variables de modo que se origine una fuerte relación matemática.

Por ejemplo, se ha observado en datos internacionales una correlación positiva entre la tasa de mortalidad por cáncer de colon y los padecimientos coronarios en este caso son dos padecimientos aparentemente no relacionados. Una asociación de este tipo sugiere, la existencia de factores de riesgo comunes a ambas entidades.

Por otra parte, puede darse el caso que a alguien se le ocurra analizar estadísticas de Cuba en los últimos 10 años y encuentre una correlación fuerte entre el ritmo anual de divorcio y el consumo de aspirina.  ¿Cabe pensar en una relación entre estas variables? Esto solo puede deberse a una coincidencia casual y se le denomina correlación espuria.

 La interpretación de r depende principalmente de los detalles de la investigación y de la experiencia propia en el tema de estudio. La experiencia previa sirve generalmente como base de comparación para determinar si un coeficiente de correlación es digno de ser mencionado. No obstante algunos autores han propuesto lo siguiente:

De  0 - 0.25: Se considera la relación escasa o nula                  

 0.26 - 0.50: Relación débil                   

 0.51 - 0.75: Relación entre moderada y fuerte

 0.76 - 1.00: Relación entre fuerte y perfecta

La prueba de hipótesis para el coeficiente de correlación permite probar la significación de la correlación lineal

siendo:

n: número de pares de datos

r: coeficiente de correlación lineal muestral

Este estadígrafo sólo puede ser utilizado para probar la hipótesis de r=0.

40-       Regla de decisión: Utilizando la tabla A que muestra los valores críticos para la distribución t para pruebas de una y dos colas, se rechaza H0 sí:

 

                                                                                              tobs tTab(a, n-2 gl)

La regresión es un método o técnica estadística que nos permite buscar la ecuación matemática que mejor describe la relación que existe entre las variables. Consiste en cuantificar la relación que existe entre las variables con el fin de predecir cuáles serán los valores de una variable cuando se conocen los valores de la otra.

Aquí se consideran dos variables: X e Y. A la X se le llama variable independiente, puesto que ella está en muchos casos bajo el control del investigador, esto es, los valores de X son seleccionados por el investigador y, correspondiendo a cada valor seleccionado de X, se obtienen uno o más valores de Y. La variable X recibe también el nombre de predictor o variable predictora, variable concomitante, y variable controlada, en dependencia de la función que ella cumpla en un problema determinado. A la variable Y se le llama variable dependiente, y hablamos de regresión de Y sobre X.

En la regresión lineal el asunto es intentar expresar Y como una función de  X.

Recuerdas de geometría elemental, que la ecuación para una línea recta está dada por la siguiente ecuación:

                                                                                                                      Y = a + bX 

Sin embargo, como y es una predicción de Y, generalmente no todos las predicciones caerán exactamente sobre la línea, es por ello que se añade un término de error, quedando el modelo probabilístico que describe la relación entre las variables así:

                                                                                              y = b0 + b1X + E                      (1)

donde:

b0 y b1 son coeficientes o parámetros de la función desconocida, siendo:

b0 el intercepto con el eje Y cuando X toma el valor 0.

b1 simboliza la pendiente en la población, y es el coeficiente de regresión lineal simple o dependiente, que mide la unidad de cambio en promedio de la variable Y por cada unidad de cambio de la variable independiente.

E es el error aleatorio, representa el incremento para el cual, cualquier valor particular de Y cae fuera de la recta de regresión.

Para ver la aplicación del método de los mínimos cuadrados supongamos que poseemos n conjuntos de observaciones (X1,Y1),.. (Xn,Yn). Entonces para la ecuación (1) podemos escribir:

y = b0 + bXi + E                                                                                                                    

No pretendemos atiborrarte de fórmulas matemáticas complicadas, por lo que te mostramos a continuación las fórmulas de los estimados b y b0 de la muestra:

(fórmula 3)

La primera forma de ecuación (3) se utiliza normalmente para el cálculo de b.

El cálculo de b0  se realiza a través de (fórmula 5):

                                                                                                                                                                                                                               

Sustituyendo la ecuación (5) en la ecuación  = b0 + bX (ecuación muestral de la recta), obtenemos la ecuación de regresión estimada.

                                                                                              (6)

Donde b viene dada por las fórmulas  (3) ó (4).

Bibliografía:

1.       Horsford Saing R, Bayarre Vea H. Métodos y técnicas aplicadas a la investigación en Atención Primaria de Salud. La Habana: Ediciones Finlay, 2000.

2.       Daniel WW. Bioestadística. Base para el análisis de las ciencias de la salud. 3ª ed. México D.F.:Limusa; 1997.

3.       Spiegel MR. Teoría y problemas de Estadística. La Habana:Pueblo y Educación; 1977.

4.       Freund J. Estadística elemental moderna. 2ª ed. La Habana:Edición Revolucionaria; 1988.

5.       Coolican H. Métodos de investigación y estadística en psicología. México D.F.:El Manual Moderno; 1997

6.       Camel F. Estadísticas médicas y de Salud Pública. La Habana:Pueblo y Educación; 1985.

Autoras:

  • Dra. Nelsa María Sagaró del Campo
  • Dra. Meydis María Macías Navarro

Compartir Enviar a menéame  Añadir a tus marcadores de Google  Enviar a noticias Top    Añadir a del.icio.us     Añadir a tus marcadores en Yahoo! 


Publicación enviada por Dra. Nelsa María Sagaró del Campo y Dra. Meydis María Macías Navarro
Contactar mailto:nsagaro@sierra.scu.sld.cu


Código ISPN de la Publicación EEFklVFAlpSZMdFoNu
Publicado Thursday 24 de November de 2005

Ultimas Publicaciones en ilustrados.com


ilustrados.com nace con el fin difundir el conocimiento publicando trabajos de investigación, monografias, tesis, presentaciones powerpoint y afines. Publicar trabajos en ilustrados.com ha alcanzado prestigio y reconocimiento internacional siendo cada vez más el número de académicos, empresas, investigadores, científicos que consultan las publicaciones de nuestro portal.


Administración y Finanzas
Agricultura y Ganadería
Anatomía
Antropología
Arqueología y Paleontología
Arquitectura
Arte y Cultura
Astronomía
Biografías
Biología
Ciencia y Tecnología
Computación e Informática
Comunicaciones
Contabilidad
Deportes y Educación Física
Derecho
Derechos Humanos
Ecología
Economía
Educación
Enfermedades
Estadística
Filosofía y Ontología
Física
Geografía
Hardware
Historia
Ingeniería
Internet
Lenguaje y Literatura
Marketing y Publicidad
Mitología
Matemática y Lógica
Música
Nutrición y Ciencias Alimentarias
Política
Programación
Psicología
Química
Recursos Humanos
Redes
Religión
Salud y Medicina
Sistemas Operativos
Sociología
Software
Turismo
Zoología