Monografias | Material de apoyo a la docencia para el tratamiento de los métodos descriptivos en las clases de Informática Médica en las Ciencias Biomédicas

Material de apoyo a la docencia para el tratamiento de los métodos descriptivos en las clases de Informática Médica en las Ciencias Biomédicas

Resumen: Iniciemos la lectura de este material recordando que debemos ver la Estadística como una rama de las matemáticas que proporciona procedimientos lógicos de observación y análisis, con el objetivo de llegar a una conclusión verdadera sobre un determinado problema en el cual nos vemos imposibilitados de usar métodos determinísticos, ya sea por no poseer toda la información o porque en éste están involucrados factores aleatorios que no lo permiten.

Publicación enviada por Lic. Juan Rafael Fábregas y Otros Autores


 

Índice:
Introducción 3
Desarrollo 4
Ejercicio Resuelto 28
Conclusiones 32
Bibliografía 33

Introducción

Iniciemos la lectura de este material recordando que debemos ver la Estadística como una rama de las matemáticas que proporciona procedimientos lógicos de observación y análisis, con el objetivo de llegar a una conclusión verdadera sobre un determinado problema en el cual nos vemos imposibilitados de usar métodos determinísticos, ya sea por no poseer toda la información o porque en éste están involucrados factores aleatorios que no lo permiten.

Dentro de la Estadística Matemática son los métodos descriptivos los más conocidos y de más generalizada aplicación, no obstante, a pesar de ser éstos los más sencillos se necesita de un buen dominio de sus núcleos conceptuales para que su aplicación sea efectiva y no se quebrante ninguna regla al hacerle las manipulaciones iniciales a los datos, lo cual ocurre con frecuencia.

Este enfoque, indudablemente tiene una base teórica sólida, razón por la cual nos proponemos ofrecer, mediante este material, una vía alternativa donde el estudiante pueda aclarar sus dudas y profundizar en contenidos esenciales relacionados con los métodos de la estadística descriptiva.

Las ciencias biomédicas hacen uso frecuente de los métodos estadísticos, en especial de los descriptivos, es por ello que dentro del currículo de todas sus carreras se encuentren contenidos de este tema. Con el presente trabajo nos proponemos como objetivo resumir los conceptos básicos de la Estadística Descriptiva para su utilización en las clases de Informática Médica II como un fichero de ayuda para que el estudiante pueda utilizarlo al resolver las situaciones problémicas que el profesor les plantee.

Palabras claves: Estadística matemática, Material de apoyo a la docencia, Estadística Descriptiva.

Desarrollo

Tradicionalmente ésta se ha divido en dos grandes vertientes o partes: la Estadística Descriptiva y la Estadística Inferencial, donde en la primera se agrupan todas aquellas técnicas asociadas con el procedimiento de conjuntos de datos, cuyo fin es lograr su caracterización, ya sea de forma gráfica o analítica; y en la segunda, se incluyen todas aquellas que permiten la toma de decisiones mediante conclusiones a se arriben sobre la base de la información que aporta el conjunto de datos.

Por supuesto, comprender a profundidad la diferencia fundamental entre la estadística descriptiva y la inferencial, requiere ante todo, conocer con suficiente claridad los términos: Población y Muestra.

En tal sentido, entenderemos por población, a la fuente u origen de donde se obtienen las observaciones, mientras que una muestra será solo una parte de la población, de modo que, podemos plantear la estadística inferencial agrupa aquellos métodos que sirven para obtener conclusiones acerca de una población por medio de muestras con cierto margen de incertidumbre, mientras que los métodos descriptivos son aquellos cuyo fin es lograr caracterizar muestras.

 

Si aumentamos un poco el rigor de lo planteando, en aras de formalizar un poco más el concepto de población, debemos decir que por ésta entendemos a todo aquel conjunto o colección de individuos u objetos que posean al menos una característica o atributo en común; y por consiguiente, la muestra será un subconjunto de dicha población.

Ejemplo:

En un estudio donde se pretenda investigar la influencia de la edad materna, hábitos tóxicos (Alcohol y Tabaco) sobre el peso del recién nacido, la población puede ser formada por todas aquellas embarazadas de Sancti Spíritus que parieron durante el año 2001.

 

Sin embargo, asumiendo que para realizar tal estudio, se tomó una muestra formada por mil embarazadas, resulta evidente que debemos construir una tabla de datos primarios como la que se muestra a continuación, que permita al investigador organizar su información; para luego introducirla en una base de datos que permita resumirla mediante el empleo de algún software estadístico profesional.

Embarazada

Peso del Recién nacido

Talla del Recién nacido

Edad materna

Fuma

Cosumo de alcohol

1

2400

33

33

No

No

2

2600

37

25

No

No

3

2230

28

27

Si

No

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1000

2130

29

30

Si

No

Como bien puede apreciarse, cada columna de la tabla corresponde a cada una de características observadas en las embarazadas que conforman la muestra. Dicho en un lenguaje más preciso: Cada columna de la tabla de datos corresponde a cada una de las variables estadísticas que se observaron el las embarazas.

Hablando en términos más precisos, cada característica observada representa una variable estadística, cuyo concepto un tanto más formal es:

Propiedad que puede adquirir diferentes valores en un conjunto determinado y cuya variación es susceptible de ser medida.

En resumen, puede concluirse que un conjunto de datos u observaciones provenientes de una población o muestra, representan los valores de una variable asociada a una determinada característica en estudio.

Existen también otros enfoques acerca del concepto de variable que resumen la esencia de éste como son:

1. Una variable representa una característica o propiedad que puede variar entre individuos o conjuntos y presenta diferentes valores.

2. Una variable es un atributo, característica o propiedad de una persona u objeto que cambia de una persona a otra o de un objeto a otro.

3. Una variable es una propiedad de la realidad, susceptible de asumir valores, variar de una unidad de observación a otra, de un tiempo a otro, y en una misma unidad de observación.

En fin, analizando todo lo anterior, podemos decir que una variable es una característica o atributo que presenta variaciones de un individuo (unidad de observación) a otro, o en un mismo individuo. En caso de que los individuos sean personas pueden citarse como ejemplos la edad, el peso, el diagnóstico médico, el estado de salud, la temperatura, la tensión arterial, la respiración etc. Generalmente se denotan por letras del alfabeto en minúsculas como x,y,z.

En lo adelante, para representar el conjunto de datos de una variable estadística correspondiente a una muestra constituida por "n" individuos (de tamaño n), emplearemos la siguiente notación: donde el subíndice denota al individuo al cual corresponde el dato o valor de la variable .

Así que, asumamos que disponemos de una muestra formada por "n" individuos a los cuales se les observó las fluctuaciones de la variable X; cuyo conjunto de datos muéstrales es:
                                                (1)

Conocido es que, por medio de construcción de tablas y gráficos estadísticos, puede lograrse una caracterización bastante amplia del conjunto de datos en estudio. Sin embargo, a pesar de toda la información que aportan, ésta puede complementarse mediante el estudio de ciertas funciones muéstrales , llamados estadígrafos, o sea, por medio de ciertas cantidades numéricas obtenidas a partir de los datos muéstrales.

En efecto, llamaremos estadígrafo a toda función de los datos muéstrales (1). Por consiguiente, lo anterior significa que el valor del estadígrafo depende de la muestra que se tenga.

Ahora bien, los estadígrafos pueden clasificarse en cuatro grupos de acuerdo a la interpretación que pueda dárseles:

1. Estadígrafos de Posición

2. Estadígrafos de Dispersión

3. Estadígrafos de Deformación

4. Estadígrafos de Apuntamiento

A su vez, los de posición pueden dividirse en dos tipos: los de tendencia central y los de localización, brindando los primeros, información sobre el centro de la distribución de los valores de la variable; mientras que los del segundo tipo, señalan la localización de los valores extremos o más frecuentes. Los estadígrafos de dispersión por su parte, dan una idea del grado de concentración o dispersión de los valores muéstrales, generalmente en torno a un valor central; mientras que los de deformación sirven para medir el grado de simetría o asimetría de la distribución; y apuntamiento para esclarecer si dicha distribución es apuntada o achatada.

Por ejemplo, supongamos que disponemos del conjunto de observaciones correspondiente a la variable Y, cuyas distribuciones de frecuencias se muestran a continuación, y además hemos calculado los estadígrafos anteriormente citados:

Sobre la base de dichos cálculos podemos afirmar:

1. Sus valores medios o centrales oscilan alrededor de 60.

2. La distribución de sus valores está más fuertemente concentrada alrededor de un valor central, lo que indica que los valores de la variable Y no diferirán mucho entre sí de forma general.

3. La distribución es casi simétrica y muy apuntada, aunque ligeramente corrida hacia la derecha.

Según lo planteado anteriormente, los estadígrafos de posición se dividen en dos tipos:

1. Estadígrafos de tendencia central

2. Estadígrafos de Localización

Dentro de los de tendencia central citaremos en la presente actividad los siguientes:

1. La media

2. La mediana

La media aritmética o simplemente media u promedio maestral de un conjunto de valores de una variable X correspondientes a una muestra de una población, se define mediante la siguiente expresión:

 

Como bien puede observarse, su valor depende directamente de los valores muéstrales, o sea, de la muestra seleccionada; por lo que constituye una aproximación de la media de toda la población, denotada generalmente por la letra griega ; y que en el caso de una población finita se determina por medio de la expresión:

    .Donde N simboliza el total poblacional.

Ilustremos lo anterior con un ejemplo. Para ello supongamos una población hipotética de 6 individuos, en los cuales se ha observado el valor de cierta característica (variable) X obteniéndose los siguientes resultados: 2,4,6,8,10,12 cuya media poblacional es igual a 7.

 

Consideremos entonces, que deseamos trabajar con muestras de tamaño 2 de dicha población, de las cuales pueden formarse un total de 15 atendiendo a todas las combinaciones posibles de los valores. Tales muestras son las siguientes:

2,4 media=3

2,10 media=6

4,8    media=6

6,8     media=7

8,10   media=9

2,6 media=4

2,12 media=7

4,10  media=7

6,10   media=8

8,12   media=10

2,8 media=5

4,6   media=5

4,12  media=8

6,12   media=9

10,12 media=11

Al observar detenidamente estos resultados, usted puede percatarse que el nivel de aproximación de la media maestral hacia la media poblacional (7) fluctúa en general en dependencia de la muestra con un nivel de error máximo, que en este caso es de cuatro unidades de medición. Si a este hecho le añadimos la conclusión elemental de que al aumentar el tamaño de la muestra puede mejorarse la aproximación puede arribarse a la siguiente conclusión: ¿cuál debe ser el tamaño de muestra óptimo para obtener buenas aproximaciones? Su respuesta lamentablemente no está al alcance del presente curso, no obstante constituye una inquietud que debemos tener presente aún cuando trabajamos con técnicas descriptivas, puesto que permite ganar en claridad con respecto al comportamiento de la variable en toda la población.

 

Continuando nuestra exposición en torno a la media, es válido destacar que constituye uno de los estadígrafos más usados entre cuyas propiedades más importantes sobresalen las siguientes:

1. Es de fácil comprensión.

2. Es siempre única, es decir, cada conjunto de observaciones tiene una y solo una media.

3. Siempre existe y puede calcularse para cualquier tipo de datos.

No obstante, este estadígrafo posee una propiedad que conlleva en muchas situaciones a no representar con suficiente certeza el centro de la distribución de los valores de la variable; y es que puede ser afectado por valores extremos ya sean éstos muy grandes o muy pequeños.

Digamos por ejemplo, que poseemos información referente a las edades de dos grupos de seis personas:

Grupo A

12

9

14

11

52

10

Grupo B

12

9

14

11

13

10

Si ordenamos ambos conjuntos de datos y calculamos sus medias entonces tendremos el siguiente resultado:

Grupo A

9

10

11

12

14

52

Media=18

Grupo B

9

10

11

12

13

14

Media=11,5

Nótese como en el grupo A la media no representa bien el centro del conjunto de datos, mientras que en el grupo B sí.

En situaciones como éstas, donde el conjunto de valores de nuestra variable presenta valores extremos, el uso de la media para representar o indicar el centro de la distribución no es recomendable; y en su lugar usaremos la mediana M(X), el cual como es de esperar, no se afecta por la presencia de valores extremos y posee prácticamente las mismas ventajas de la media maestral.

La mediana es aquel valor que divide al conjunto ordenado de modo tal, que a ambos lados de dicho valor queda el 50% de las observaciones. Su cálculo es bastante sencillo destacándose dos situaciones atendiendo a si la cantidad de valores es impar o par. Si el número de observaciones (n) es impar basta con ordenar los valores y tomar como mediana el valor central, es decir   . Por ejemplo, si el conjunto de valores 13,6,18,20,10 representa el peso (Kg) de cinco niños, entonces ordenando el conjunto: 6,10,13,18,20 la mediana será M(x)=6.

 

Por otra parte, si el número de observaciones es par, entonces una vez ordenado éste, tendremos dos valores centrales pudiendo elegir como mediana cualquiera de ellos o cualquier valor comprendido entre estos; por lo que en aras de eliminar tal ambigüedad se acostumbra tomar como mediana al promedio de dichos valores centrales, o sea .

Así, considerando el siguiente conjunto de observaciones correspondientes al peso de seis niños: 17,15,25,13,11,8 su mediana será M(x)=14 pues al ordenar dicho conjunto: 8,11,13,15,17, 25 se tiene los valores centrales 13 y 15.

Estudiemos ahora un estadígrafo que clasifica como de localización, llamado moda denotado comúnmente por M0, muy útil como complemento de los estadígrafos de tendencia central sobre todo con el fin de lograr una caracterización más completa del conjunto de observaciones; y que se define como aquel valor de mayor frecuencia absoluta.

De esta definición pueden extraerse tres conclusiones muy importantes:

Dado un conjunto de observaciones

1. La moda puede existir o no.

2. En caso de garantizar su existencia, ésta puede no ser única.

3. No se afecta por valores extremos.

Por ejemplo, si tenemos el conjunto de datos: 0,0,1,1,1,2,2,2,2,2,3,3,4 resultará evidente que la moda es 2 con una frecuencia absoluta igual a 5. De igual forma en el siguiente conjunto de datos 0,0,1,1,2,2,3,3,4,4 no existe moda al no existir un valor de frecuencia absoluta máxima, sino que todos se repiten con igual frecuencia.

El siguiente ejemplo lo exponemos para ilustrar como utilizar la moda en calidad de complemento de los estadígrafos de tendencia central, en particular la media.

Considere que se cuenta con las clasificaciones de 10 alumnos de cierta asignatura, obtenidas por medio de una escala ordinal: 2 Desaprobado, 3 Regular, 4 Bien, 5 Excelente y expuestas en la tabla de distribución de frecuencias siguientes:

X

F. absoluta

F. Relativa

2

6

0.6

3

1

0.1

4

0

0

5

3

0.3

Total

10

1

La nota promedio del grupo resultó ser igual a 3, lo cual indica que de forma general el grupo está aprobado con una calificación de regular. Sin embargo, considerando que la moda del conjunto es igual a 2 y representa el 60% del grupo, entonces nuestra interpretación tiende a variar definitivamente e inclinarse a confirmar que dicho 60% está suspenso. Por último, note que usted puede mejorar la interpretación si analiza que dentro del 40% que se encuentra aprobado, el 30% obtuvo calificación de excelente.

Existen por supuesto otras medidas de localización, llamadas percentiles, muy utilizadas dentro de la estadística cuyo propósito es dividir el conjunto de valores en grupos de acuerdo a la magnitud de las observaciones; dentro de los cuales la mediana es un ejemplo clásico ya que divide al conjunto de observaciones en dos grupos formados aproximadamente por el 50% de los valores. Así, dado un conjunto de datos llamaremos percentil y lo denotaremos por Pp; a aquel valor que divide al conjunto de datos previamente ordenado en dos grupos de forma tal que p-porciento de las observaciones sean menores o igual que Pp y 100-p porciento de las observaciones mayores que Pp, cuya posición en el conjunto de datos es igual a

Ejemplo

En el conjunto de datos: 6,10,13,18,20 la mediana es M(x)=13 que constituye el 50% percentil y ocupa la posición 3.

De esta forma todo conjunto de valores de una variable X puede dividirse teóricamente por medio de los percentiles P1,P2,...,P99 en cien partes, cada una de las cuales contiene el 1% de las observaciones, dando lugar a algunos casos particulares muy importantes como los cuartiles Q1,Q2,Q3 y deciles D1,D2,...,D9 que dividen nuestro conjunto de datos en cuatro y diez partes iguales respectivamente.

P10=D1

P30=D3

P60=D6

P80=D8

P20=D2

P40=D4

P70=D7

P90=D9

P25=Q1

P50=D5=Q2=M

P75=Q3

 

Ejemplo

Supongamos que tenemos 620 observaciones de frecuencia cardiaca en pacientes portadores de hipertiroidismo, las cuales han sido ordenadas ascendentemente.

a) ¿Qué medida podría servir para delimitar el 25% de la frecuencia cardiaca más baja y que posición ocupa el elemento que separa ese 25% del 75% restante?

b) Cuál sería ese valor si un fragmento de ese conjunto ordenado es el siguiente:

FC

114

116

118

120

120

...

130

130

130

131

131

131

P

154

155

156

157

158

 

308

309

310

311

312

313

La medida de posición relativa a utilizar en este caso es el primer cuartil Q1 cuya posición aproximada es 155 siendo por consiguiente su valor Q1=116.

Como resumen de lo expuesto hasta el momento, podemos citar que los estadígrafos de posición brindan de forma general información que nos permite caracterizar nuestro conjunto de valores de acuerdo a la distribución de éstos según su magnitud, siguiendo dos enfoques fundamentales: describiendo su valor central, o analizando si existe predominio de determinado valor o valores sobre el resto.

Este aporte si embargo, se ve limitado si no involucramos en el análisis a los estadígrafos de dispersión, que indiquen si en el conjunto de valores existe mucha variabilidad, o si por el contrario, los datos se encuentran agrupados.

Veamos un ejemplo

Supongamos que disponemos de los conjuntos de datos siguientes, los cuales representan el peso de cinco personas (en Kg).

Grupo A

42

44

46

48

50

Media=46

Grupo B

16

26