Monografias | Material de apoyo a la docencia para el tratamiento de los métodos descriptivos en las clases de Informática Médica en las Ciencias BiomédicasMaterial de apoyo a la docencia para el tratamiento de los métodos descriptivos en las clases de Informática Médica en las Ciencias BiomédicasResumen: Iniciemos la lectura de este material recordando que debemos ver la Estadística como una rama de las matemáticas que proporciona procedimientos lógicos de observación y análisis, con el objetivo de llegar a una conclusión verdadera sobre un determinado problema en el cual nos vemos imposibilitados de usar métodos determinísticos, ya sea por no poseer toda la información o porque en éste están involucrados factores aleatorios que no lo permiten. Índice: Iniciemos la lectura de este material recordando
que debemos ver la Estadística como una rama de las matemáticas que
proporciona procedimientos lógicos de observación y análisis, con el objetivo
de llegar a una conclusión verdadera sobre un determinado problema en el cual
nos vemos imposibilitados de usar métodos determinísticos, ya sea por no
poseer toda la información o porque en éste están involucrados factores
aleatorios que no lo permiten. Dentro de la Estadística Matemática son los
métodos descriptivos los más conocidos y de más generalizada aplicación, no
obstante, a pesar de ser éstos los más sencillos se necesita de un buen
dominio de sus núcleos conceptuales para que su aplicación sea efectiva y no
se quebrante ninguna regla al hacerle las manipulaciones iniciales a los datos,
lo cual ocurre con frecuencia. Este enfoque, indudablemente tiene una base
teórica sólida, razón por la cual nos proponemos ofrecer, mediante este
material, una vía alternativa donde el estudiante pueda aclarar sus dudas y
profundizar en contenidos esenciales relacionados con los métodos de la
estadística descriptiva. Las ciencias biomédicas hacen uso frecuente de
los métodos estadísticos, en especial de los descriptivos, es por ello que
dentro del currículo de todas sus carreras se encuentren contenidos de este
tema. Con el presente trabajo nos proponemos como objetivo resumir los conceptos
básicos de la Estadística Descriptiva para su utilización en las clases de
Informática Médica II como un fichero de ayuda para que el estudiante pueda
utilizarlo al resolver las situaciones problémicas que el profesor les plantee. Palabras claves: Estadística matemática,
Material de apoyo a la docencia, Estadística Descriptiva. Tradicionalmente ésta se ha divido en dos
grandes vertientes o partes: la Estadística Descriptiva y la Estadística
Inferencial, donde en la primera se agrupan todas aquellas técnicas asociadas
con el procedimiento de conjuntos de datos, cuyo fin es lograr su
caracterización, ya sea de forma gráfica o analítica; y en la segunda, se
incluyen todas aquellas que permiten la toma de decisiones mediante conclusiones
a se arriben sobre la base de la información que aporta el conjunto de datos. Por supuesto, comprender a profundidad la
diferencia fundamental entre la estadística descriptiva y la inferencial,
requiere ante todo, conocer con suficiente claridad los términos: Población y
Muestra. En tal sentido, entenderemos por población, a la
fuente u origen de donde se obtienen las observaciones, mientras que una muestra
será solo una parte de la población, de modo que, podemos plantear la
estadística inferencial agrupa aquellos métodos que sirven para obtener
conclusiones acerca de una población por medio de muestras con cierto margen de
incertidumbre, mientras que los métodos descriptivos son aquellos cuyo fin es
lograr caracterizar muestras. Si aumentamos un poco el rigor de lo planteando,
en aras de formalizar un poco más el concepto de población, debemos decir que
por ésta entendemos a todo aquel conjunto o colección de individuos u objetos
que posean al menos una característica o atributo en común; y por
consiguiente, la muestra será un subconjunto de dicha población. Ejemplo: En un estudio donde se pretenda investigar la
influencia de la edad materna, hábitos tóxicos (Alcohol y Tabaco) sobre el
peso del recién nacido, la población puede ser formada por todas aquellas
embarazadas de Sancti Spíritus que parieron durante el año 2001. Sin embargo, asumiendo que para realizar tal
estudio, se tomó una muestra formada por mil embarazadas, resulta evidente que
debemos construir una tabla de datos primarios como la que se muestra a
continuación, que permita al investigador organizar su información; para luego
introducirla en una base de datos que permita resumirla mediante el empleo de
algún software estadístico profesional. Embarazada Peso
del Recién nacido Talla
del Recién nacido Edad
materna Fuma Cosumo
de alcohol 1 2400 33 33 No No
2 2600 37 25 No
No 3 2230 28 27 Si
No
1000 2130 29 30 Si
No
Como bien puede apreciarse, cada columna de la
tabla corresponde a cada una de características observadas en las embarazadas
que conforman la muestra. Dicho en un lenguaje más preciso: Cada columna de la
tabla de datos corresponde a cada una de las variables estadísticas que se
observaron el las embarazas. Hablando en términos más precisos, cada
característica observada representa una variable estadística, cuyo concepto un
tanto más formal es: Propiedad que puede adquirir diferentes
valores en un conjunto determinado y cuya variación es susceptible de ser
medida. En resumen, puede concluirse que un conjunto de
datos u observaciones provenientes de una población o muestra, representan los
valores de una variable asociada a una determinada característica en estudio. Existen también otros enfoques acerca del
concepto de variable que resumen la esencia de éste como son: 1. Una variable representa una característica o
propiedad que puede variar entre individuos o conjuntos y presenta diferentes
valores. 2. Una variable es un atributo, característica o
propiedad de una persona u objeto que cambia de una persona a otra o de un
objeto a otro. 3. Una variable es una propiedad de la realidad,
susceptible de asumir valores, variar de una unidad de observación a otra, de
un tiempo a otro, y en una misma unidad de observación. En fin, analizando todo lo anterior, podemos
decir que una variable es una característica o atributo que presenta
variaciones de un individuo (unidad de observación) a otro, o en un mismo
individuo. En caso de que los individuos sean personas pueden citarse como
ejemplos la edad, el peso, el diagnóstico médico, el estado de salud, la
temperatura, la tensión arterial, la respiración etc. Generalmente se denotan
por letras del alfabeto en minúsculas como x,y,z. En lo adelante, para representar el conjunto de
datos de una variable estadística correspondiente a una muestra constituida por
"n" individuos (de tamaño n), emplearemos la siguiente
notación: Así que, asumamos que disponemos de una muestra
formada por "n" individuos a los cuales se les observó las
fluctuaciones de la variable X; cuyo conjunto de datos muéstrales es: Conocido es que, por medio de construcción de
tablas y gráficos estadísticos, puede lograrse una caracterización bastante
amplia del conjunto de datos en estudio. Sin embargo, a pesar de toda la
información que aportan, ésta puede complementarse mediante el estudio de
ciertas funciones muéstrales , llamados estadígrafos, o sea, por medio de
ciertas cantidades numéricas obtenidas a partir de los datos muéstrales. En efecto, llamaremos estadígrafo a toda
función de los datos muéstrales (1). Por consiguiente, lo anterior significa
que el valor del estadígrafo depende de la muestra que se tenga. Ahora bien, los estadígrafos pueden clasificarse
en cuatro grupos de acuerdo a la interpretación que pueda dárseles: 1. Estadígrafos de Posición 2. Estadígrafos de Dispersión 3. Estadígrafos de Deformación 4. Estadígrafos de Apuntamiento A su vez, los de posición pueden dividirse en
dos tipos: los de tendencia central y los de localización, brindando los
primeros, información sobre el centro de la distribución de los valores de la
variable; mientras que los del segundo tipo, señalan la localización de los
valores extremos o más frecuentes. Los estadígrafos de dispersión por su
parte, dan una idea del grado de concentración o dispersión de los valores
muéstrales, generalmente en torno a un valor central; mientras que los de
deformación sirven para medir el grado de simetría o asimetría de la
distribución; y apuntamiento para esclarecer si dicha distribución es apuntada
o achatada. Por ejemplo, supongamos que disponemos del
conjunto de observaciones correspondiente a la variable Y, cuyas distribuciones
de frecuencias se muestran a continuación, y además hemos calculado los
estadígrafos anteriormente citados: Sobre la base de dichos cálculos podemos
afirmar: 1. Sus valores medios o centrales oscilan
alrededor de 60. 2. La distribución de sus valores está más
fuertemente concentrada alrededor de un valor central, lo que indica que los
valores de la variable Y no diferirán mucho entre sí de forma general. 3. La distribución es casi simétrica y muy
apuntada, aunque ligeramente corrida hacia la derecha. Según lo planteado anteriormente, los
estadígrafos de posición se dividen en dos tipos: 1. Estadígrafos de tendencia central 2. Estadígrafos de Localización Dentro de los de tendencia central citaremos en
la presente actividad los siguientes: 1. La media 2. La mediana La media aritmética o simplemente media u
promedio maestral de un conjunto de valores
Como bien puede observarse, su valor depende
directamente de los valores muéstrales, o sea, de la muestra seleccionada; por
lo que constituye una aproximación de la media de toda la población, denotada
generalmente por la letra griega ; y que en el caso de una población finita se
determina por medio de la expresión:
Ilustremos lo anterior con un ejemplo. Para ello
supongamos una población hipotética de 6 individuos, en los cuales se ha
observado el valor de cierta característica (variable) X obteniéndose los
siguientes resultados: 2,4,6,8,10,12 cuya media poblacional es igual a 7. Consideremos entonces, que deseamos trabajar con
muestras de tamaño 2 de dicha población, de las cuales pueden formarse un
total de 15 atendiendo a todas las combinaciones posibles de los valores. Tales
muestras son las siguientes: 2,4
media=3 2,10
media=6 4,8 media=6 6,8 media=7 8,10 media=9 2,6
media=4 2,12
media=7 4,10 media=7 6,10 media=8 8,12 media=10 2,8
media=5 4,6 media=5 4,12 media=8 6,12 media=9 10,12
media=11 Al observar detenidamente estos resultados, usted
puede percatarse que el nivel de aproximación de la media maestral hacia la
media poblacional (7) fluctúa en general en dependencia de la muestra con un
nivel de error máximo, que en este caso es de cuatro unidades de medición. Si
a este hecho le añadimos la conclusión elemental de que al aumentar el tamaño
de la muestra puede mejorarse la aproximación puede arribarse a la siguiente
conclusión: ¿cuál debe ser el tamaño de muestra óptimo para obtener buenas
aproximaciones? Su respuesta lamentablemente no está al alcance del presente
curso, no obstante constituye una inquietud que debemos tener presente aún
cuando trabajamos con técnicas descriptivas, puesto que permite ganar en
claridad con respecto al comportamiento de la variable en toda la población. Continuando nuestra exposición en torno a la
media, es válido destacar que constituye uno de los estadígrafos más usados
entre cuyas propiedades más importantes sobresalen las siguientes: 1. Es de fácil comprensión. 2. Es siempre única, es decir, cada conjunto de
observaciones tiene una y solo una media. 3. Siempre existe y puede calcularse para
cualquier tipo de datos. No obstante, este estadígrafo posee una
propiedad que conlleva en muchas situaciones a no representar con suficiente
certeza el centro de la distribución de los valores de la variable; y es que
puede ser afectado por valores extremos ya sean éstos muy grandes o muy
pequeños. Digamos por ejemplo, que poseemos información
referente a las edades de dos grupos de seis personas: Grupo
A 12 9 14 11 52 10 Grupo
B 12 9 14 11 13 10 Si ordenamos ambos conjuntos de datos y
calculamos sus medias entonces tendremos el siguiente resultado: Grupo
A 9 10 11 12 14 52 Media=18 Grupo
B 9 10 11 12 13 14 Media=11,5 Nótese como en el grupo A la media no representa
bien el centro del conjunto de datos, mientras que en el grupo B sí. En situaciones como éstas, donde el conjunto de
valores de nuestra variable presenta valores extremos, el uso de la media para
representar o indicar el centro de la distribución no es recomendable; y en su
lugar usaremos la mediana M(X), el cual como es de esperar, no se afecta por la
presencia de valores extremos y posee prácticamente las mismas ventajas de la
media maestral. La mediana es aquel valor que divide al conjunto
ordenado de modo tal, que a ambos lados de dicho valor queda el 50% de las
observaciones. Su cálculo es bastante sencillo destacándose dos situaciones
atendiendo a si la cantidad de valores es impar o par. Si el número de
observaciones (n) es impar basta con ordenar los valores y tomar como mediana el
valor central, es decir
Por otra parte, si el número de observaciones es
par, entonces una vez ordenado éste, tendremos dos valores centrales pudiendo
elegir como mediana cualquiera de ellos o cualquier valor comprendido entre
estos; por lo que en aras de eliminar tal ambigüedad se acostumbra tomar como
mediana al promedio de dichos valores centrales, o sea .
Así, considerando el siguiente conjunto de
observaciones correspondientes al peso de seis niños: 17,15,25,13,11,8 su
mediana será M(x)=14 pues al ordenar dicho conjunto: 8,11,13,15,17, 25 se tiene
los valores centrales 13 y 15. Estudiemos ahora un estadígrafo que clasifica
como de localización, llamado moda denotado comúnmente por M0, muy útil como
complemento de los estadígrafos de tendencia central sobre todo con el fin de
lograr una caracterización más completa del conjunto de observaciones; y que
se define como aquel valor de mayor frecuencia absoluta. De esta definición pueden extraerse tres
conclusiones muy importantes: Dado un conjunto de observaciones 1. La moda puede existir o no. 2. En caso de garantizar su existencia, ésta
puede no ser única. 3. No se afecta por valores extremos. Por ejemplo, si tenemos el conjunto de datos:
0,0,1,1,1,2,2,2,2,2,3,3,4 resultará evidente que la moda es 2 con una
frecuencia absoluta igual a 5. De igual forma en el siguiente conjunto de datos
0,0,1,1,2,2,3,3,4,4 no existe moda al no existir un valor de frecuencia absoluta
máxima, sino que todos se repiten con igual frecuencia. El siguiente ejemplo lo exponemos para ilustrar
como utilizar la moda en calidad de complemento de los estadígrafos de
tendencia central, en particular la media. Considere que se cuenta con las clasificaciones
de 10 alumnos de cierta asignatura, obtenidas por medio de una escala ordinal: 2
Desaprobado, 3 Regular, 4 Bien, 5 Excelente y expuestas en la tabla de
distribución de frecuencias siguientes: X F.
absoluta F.
Relativa 2 6 0.6 3 1 0.1 4 0 0 5 3 0.3 Total 10 1 La nota promedio del grupo resultó ser igual a
3, lo cual indica que de forma general el grupo está aprobado con una
calificación de regular. Sin embargo, considerando que la moda del conjunto es
igual a 2 y representa el 60% del grupo, entonces nuestra interpretación tiende
a variar definitivamente e inclinarse a confirmar que dicho 60% está suspenso.
Por último, note que usted puede mejorar la interpretación si analiza que
dentro del 40% que se encuentra aprobado, el 30% obtuvo calificación de
excelente. Existen por supuesto otras medidas de
localización, llamadas percentiles, muy utilizadas dentro de la estadística
cuyo propósito es dividir el conjunto de valores en grupos de acuerdo a la
magnitud de las observaciones; dentro de los cuales la mediana es un ejemplo
clásico ya que divide al conjunto de observaciones en dos grupos formados
aproximadamente por el 50% de los valores. Así, dado un conjunto de datos
Ejemplo En el conjunto de datos: 6,10,13,18,20 la mediana
es M(x)=13 que constituye el 50% percentil y ocupa la posición 3. De esta forma todo conjunto de valores de una
variable X puede dividirse teóricamente por medio de los percentiles
P1,P2,...,P99 en cien partes, cada una de las cuales contiene el 1% de las
observaciones, dando lugar a algunos casos particulares muy importantes como los
cuartiles Q1,Q2,Q3 y deciles D1,D2,...,D9 que dividen nuestro conjunto de datos
en cuatro y diez partes iguales respectivamente. P10=D1 P30=D3 P60=D6 P80=D8 P20=D2 P40=D4 P70=D7 P90=D9 P25=Q1 P50=D5=Q2=M P75=Q3 Ejemplo Supongamos que tenemos 620 observaciones de
frecuencia cardiaca en pacientes portadores de hipertiroidismo, las cuales han
sido ordenadas ascendentemente. a) ¿Qué medida podría servir para delimitar el
25% de la frecuencia cardiaca más baja y que posición ocupa el elemento que
separa ese 25% del 75% restante? b) Cuál sería ese valor si un fragmento de ese
conjunto ordenado es el siguiente: FC 114 116 118 120 120 ... 130 130 130 131 131 131 P 154 155 156 157 158 308 309 310 311 312 313 La medida de posición relativa a utilizar en
este caso es el primer cuartil Q1 cuya posición aproximada es 155 siendo por
consiguiente su valor Q1=116. Como resumen de lo expuesto hasta el momento,
podemos citar que los estadígrafos de posición brindan de forma general
información que nos permite caracterizar nuestro conjunto de valores de acuerdo
a la distribución de éstos según su magnitud, siguiendo dos enfoques
fundamentales: describiendo su valor central, o analizando si existe predominio
de determinado valor o valores sobre el resto. Este aporte si embargo, se ve limitado si no
involucramos en el análisis a los estadígrafos de dispersión, que indiquen si
en el conjunto de valores existe mucha variabilidad, o si por el contrario, los
datos se encuentran agrupados. Veamos un ejemplo Supongamos que disponemos de los conjuntos de
datos siguientes, los cuales representan el peso de cinco personas (en Kg). Grupo
A 42 44 46 48 50 Media=46 Grupo
B 16 26 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||