Ilustrados comunidad mundial educativa
Inicio | Escribenos
User: Pass: Recordar ó (Registrate!)

| !Publicar Articulo¡

Algunas consideraciones sobre la confiabilidad y la validez de los instrumentos de medición

Resumen: Uno de los puntos más vulnerables del proceso docente educativo puede ser el de la evaluación pues ésta se hace para medir características no observables en el estudiante a través de instrumentos con indicadores que creemos nos proporcionan información de dichas características con la mayor fidelidad posible.
4,121 visitas
Rating: 0
Tell a Friend
Autor: MSc Vicente Fardales Macía y Otros Autores

Índice
Introducción
Desarrollo 
Coeficiente a de Cronbach 
Validez 
Bibliografía 

Introducción
Uno de los puntos más vulnerables del proceso docente educativo puede ser el de la evaluación pues ésta se hace para medir características no observables en el estudiante a través de instrumentos con indicadores que creemos nos proporcionan información de dichas características con la mayor fidelidad posible.

La evaluación del Aprendizaje, es un componente del proceso enseñanza aprendizaje que interactúa con el resto de las componentes, y a través del cual, el docente dispone de una herramienta para controlar la calidad de dicho proceso, mediante la aplicación de diferentes instrumentos evaluativos.

Centrando nuestra atención en los instrumentos evaluativos, que de hecho constituyen la base de todo este enfoque, resaltan dos términos muy importantes relacionados con éstos: Confiabilidad y Validez los cuales son premisas básicas que debe cumplir todo instrumento evaluativo. 

Abordamos ambos conceptos en el presente trabajo con el objetivo de incentivar una vez más a velar por la calidad de los instrumentos de medición que utilizamos, puesto que de los resultados que obtengamos a través de ellos es que tomamos luego decisiones y hacemos generalizaciones que pueden ser fallidas si no garantizamos que sean confiables y válidos.

Desarrollo
En tal sentido, y partiendo de la idea que todo test o instrumento de medición tiene como finalidad medir un concepto o conjunto de conceptos inobservables a través de un número determinado de preguntas o indicadores empíricos (ítems)., diremos, que un instrumento de medición resulta confiable si arroja resultados similares durante su aplicación en diferentes momentos a los mismos sujetos. Mientras diremos que tal instrumento es válido si “mide” lo que realmente deseamos medir”.

Por ejemplo, una balanza que es un instrumento para medir peso, sería poco confiable, si al realizar reiteradas mediciones de un mismo objeto, los resultados entre las distintas mediciones fuesen muy variables, digamos: 70, 74, 65, 68,77.

Un ejemplo más: Normalmente aceptamos como un hecho cierto: Que la gente es confiable cuando por ejemplo tiene un comportamiento consistente, seguro, predecible. En otros términos, son personas estables. Por el contrario alguien no es confiable en la medida en que muestra un comportamiento mucho más variable. Carecen de estabilidad, se dice que son inconsistentes.

Extrapolando estas ideas, y salvando la distancia con los ejemplos vistos, que por demás son sencillos, si asumimos que disponemos de un instrumento de medición con el propósito de medir el nivel de conocimientos alcanzado por los estudiantes durante cierta etapa del proceso docente educativo, éste sería confiable en la medida que arrojase resultados similares al aplicarlo reiteradamente. 

Confiabilidad significa, entonces, estabilidad o constancia (exactitud) de los resultados, o sea, es sinónimo de consistencia, fidelidad, precisión, etc. 

Ahora bien, en el trasfondo de lo expresado relativo a la confiabilidad, como término que indica estabilidad, precisión o constancia en los resultados que arroja un instrumento al aplicarlo reiteradamente a un mismo individuo, está la idea de el error en que se incurre en todo proceso de medición, razón ésta primordial, pues deben identificarse siempre las principales fuentes de error que afectan las mediciones de nuestro instrumento de medida.

La pregunta inmediata es: ¿Qué factores contaminan las mediciones producidas por los tests? 

En principio, cuando una persona responde a un conjunto de ítems su puntuación representa una muestra limitada de todas las posibles respuestas, es decir, responde a un subconjunto de todos los ítems que, teóricamente, podrían haber sido utilizados para "provocar" todos los comportamientos indicadores del concepto a medir, digamos Nivel de conocimientos. Por otra parte, estas “respuestas a los items” se recogen en un momento determinado, que a su vez es una muestra de las posibles ocasiones en que pudo aplicarse el instrumento.

Por tanto, siempre que se "hace un muestreo o elección de items y momentos de aplicación del instrumento” existe la posibilidad de equivocarse en la elección de "ítems" y "momentos". 

El contexto o escenario donde se lleva a cabo la aplicación del instrumento de medición, es otro de los factores que influye en las precisiones. Bajo este término se agrupan las más diversas perturbaciones, entre las cuales pudieran citarse las condiciones del local tales como su ventilación, luminosidad, temperatura ambiente, ruidos, etc.

Otra de las cuestiones que influyen en la estabilidad de las mediciones de los test son precisamente los aspectos relacionados con el Examinador y los Examinados.

En particular, en lo referente a la influencia del Examinador mucho se ha hablado en los últimos tiempos, sobre todo como la personalidad de éste puede influir en el Examinado y ello a su vez afectar los resultados del test, así como el efecto que sobre los resultados produce la interacción entre examinador y examinado.

No debemos dejar de mencionar tampoco, los errores debidos a las características del Examinado o Individuo al que se le aplica el instrumento tales como el nivel de motivación, cansancio, fatiga, ciertos hábitos, emociones, habilidades, fluctuaciones en el nivel de concentración o atención, etc.

En fin, con relación a los errores asociados a las características del examinado, diremos que se agrupan según:
            - Características Duraderas
   
- Específicas
- Conocimientos y habilidades que requieren los problemas específicos del instrumento evaluativo.
- Actitudes, reacciones emotivas y hábitos que se ponen de manifiesto en las personas al ser evaluadas.
    - Generales
- Habilidades generales, por ejemplo la lectura.
- Habilidades para comprender las instrucciones de los instrumentos evaluativos.
- Habilidades para resolver los problemas de tipo general presentados en los instrumentos evaluativos.
        - Características No Duradereras (Temporales)
   
- Específicas
- Fatiga y tensión psíquica.
- La motivación, ya sea positiva o negativa, que produce el hecho de sentirse evaluado.
- Actitudes actuales, reacciones emotivas o fuerza de los hábitos, en cuanto todos estos representan divergencias de los rasgos más duraderos y estables del examinado.
    - Generales
- Fluctuaciones en la atención
- Fluctuaciones en la memoria de hechos particulares.
- Nivel de práctica en la ejecución de las habilidades o en los conocimientos requeridos para el problema en cuestión.
- Buena suerte en la selección de las respuestas al “adivinarlas”.

Una vez detalladas las fuentes posibles de error en los instrumentos de medición, hemos de dejar bien claro que estos errores asociados al proceso de medición se clasifican en dos grupos o categorías:

Errores sistemáticos. Son aquellos que afectan de manera consistente a la puntuación de un sujeto debido a alguna característica de la persona o del test que no tiene nada que ver con el concepto que se está midiendo.

Es muy característico de este tipo de error estar asociado a cuestiones que tienen que ver con la confección del instrumento.

Ejemplo #1 
Cuando una balanza sobrestima el peso de un objeto siempre en la misma cuantía, digamos siempre un Kg más.

Ejemplo#2
Un niño que padece de dificultades en la audición confundiendo los fonemas “r” y “n”, puede llegar a equivocar las palabras “sana” y “rana” cuando las escucha. Si se le pide que realice una tarea para categorizar palabras como sustantivos o adjetivos y éstas le son presentadas por el canal auditivo, puede que clasifique “rana” como adjetivo porque él ha entendido “sana”, aun sabiendo distinguir la diferencia si las lee. 

Errores aleatorios. Afectan a los resultados del instrumento de forma azarosa. 

Ambos tipos de errores constituyen una fuente de preocupación a la hora de interpretar los resultados. Los errores sistemáticos no alteran la estabilidad de la medida, ya que afectan siempre en la misma dirección, pero sí afectan a la seguridad en la medida. Mientras, los errores aleatorios, además de producir este mismo efecto, también afectan a la estabilidad en la medida.

En resumen, pudiésemos plantear que un instrumento de medición es confiable cuando arroja resultados similares en diferentes aplicaciones de éste a los mismos individuos, lo cual, evidentemente está estrechamente relacionado con la idea de una baja variabilidad de éstos, o dicho de otro modo, con una minina influencia de los errores. 

Llegado a este punto, formalicemos un poco más las ideas utilizando el lenguaje formal de las matemáticas a partir de concebir nuestra problemática como: Detectar cuando un instrumento de medición es confiable en el sentido anteriormente expuesto. 

Para ello, una de las teorías ampliamente usadas el la llamada Teoría Clásica de los Test (TCT), aunque también actualmente se comienza a emplear con fuerza la Teoría de Respuesta al Item (IRT).

Según esta teoría, cuyo principal precursor fue Spearman (1910), dado un instrumento de medición determinado cuyo propósito es medir algún concepto inobservable directamente, como puede ser nivel de conocimiento o una habilidad determinada, todo individuo posee un valor o puntaje verdadero V, el cual indagamos de manera aproximada cuando aplicamos el instrumento de medición (X) toda vez que estarán presentes los llamados errores de medición (E).

En fin, que el modelo de Spearman propone la siguiente ecuación básica:
La base de estas ideas radica en que de aplicarse el test en reiteradas ocasiones los valores de puntajes empíricos oscilarán alrededor de cierto valor, precisamente la Puntuación Verdadera siendo las dispersiones una variable aleatoria con distribución normal. 

Note además como la puntuación verdadera es un valor intrínseco del test; y como el objeto de medición se considera un objeto pasivo, o sea, no se afecta por mediciones sucesivas. De esta manera, la confiabilidad, vista como estabilidad en las reiteradas mediciones, asumen que los individuos no se ven afectados por el proceso de medición. En otras palabras, las perturbaciones del modelo no se consideran afectadas por cambios que puedan producirse en los individuos (al aplicarse el test reiteradamente) tales como modificaciones en los niveles de conocimientos o habilidades si fuesen estos conceptos a “medir” en el instrumento.

Por tanto, ante la imposibilidad de aplicar un instrumento de medición reiteradamente a un individuo sin que éste experimente algún cambio, asumamos que disponemos de un grupo o población formado por N individuos a los cuales se les aplica el instrumento, tendríamos finalmente N puntuaciones empíricas correspondientes a cada uno de los N individuos que satisfacen la relación: , de manera que habría una alta confiabilidad si los errores fuesen realmente pequeños, o lo que es equivalente, si las puntuaciones empíricas se aproximan mucho a las teóricas. 

Gráficamente, lo anterior se ilustra si la mayoría de las puntuaciones empíricas (puntos) están cerca de su correspondiente valor verdadero que se ubica sobre la recta.

Lógicamente, el problema aquí es que tanto las puntuaciones verdaderas como los errores son latentes. No obstante, desde el punto de vista estadístico la confiabilidad de un test se medirá en función de la correlación existente entre el puntaje empírico y el verdadero: , llamado índice de fiabilidad.


lClaramente nótese la variable del numerador es latente o inobservable, por lo que el índice de fiabilidad solo tiene utilidad teórica. No obstante, constituye la base para definir el coeficiente de fiabilidad : , de modo que el coeficiente de fiabilidad no es otra cosa que un coeficiente de determinación y por tanto toma valores entre cero y uno, siendo mayor la confiabilidad en la medida que este coeficiente esté próximo a uno; y puede ser interpretado en términos de que proporción de la varianza de las puntuaciones empíricas es explicada por las puntuaciones verdaderas.

Por ejemplo, si un test determinado arroja un coeficiente de confiabilidad de 0,86, éste indicaría que el 86% de la variación empírica observada se debe a las puntuaciones verdaderas.



¿Como Calcular el coeficiente de Confiabilidad?
Existen básicamente tres métodos, llamados métodos empíricos, y que tienen su base en el concepto de “test paralelos”: Dos test se dicen paralelos si son equivalentes, o sea, si los individuos tienen igual valor verdadero en cada test y sus varianzas de los errores son son iguales.

Cálculo del Coeficiente de Confiabilidad
Formas empíricas del cálculo del coeficiente de fiabilidad

1. Formas Paralelas
Se elaboran dos versiones del mismo instrumento que sean equivalentes. Las versiones son similares en contenido, instrucciones, duración , etc. pero con diferencias de forma para evitar el aprendizaje de los sujetos. Se aplican al mismo grupo en dos momentos de tiempo relativamente cercanos.

2. ReTest
Un mismo instrumento se aplica dos o más veces a un mismo grupo de sujetos u objetos después de un período de tiempo y se correlacionan los resultados. Este período de tiempo no puede ser muy largo, porque puede haber un proceso de maduración en los sujetos u objetos que se estudian; pero si son sujetos el período interaplicaciones no puede ser demasiado pequeño tampoco, pues los individuos pueden aprender con la administración de la prueba. Por ello esta técnica es buena sobre todo para el trabajo con unidades básicas de análisis que sean objetos inanimados.

3. Mitades Compartidas
No requiere de dos aplicaciones. El instrumento como tal se divide en dos partes equivalentes en contenido y dificultad y se aplican de una vez a un mismo grupo. Cada mitad se califica independientemente y se correlacionan los resultados.

Confiabilidad medida por estadígrafos especiales
En realidad existen varios estadígrafos para el calculo de la confiabilidad, entre ellos se encuentran el Alfa de Cobrach y el llamado coeficiente de Kuder Richardson (KR-20). 

Explicaremos aquí solamente el Alfa de Combrach, cuyo cálculo emplea el promedio de todas las correlaciones existentes entre los items del instrumento que tributan al concepto latente que se pretende “medir”. En efecto, si existen n ítems, lógicamente la matriz de correlaciones tendrá un número de correlaciones no triviales entre ítems igual a n(n-1)/2; por lo que promediando éstas y denotando su valor por P, tendremos:

Es obvio que si los n items están fuertemente correlacionados p tiende a ser uno y entonces a tiende a ser también 1. Si los items tienen correlaciones bajas, p tiende a ser cero y entonces a tiende también a ser cero. Debido a esta característica del estadígrafo suele llamársele un estadígrafo de consistencia interna.
La principal ventaja de este coeficiente reside en que requiere de una sola administración del instrumento de medición.

Cálculo del coeficiente a de Cronbach

Buscar otro ejemplo del alfa de combrach

Supongamos que se aplica un instrumento de 4 preguntas a 7 estudiantes y se obtienen los siguientes resultados:

TABLA Nº 1

CALIFICACIÓN DE LAS PREGUNTAS

P2

P3

P4

CALIFICACIONES TOTALES

 

20,8

19,0

23,1

83,6

 

13,3

12,3

13,5

52,6

 

15,0

15,1

17,3

64,2

 

18,8

16,3

16,5

68,0

 

16,7

20,6

19,2

75,3

 

10,4

11,1

10,0

42,4

 

07,1

05,6

06,2

23,2

 























a = 0.861

Con el propósito de ganar en claridad a la hora de interpretar el alfa de Combrach exponemos los siguientes datos:

Interpretación del coeficiente a de Cronbach
En la literatura contemporánea, aceptan como adecuados en los exámenes escritos basados en preguntas de tipo test objetivo, los coeficientes que oscilan entre 0,80 y 0,85.

El Colegio de Médicos de Familia de Canadá en sus exámenes de Certificación de Especialistas ha reportado que: 
· En los exámenes escritos basados en respuestas cortas considera aceptables coeficientes entre 0,69 y 0,71 
· En los exámenes de Simulación Oral en el Consultorio Médico han obtenido coeficientes entre 0,54 y 0,63 y consideran como aceptables los coeficientes superiores a 0,60.
· En los exámenes tipo ECOE con pacientes estandarizados y preguntas de ensayo de respuestas cortas han considerado como aceptables coeficientes entre 0,71 y 0,77 . En este tipo de examen otros autores han reportado coeficientes entre 0,40 y 0,88.

Con relación a los ítems que forman parte del instrumento, es válido resaltar que según la TCT la puntuación observada X es el resultado de la suma de las puntuaciones de cada ítems; X=X1+X2+...+Xn, razón esta por la que en el proceso de construcción del instrumento se le presta especial atención a la selección de los ítems buscando que estén fuertemente correlacionados con el puntaje total, o dicho en otras palabras, buscando elevar la consistencia interna del instrumento de medición.

En este sentido, es importante destacar los aspectos siguientes:
- La consistencia interna del instrumento se obtiene calculando los coeficientes de correlación Pearson ítem - total, razón por la cual la emplearemos para depurar el instrumento , estimando su fiabilidad a través del coeficiente alfa de Cronbach. 
- Los coeficientes de correlación de Pearson ítem- total, entre el puntaje de cada pregunta individual (variable independiente Xi) y el dado por el puntaje total (variable dependiente X) indican la magnitud y dirección de la relación entre las variables y proporcionan una medida de la fuerza con que están relacionadas estas dos variables. Su valor puede oscilar en el intervalo [-1,1].

En tal sentido:
- Para validar el instrumento es necesario aplicar como mínimo a una cantidad de individuos igual a 5 veces el número de ítems a efectos de evitar obtener correlaciones ítem – total espuriamente altas, que pueden aparecer cuando el número de ítems y el de individuos que responde la prueba, son semejantes. 
- Incluiremos ítems con correlaciones ítem - total superiores de 0,35 pues son estadísticamente significativas más allá del nivel del 1 %.
- Excluiremos o reformularemos aquellos ítems cuyos coeficientes de correlación ítem - total arrojan valores menores a 0,35.

Estas bajas correlaciones pueden deberse a disímiles causas que pueden ir desde una mala redacción del ítem o que el mismo no sirve para medir lo que se desea medir (No tenga validez). 

Análisis cuantitativo de ítems 
Análisis de la frecuencia del ítems
Fiabilidad
Validez
Análisis cualitativo de ítems
- Que el contenido sea el adecuado.
- Que los ítems formen una muestra adecuada del contenido.
- Que los aspectos formales sean los adecuados (Redacción, comprensión, etc)

Orientar leer los documentos relativos a la confección de los instrumentos evaluativos

Todo test tiene como finalidad medir una variable o conjunto de variables a través de un número determinado de preguntas (ítems).

Objetividad de un test
Otro aspecto muy importante que deben satisfacer los instrumentos de medición, es la llamada Objetividad, definida como la independencia de los resultados de quien aplica el test, entiéndase quien lo califica. Dicho en otras palabras, un instrumento evaluativo se dice que tiene objetividad, cuando los resultados de las calificaciones son independientes de quien lo califica, o sea, cuando las calificaciones realizadas por diferentes evaluadores tienen un alto grado de similitud.

Evidente resulta, que el evaluador ejerce influencia sobre las calificaciones; toda vez que sobre él recae decidir el nivel de acierto en las respuestas a los ítems, lo cual influye directamente sobre la calificación total que obtiene el individuo, procedimiento éste que en su interior tiene un alto grado de subjetividad que puede ser mitigado según el tipo de instrumento empleado y el mecanismo utilizado para llevar a cabo el proceso de calificar: Listas de comprobación, Escalas de Clasificación o Claves utilizando Tablas de Decisiones.

Por ejemplo, en los instrumentos evaluativos escritos tipo ensayo o tradicionales dado que los ítems requieren del educando repuestas extensas y particularizadas, es evidente que existe un alto grado subjetividad a la hora de calificar, razón por la cual la objetividad de estos exámenes es baja. 

Desde el punto de vista estadístico, la objetividad se corrobora mediante el la correlación existente entre los diferentes grupos de calificaciones.

Luego, agrupando ambos puntos de vistas (Confiabilidad y Objetividad), toda vez que el acto de calificar se relaciona directamente con las escalas de medición utilizadas en el test, es común enfocar el término Confiabilidad para referirse a la estabilidad en los resultados que arroja el instrumento, ya sea al repetirlo, o al ser calificado por distintos profesores

Validez
Recordando que los instrumentos de medición son herramientas utilizadas para recoger información de manera estandarizada (bajo las mismas condiciones de aplicación) acerca de alguna variable no observable (constructo), utilizando para ello indicadores empíricos; y cuyo objetivo o propósito es realizar inferencias a partir de ésta, diremos que la Teoría de la Validez se encarga de analizar hasta que punto el instrumento resulta útil para su objetivo, o sea, hasta que punto es útil para realizar las inferencias deseadas.

De la forma más breve posible, la teoría de la validez analiza la utilidad de un instrumento de medición para un objetivo determinado, que en última instancia está determinado por las inferencias o interpretaciones que se realicen a partir de las puntuaciones observadas.

De esta manera, La validez, otra de las premisas básicas de la Evaluación, según afirmamos en el encuentro anterior: Es la correspondencia entre lo que se pretende verificar por el instrumento de medición y lo que realmente se mide o evalúa. O sea, un instrumento de medición se considera válido “Si mide lo que realmente debe medir”, dicho de otra manera: La validez de un test es la fidelidad con la que el test mide lo que se propone medir”

Luego, como en los instrumentos evaluativos, el propósito principal es valorar el nivel de conocimientos, habilidades y modos de actuación que alcanzan los estudiantes utilizando para ello situaciones contextualizadas, la validez estará estrechamente relacionada con el grado en que se logran la aplicación de los conocimientos, habilidades y modos de actuación.

Con este enfoque pudiésemos decir que: Mientras más teórico, reproductivo y alejado de la práctica esté un instrumento mucho menor será su validez.

Tipos de Validez
Si el objetivo del test está relacionado con “medir” conocimientos, entonces la validez estará muy relacionada con las inferencias que se realicen a partir de las observaciones recogidas, que serán muestras del dominio Cognitivo a evaluar. Por ello se habla de:
- Validez de Contenido
El objetivo de este tipo de estudio es obtener evidencias para determinar si los ítems del test representan adecuadamente el constructo( Conocimientos, habilidades) que se pretende medir.
Este tipo de validez consiste en el análisis del contenido del instrumento evaluativo para determinar si éste constituye una muestra representativa del dominio de los conocimientos y/o habilidades que se pretende evaluar, o sea, se refiere a la sobreyectividad del instrumento para abarcar el dominio cognitivo que se quiere medir, el cual evidentemente guarda una estrecha relación con los objetivos. 

Tareas a realizar en la Validez de Contenido
- Definir el Dominio Cognitivo
Es de vital importancia para este tipo de validez, la definición clara y precisa del dominio Cognitivo que abarca el test; y por consiguiente de los objetivos involucrados en éste tales como interpretación de resultados, desarrollo de habilidades, capacidad de análisis e interpretación, etc.
- Solicitar la colaboración de expertos para que revisen los ítems incluidos en el instrumento con el propósito de aclarar hasta que punto este conjunto de ítems abarca el dominio cognitivo.
- Realizar revisiones bibliográficas sobre la confección de instrumentos con propósitos similares al nuestro para ganar en claridad. 

En fin, la validez de contenido está en correspondencia conque los conocimientos y las habilidades que evalúan o miden el instrumento, sean lo suficiente para definir el grado de aprovechamiento del estudiante, sobre la base de los objetivos propuestos.

De hecho, algunos consideran los estudios de validación de contenido como un “análisis subjetivo de ítems”, que debe realizarse durante la elaboración del test, visión esta, que al parecer se impondrá en un futuro próximo.

Pongamos algunos ejemplos
Supongamos que se dispone de un instrumento evaluativo para evaluar la competencia en materia de hipertensión arterial donde el dominio cognitivo abarca tanto elementos de diagnóstico como de tratamiento.
El instrumento carecería de Validez de Contenido si el conjunto de ítems solo hiciera referencia a preguntas relativas al tratamiento.

- Funcional
La validez funcional está en correspondencia con la selección del tipo de actividad (acciones, tareas, problemas) que debemos controlar en el estudiante, para evaluar sus modos de actuación de acuerdo con los objetivos propuestos. Ambos tipos de validez se interrelacionan y complementan.

Por ejemplo, si como objetivos parciales de una prueba intrasemestral en Propedéutica Clínica y Fisiopatología debemos verificar en el estudiante:
1. Calidad de la entrevista médica
2. Semiotecnia del examen físico del aparato respiratorio
3. Etiopatogenia de un síndrome anémico.

Los objetivos Nº 1 y 2 sólo son posibles de verificar a través de un examen clínico – con pacientes reales o estandarizados --, pero jamás mediante la aplicación de un instrumento teórico, oral o escrito. 

El tercer objetivo pudiera ser evalualo mediante un instrumento teórico, escrito u oral.

Como podemos observar un mismo contenido, en correspondencia con el objetivo propuesto, requiere para verificar el nivel de su cumplimiento, el diseño de un instrumento evaluativo a aplicar en un tipo específico de actividad evaluativa (método, procedimiento y técnica); en ello radica su validez funcional.

Por lo tanto, la validez está en correspondencia directa con la medición del grado de cumplimiento del sistema de conocimientos, habilidades y modos de actuación establecidos en los objetivos (Objetivo de los instrumentos evaluativos).

- Validez de Criterio
Este tipo de validez está referida al grado de asociación que puede existir entre los resultados que arroja el instrumento y un criterio externo. O sea, se habla de validez de criterio cuando los resultados que arroja un instrumento son comparados con los resultados obtenidos por medio de un criterio externo.

Tipos de Validez de Criterio
- Concurrente
Cuando el criterio se fija en el presente
--Predictiva
Cuando el criterio se fija en el futuro

Por tanto, cuando enfrentamos un estudio de validez de criterio, se impone realizar varias tareas para poder llevarla a vía de hecho:
1. Determinar el criterio y un procedimiento para medirlo.
2. Obtener una muestra representativa de los educandos a los que se le aplicará el instrumento evaluativo.
3. Aplicar el instrumento evaluativo
4. Obtener una medida del criterio para cada educando.
5. Determinar la fuerza de asociación entre los resultados que arroja el instrumento y los obtenidos por medio del criterio.

Ejemplo # 1
Supongamos se desea comprobar la validez predictiva de un software (instrumento de medición) para detectar precozmente malformaciones congénitas a futuros bebés.
La validez de criterio del software que pretende diagnóstico precoz de malformaciones en futuros niños de madres embarazadas se medirá por la eficiencia o exactitud de sus predicciones.

Ejemplo #2 
Supongamos se desea comprobar la validez de criterio de los exámenes de ingreso a las carreras de ciencias médicas, siendo el criterio el siguiente: “Los estudiantes con altos calificaciones en los exámenes de ingreso tiende a obtener índices académicos altos al culminar la carrera” 

- Validez de Constructo
Se refiere al grado en que una medición se relaciona consistentemente con otras mediciones de acuerdo con hipótesis derivadas teóricamente y que conciernen a los conceptos o constructos.

En otras palabras, partiendo del hecho que los constructos se definen según dos niveles: Semántico y Sintáctico, siendo el primero el encargado de establecer sus indicadores empíricos, mientras el segundo se encarga de establecer las posibles relaciones con otros constructos o indicadores empíricos de otros constructos según un marco teórico determinado, pudiésemos decir que el objetivo de la validez de constructo radica en obtener evidencias que expliquen la relación de éste con otros constructos.

El proceso de determinación de la validez de constructo incluye las etapas siguientes:
1. Se establecen y especifican las relaciones teóricas entre los conceptos (sobre la base del marco teórico)
2. Se utilizan instrumentos previamente validados y que midan los conceptos relacionados con el nuestro.
3. Se correlacionan las mediciones de nuestro instrumento con las mediciones de los conceptos supuestamente correlacionados.
4. Se interpreta la evidencia empírica.

Los estudios de validez de constructo de un instrumento evaluativo se realizan cuando no se dispone de una medida directa del atributo a medir, de tal manera que hay que sustituirlo por un modelo hipotético.

Son ejemplos de tales atributos la inteligencia, la creatividad, la competencia clínica, etc. Los estudios de validez de construcción, puesto que fijan la atención en una cualidad que precisa un alto grado de elaboración teórica, requiere la acumulación gradual de información procedente de diferentes fuentes.

Cualquier información que arroje luz sobre la naturaleza del atributo que se está estudiando y de las condiciones que afectan su desarrollo y manifestaciones, tiene utilidad para este tipo de validez.

Los procedimientos estadísticos que normalmente se usan en los estudios de validez de construcción se caracterizan por tener cierto nivel matemático de complejidad y, por tanto, no los desarrollaremos. 

Bibliografía
1.- “Meliá, J.L. (2001) Teoría de la Fiabilidad y la Validez. Valencia: Cristóbal Serrano. www.uv.es/psicometria”

2.- Salas Perea RS. La evaluación en la educación superior contemporánea. Biblioteca de Medicina. Volumen XXIV. UMSA, La Paz, Bolivia, 1998.

3.- González Pérez M. La evaluación del aprendizaje. Tendencias y reflexión crítica. Revista Cubana de Educación Superior 2000, XX (1):47-62.

Autores: 
MSc Vicente Fardales Macía
Profesor Auxiliar
MSc Esther Lidia Pérez Jiménez
Profesor Asistente
Lic. Juan Rafael Fábregas Tejeda
Profesor Instructor

Articulos relacionados:
Diseño, desarrollo y uso del audio texto en el proceso de enseñanza- aprendizaje del Español como segunda lengua enseñanza
Resumen:
En la enseñanza de lenguas, es importante el desarrollo de la audición como habilidad que influirá en las demás: expresión oral, lectura , escritura. Por ello , nos fue ...
El profesor guía en la educación de los jóvenes universitarios
Resumen:
La Universidad de las Ciencias Informáticas (UCI), surgida en la Batalla de Idea, donde la formación de los profesionales de nivel superior es el proceso que, de modo con...
Un acercamiento a la prevención de los trastornos de conducta desde el ideario pedagógico de José Martí
Resumen:
El modelo educativo cubano tiene profundas raíces humanistas y optimista que son resultado de una adecuada interpretación del ideario pedagógico de José Martí. Es por ell...
“Calidad de la atención en la sala de agudos”, H.D.C.Q “10 de octubre”.
Resumen:
Se realizó un estudio analítico, de corte transversal con la utilización de técnicas cuanti-cualitativas, con la finalidad de evaluar la calidad de la atención que se bri...
La repitencia
Resumen:
Fracaso escolar. Deserción. Autoestima. Repitencia. Finalidad de la no repitencia en el Sistema Educativo Dominicano(SED). Disposiciones legales que rigen la no repitenci...
Copyright © 2011 ilustrados.com, Monografias, tesis, bibliografias, educacion. Tofos los temas y publicaciones son propiedad de sus respectivos autores ©