Equipo Validez y Confiabilidad - UNY

Validez y Confiabilidad

Soto González, Luis Carlo. Suárez Linares, Dulce María.

Venezuela, Julio de 2014

MEDICIÓN

En la medición se asignan números a las observaciones, de manera tal, que los números deben ser susceptibles de análisis a través de manipulaciones y operaciones de acuerdo a determinadas reglas.

La definición de las variables va a permitir conceptualizarlas, establecer su naturaleza, niveles, escalas, alcances y su relación con la validez y la confiabilidad.

Medición es la clasificación de casos o situaciones y sus propiedades, de acuerdo a ciertas reglas lógicas.La medición se refiere a la cualificación o cuantificación de una variable en estudio; las variables se clasifican según la capacidad o nivel en que permiten medir los objetivos.

- Según López y Vidal (2006) plantean que la validez “no es propiamente del instrumento sino del uso que se hace de él”, desde el enfoque de otros autores, indican elementos que le proporcionan validez a la prueba.

- La Validez es el primer atributo con el que debe contar una prueba. Se trata de un atributo obligatorio, de prioridad alta, ineludible para el diseñador o grupo responsable de la prueba.

- Mientras mas evidencias se tenga respecto de la validez de la prueba, será mucho mas solido el diseño y se contará con un elemento de base para garantizar la calidad del proceso de evaluación.

VALIDEZ

1. Se debe disponer de fuentes de evidencia de validez de la prueba, incluyendo los análisis de consistencia con relación al perfil de referencia, los análisis de contenido, la correlación con criterios externos, el análisis de la escala definida en la prueba respecto a lo esperado en el Proyecto, dictamen de jueces, entre otros y la manera de integrar todas estas evidencias respecto al perfil y su interpretación. 2. Las fuentes de evidencia se deben actualizar periódica y sistemáticamente y los resultados deben integrarse a versiones actualizadas del Manual Técnico o de otros documentos de divulgación entre los usuarios del proyecto. 3. Si una fuente de validez fuese necesaria para el Proyecto, pero por algunas razones no ha podido ser recopilada, deberá indicarse dentro de la documentación de este estándar. 4. Se debe fundamentar la combinación de resultados en los instrumentos que integran el Proyecto, para obtener una mayor validez en la calificación global o en la interpretación de resultados parciales de la prueba

Evidencia de Validez

Prioridad: Alta

Validez de Contenido Prioridad Alta

1. Se debe describir el procedimiento específico para la realización del análisis de validez de contenido, del cual se desprenden las tablas de especificaciones.

2. Deberán incluirse los datos de la experiencia profesional de los jueces, su calificación y la capacitación recibida para el proceso, como elemento adicional de la validez del proceso.

1. Se debe describir el procedimiento específico para la realización de los análisis de validez de criterio, independientemente de otros indicadores predictivos asociados con la prueba.

2. Debe proporcionarse el modelo matemático específico que se sigue en el análisis y las características de la población o de la muestra en su caso.

3. En el modelo predictivo se debe aclarar la elección de las variables predictoras y las variables criterio, además de su justificación para elegirlas como fuente de validez. En particular debe indicarse el ámbito de recopilación de las variables y sus fuentes de error.

4. Debe reportarse toda evidencia que se tenga respecto de cualquier factor ajeno que afecte la medida de criterio, así como los procedimientos que se estén empleando para atenuar los efectos de dichos factores.

5. En el caso de intervenir jueces para definir el conjunto de variables involucradas en el modelo, se deberá incluir su experiencia profesional y calificaciones, junto con la capacitación recibida para el proceso de establecimiento del criterio.

Validez de Criterio Prioridad: Media

Validez de Constructo Prioridad: Media

1. Se debe describir el procedimiento específico para la realización del análisis de validez de constructo, indicando el modelo especifico que se sigue en el análisis y para obtener el consenso de los especialistas o jueces participantes en dicho análisis.

2. Debe quedar claro el constructo especifico que se mide con la prueba y su distinción respecto de otros constructos y demostrar que la prueba no depende de constructos ajenos al definido para el Proyecto.

3. Deberán incluirse los datos de la experiencia y calificaciones de los jueces y la capacitación que se ofreció para el proceso de jueceo, como elemento adicional de la validez del proceso.

Bernal (2000:218) afirma que la pregunta clave para determinar la confiabilidad de un instrumento de medición es:

Si se miden fenómenos o eventos una y otra vez con el mismo instrumento de medición, ¿Se obtienen los mismos resultados u otros muy similares? Si la respuesta es afirmativa, se puede decir que el instrumento es confiable.

La importancia de garantizar la confiabilidad del instrumento viene dada por el hecho de que las interpretaciones sobre el comportamiento de los fenómenos estudiados se hacen sobre la base de la confianza que se tenga en los datos recolectados. Si no se ha demostrado la confiabilidad del instrumento, siempre habrá un margen de duda sobre la calidad de la interpretación que se haga a partir de los datos obtenidos.

La confiabilidad se refiere al nivel de exactitud y consistencia de los resultados obtenidos al aplicar el instrumento por segunda vez en

condiciones tan parecida como sea posible.

CONFIABILIDAD

La Fiabilidad tiene dos grandes componentes:

• La Consistencia Interna: La Consistencia Interna: Se refiere al grado en que los distintos ítems, partes o piezas de un test miden la misma cosa. Significa la constancia de los ítems para operar sobre un mismo constructo de un modo análogo.

• La Estabilidad Temporal: La Estabilidad Temporal: Se refiere al grado en que un instrumento de medida arrojará el mismo resultado en diversas mediciones concretas midiendo un objeto o sujeto que ha permanecido invariable.

CONFIABILIDAD

• En este procedimiento un mismo instrumento es aplicado en dos oportunidades o más a un mismo grupo de personas, después de cierto período de tiempo. Si la correlación entre los resultados de las diferentes aplicaciones es altamente positiva, el instrumento se considera confiable. El valor de la correlación es un valor ubicado entre el –1 y 1.

• El cálculo de este coeficiente se utiliza para mediciones de variables o

dimensiones que responden a una escala de medición de intervalo o razón.

• Es importante que para la aplicación de esta prueba, se tome un lapso de tiempo lo suficientemente largo para que los sujetos se olviden de lo que contestaron y, por el otro, no tanto que se produzcan cambios importantes. (Pérez 1998:72). Algunos expertos opinan que 15 días de distancia entre un test y otro es suficiente. Este tipo de medición se utiliza en investigaciones cuantitativas.

muy baja (0) baja regular aceptable elevado(1)muy baja (0) baja regular aceptable elevado(1)

No hay confiabilidad 100% de confiabilidad No hay confiabilidad 100% de confiabilidad

TEST - RETEST

Este método consiste en:

• Elaborar dos formas paralelas de un mismo test, o lo que es lo mismo, dos test paralelos.

• Aplicar una forma del test a la muestra de interés y tras un lapso de tiempo que no relevante para la aparición de cambios en los sujetos, aplicar la segunda forma del test a la muestra.

• Calcular el coeficiente de correlación entre las puntuaciones empíricas obtenidas por los sujetos en las dos ocasiones. Si las formas son paralelas esa correlación es el coeficiente de fiabilidad del test.

No puede considerarse formas paralelas aquellas en que la diferencia consiste en que se ha variado el orden de los ítems o el orden de las alternativas.

Hay dos tipos de criterios que dos test han de cumplir para ser considerados paralelos1.1. Criterio EstadísticoCriterio Estadístico: Las dos formas presentan medias iguales y variaciones iguales tanto en sus puntuaciones empíricas, como verdaderas y errores (mediciones paralelas) u obtienen las mismas puntuaciones verdaderas, pero no se requiere igual varianza de error (tau-equivalentes)2.2. Criterios de formato y contenido: Criterios de formato y contenido: En la practica dos test paralelos consisten en dos conjuntos distintos de ítems referidos a una misma variable o constructo psicológico , habitualmente con las mismas instrucciones y el mismo formato de prueba de ítems. Pretenden muestrear el mismo contenido con cuestiones formuladas de manera distinta.

METODOS PARA DETERMINAR CONFIABILIDAD

Formas Paralelas

Una vez se han administrado las dos formas paralelas se dispondrá de una tabla

de datos con N sujetos por 2 variables, la puntuación en la forma A y en la forma B para cada sujeto. Se procede entonces a calcular el coeficiente de correlación de Pearson.

El resultado obtenido puede estar entre –1 y +1, pasando por 0 (ausencia de relación lineal). En realidad, como se trata de formas paralelas, no tiene sentido esperar correlaciones negativas debiendo estar el resultado entre 0 y +1, incluso cabría esperar valores positivos alejados de 0.

Si A y B son formas paralelas entonces la correlación es el coeficiente de fiabilidad. Para considerar el test fiable, el coeficiente de correlación obtenido deber ser alto, de modo que una gran proporción de la varianza de las puntuaciones se deba a varianza verdadera.

Es decir, si obtenemos un coeficiente de fiabilidad de 0’75 diremos que tres cuartas

partes de la varianza empírica del test se deben a varianza verdadera, o lo que es lo

mismo, que un 25% de la varianza empírica es varianza de error.

Cálculo del coeficiente de correlaciónCálculo del coeficiente de correlación

La aplicación de las formas del testLa aplicación de las formas del test

1. Las dos formas deben ser administradas en las mismas condiciones, o al menos, bajo los mínimos cambios posibles en las condiciones. Se trata de no introducir factores que puedan provocar cambios en los resultados.

2. Respecto al tiempo, debe utilizarse un lapso entre ambas formas, lo suficientemente corto como para que los sujetos no hayan cambiado en la variable de interés y lo suficientemente largo para que factores de memoria, fatiga o entrenamiento tengan el mismo efecto.

Los resultados obtenidos de la aplicación del instrumento se dividen en dos mitades comparativas; así, a cada sujeto le corresponde dos calificaciones después de una sola aplicación del instrumento. La confiabilidad se obtiene después de correlacionar esas dos calificaciones.

Una manera de resolver el problema de cómo dividir el instrumento es haciendo dos grupos con las calificaciones obtenidas de los ítems pares y nones. Se debe estar seguros que todas las categorías estén representadas en las dos partes para que se divida el instrumento

Se obtienen las puntuaciones de los ítems pares y de los ítems nones, luego ambas se correlacionan. Si ambas puntuaciones son altas se obtendrá un coeficiente de confiabilidad alto.

SPLIT-HALVES (Divididas en mitades)

Es un coeficiente que sirve para medir la fiabilidad de una escala de medida, y cuya denominación Alfa fue realizada por Cronbach en 1951, aunque sus orígenes se encuentran en los trabajos de Hoyt (1941) y de Guttman (1945)

Este método permite medir la consistencia interna del instrumento. Se utiliza en la construcción de escalas en las que no hay respuestas correctas o incorrectas, sino que cada entrevistado responde la alternativa que mejor representa su forma de pensar sobre el objeto que se le pregunta.

Un investigador trata de medir una cualidad no directamente observable (por ejemplo, la inteligencia) en una población de sujetos. Para ello mide n variables que sí son observables (por ejemplo, n respuestas a un cuestionario o un conjunto de n problemas lógicos) de cada uno de los sujetos.

Se supone que las variables están relacionadas con la magnitud inobservable de interés. En particular, las n variables deberían realizar mediciones estables y consistentes, con un elevado nivel de correlación entre ellas.

El alfa de Cronbach permite cuantificar el nivel de fiabilidad de una escala de medida para la magnitud inobservable construida a partir de las n variables observadas.

El alfa de Cronbach no es un estadístico al uso, por lo que no viene acompañado de ningún p-valor que permita rechazar la hipótesis de fiabilidad en la escala. No obstante, cuanto más se aproxime a su valor máximo, 1, mayor es la fiabilidad de la escala. Además, en determinados contextos y por tácito convenio, se considera que valores del alfa superiores a 0,7 o 0,8 (dependiendo de la fuente) son suficientes para garantizar la fiabilidad de la escala.

Coeficiente Alfa de Cronbach.

El KR20 es un indicador de la fidelidad (consistencia interna). Los métodos basados (Rulon, Alfa de Cronbach, Spearman, Brown) en la división en dos porciones (presumiblemente iguales) da desventaja de ser relacionado con las opciones

de la partición (véase la mitad igualdad-impar, de la primera y segunda parte, al azar).

Kuder y Richardson desarrollaron un procedimiento basado en los resultados obtenidos con cada ítem. De hecho, hay muchas maneras de precisar otra vez los ítems (reactivos) en 2 grupos, que pueden conducir a las estimaciones diferentes de la consistencia interna.

Esta es la razón por la cual Kuder y Richardson consideren tantas (n) partes en la prueba de acuerdo a los ítems (n).En los métodos de partición en dos, (conocido también como bisección) supone para cada parte ser equivalente ( las formas paralelas ). Para el KR20, la misma lógica se adopta en

el nivel de los ítems. Es lo que uno llama unidimensional.

El KR20 se aplica en la caja dicotómica de ítems.Uno calcula el KR20 como sigue:

= variación de las cuentas de la prueba.N = a un número total de ítems en la pruebapi = es la proporción de respuestas correctas al ítem I.Índice de inteligencia = proporción de respuestas incorrectas al ítem I.

Se puede mostrar que el KR20 es el promedio de los Índices de la fidelidad el cuál se obtendrá si se calcula la fidelidad para todas las particiones posibles en dos. Para ilustrar la aplicación del KR n° 20 de la fórmula de Kuder-Richardson, se puede tomar un ejemplo ficticio de una examen de 10 preguntas en el que se calcula el coeficiente de la consistencia interna. El vector 5,4 contiene la cuenta obtenida por cada pregunta así como la cuenta total del examen.

Miremos al primer alumno, "Eric", que contestó correctamente a seis preguntas entre las 10 preguntas del examen. Las preguntas correctas son, B, C, D, E, F, y que falló en las preguntas G, H, I, J.

Verticalmente, todos los alumnos tuvieron éxito en la pregunta (a) , mientras que solamente dos alumnos tuvieron éxito en la pregunta (J).

COEFICIENTE KR20

Indiscutiblemente, en todo tipo de investigación la confiabilidad y validez de los datos recabados son de suma importancia, puesto que de ello depende la certeza en la aproximación de resultados en la lectura de una realidad o fenómeno. Independientemente cual sea la metodología o marco metodológico en la investigación o evaluación cualitativa se requiere de herramientas o instrumentos con un nivel de confiabilidad y validez tal, que permita hacer una interpretación imparcial , correcta y precisa de los hechos, de la misma manera las correlaciones que se suceden dentro del evento.

CONCLUSION

Equipo Validez y Confiabilidad - UNY

Internet

Transcript of Equipo Validez y Confiabilidad - UNY