Download - Capitulo 2 validez y confiabilidad

Mag. Fernando Ramos RamosDocente de la UNFV – UIGV – USMP - PUCP – CPAL

VALIDEZ Y CONFIABILIDAD

ESCALAS O

INVENTARIOS

EJECUCIÓN

TÍPICA

TESTS

EJECUCIÓN

MÁXIMA

PROPIEDAD PSICOMÉTRICAS

CONFIABILIDAD – VALIDEZ

MUESTRAS DE CONDUCTA NOESTRUCTURADAS –

OBSERVACIONES - ENCUESTAS NO SON TESTS

TESTS

TESTS

TESTS

Constructos Psicológicos

Teóricos IndicadoresConstructos

Se asignan números y seestablecen relaciones empíricas

Observables

Constructos

Indicadores

Constructos

Constructos

Constructos

Constructos

Constructos

Indicadores

Indicadores

Indicadores

Ítems

Propiedades psicométricas de los tests

Predictiva Retrospectiva

Discriminante PuntuaciónObservada

Evid

en

cia

sd

eV

alid

ez

Concurrente

Convergente

CONSTRUCTO

CONTENIDO

VALIDEZ

CRITERIO

FIABILIDAD

Puntuación Observada

Test- Retest

Estabilidad -Tiempo Consistencia interna

Homogeneidad

División por mitadesFormas Paralelas

Propiedades psicométricas de los tests

VALIDEZ

FIABILIDAD

Validez y Fiabilidad.Teoría de la Medición

Errores sistemáticos

Varianza defactores irrelevantes

SESGO

Constructo

PuntuaciónVerdadera

PuntuaciónObservada

Error de Medición

asistemáticos

VALIDEZFIABILIDAD

Hogan 2004: Es el grado en que untest mide lo que pretende medir, serefiere al grado en que uninstrumento o conjunto deoperaciones mide lo que dice medir.

Martínez, 2006: Es una inferencia, sepresenta como el proceso dedeterminar si la teoría y lasevidencias empíricas respaldan estainferencia.

DEFINICIÓN DE VALIDEZ

TIPOS DE VALIDEZ

TIPOS DE VALIDEZ

Evidenciasde

Validez

VALIDEZ DECONSTRUCTO

VALIDEZ DECRITERIO

VALIDEZ DECONTENIDO

VALIDEZ GLOBAL DEL TEST

VALIDEZ DECONTENIDO

VALIDEZDE

CRITERIO

VALIDEZ DECONSTRUCTO

VALIDEZGLOBAL

ENTRE MAYOR EVIDENCIA DE VALIDEZ DE CONTENIDOS,VALIDEZ DE CRITERIO Y VALIDEZ DE CONSTRUCTO TENGA

UN INSTRUMENTO DE MEDICIÓN, ÉSTE SE ACERCA MÁS A

REPRESENTAR LA VARIABLE O VARIABLES QUE PRETENDE

MEDIR.UN INSTRUMENTO PUEDE SER FIABLE PERO NO VALIDO,PUEDE MEDIR CONSISTENTEMENTE UN ASPECTO, MAS NO

MEDIR LO QUE PRETENDE MEDIR.

VALIDEZ DE CONTENIDO

Grado en que un instrumento refleja undominio específico del contenido que semide.

Nunnally 1973: Es el grado en que losítems que constituyen el instrumentotienen el dominio del contenido que semide.

Un instrumento de medición debe tenerrepresentados a todos los ítems deldominio de contenido de las variables amedir.

VALIDEZ DE CONTENIDO

ILUSTRACIÓN DE UN INSTRUMENTO DE MEDICIÓN CON

VALIDEZ DE CONTENIDO VERSUS CON UNO QUE CARECE DE

ÉSTA

L RE AN MA ZU G

Ñ

DOMINIO DE VARIABLE

L RE AN MA ZU G

L E

INSTRUMENTO

CON VALIDEZ DE

CONTENIDO

INSTRUMENTO

SIN VALIDEZ DE

CONTENIDO

EL INSTRUMENTO DEBE CONTENER TODOS LOS ASPECTOS O ÍTEMS DEL DOMINIO DE LA VARIABLE QUE SE ESTA

MIDIENDO, Y SE CONSTRUYE DE ACUERDO CON LA TEORÍA.SU FINALIDAD ES GARANTIZAR QUE EL TEST CONSTITUYE UNA MUESTRA ADECUADA Y REPRESENTATIVA DEL

CONTENIDO QUE ÉSTE PRETENDE EVALUAR.SE REALIZA MEDIANTE JUICIO DE EXPERTOS.SE USA LA TABLA DE ESPECIFICACIONES COMO UNA DE LAS TÉCNICAS PARA EVALUAR LA VALIDEZ DE CONTENIDO.

CALCULO DE LA VALIDEZ DE CONTENIDO

CRITERIO DE LOS JUECES

Es la proporción que existe entre los juicios que coinciden conla definición propuesta por el autor (acuerdo A) y el total dejuicios emitidos (acuerdos A y desacuerdos D).Tomándose como válidos los reactivos cuyos valores seaniguales o mayores que 0,80 (Guilford, 1954).

IA = A / D

IA = Índice de acuerdoA = AcuerdoD = Desacuerdo

INDICE DE ACUERDO



Es un análisis estadístico que estudia laprobabilidad de obtener x objetos en unacategoría y n-x objetos en la otra (Hoel, 1976).

p = proporción de casos esperados en una de las categorías.q = 1 – p proporción de casos esperado en la otra categoría.D = Desacuerdo

PRUEBA BINOMIAL



Las categorías son p (acuerdos) y q(desacuerdos) y se asume que p = q = 0,50. Seelige esta prueba porque los datos sondicotómicos y se tiene un solo grupo de sujetos(Siegel, 1980).

El cálculo realizado nos da la probabilidad deocurrencia de manera directa de manera que sies menor de 0,05 o 0,01 se asume que el ítemposee validez de contenido.

PRUEBA BINOMIAL

COEFICIENTE DE VALIDEZ VV DE A IKEN: 1985

Es un coeficiente que se computa como larazón de un dato obtenido sobre la sumamáxima de la diferencia de los valoresposibles.

Puede ser calculado sobre la valoración de unconjunto de jueces con relación a un ítem ocomo valoraciones de un juez respecto a ungrupo de ítems. Asimismo las valoracionesasignadas pueden ser dicotómicas (recibirvalores de 0 o 1) o politómicas (recibir valoresde 0 a 5).


Este coeficiente puede obtener valores entre 0 y1, a medida que se más elevado el valorcomputado, el ítem tendrá una mayor validez decontenido.

El resultado puede evaluarse estadísticamentehaciendo uso de la tabla de probabilidadesasociadas de cola derecha.

Es precisamente esta posibilidad de evaluar susignificación estadística lo que hace a estecoeficiente uno de los más apropiadas paraestudiar este tipo de validez,

V = 9__ = 0,90 P= 0,001 VÁLIDO

10(2-1)

VALIDEZ DE CRITERIO

Establece la validez de un instrumento demedición comparando entre nuestra situaciónde medida y un estándar al que se le llamacriterio externo.

Este criterio es estándar con el que se juzga lavalidez del instrumento.

Es disponer de otra situación de lo que conozcosu validez.

Pero se requiere de consenso entre lacomunidad científica, se trabaja en relación alcriterio o Gold Standard (patrón de oro).

VALIDEZ DE CRITERIO

EVIDENCIA RELACIONADA CON EL

CRITERIO

Validez Concurrente: Si el Criteriose fija en el presente (a corto

plazo)

Validez Predictiva: Siel criterio se fija en

el futuro (a largoplazo)

Cuando el instrumento y el estándarse miden al mismo tiempo.Se lleva a cabo un análisis decorrelación y mientras más alta lacorrelación, mayor será la validez decriterio.Por ejemplo: se administra elinstrumento a un grupo y seguido serecoge una medida de desempeño.Contesta la pregunta ¿Carlos esexitoso?

VALIDEZ DE CRITERIOCONCURRENTE

VALIDEZ DE CRITERIOPREDICTIVA

Cuando el instrumento y el estándar no sonmedidos a la vez, en este último caso,debemos conocer previamente los datosdel estándar y lo que se obtiene es lapredicción. Se lleva a cabo un análisis decorrelación y mientras más alta lacorrelación, mayor será la validez decriterio.Por ejemplo: Se administra el instrumentoa un grupo, se deja pasar un tiempo (6meses) y se recoge la medida dedesempeño. Contesta la pregunta ¿SeráCarlos exitoso?

VALIDEZ DE CONSTRUCTO

La más importante desde una perspectivacientífica.Se refiere a que tan exitosamente uninstrumento representa y mide un conceptoteórico.Cuanto más elaborado y comprobado seencuentre la teoría que apoya la hipótesis,la validación de constructo arrojará mayorluz sobre la validez general de uninstrumento de medición.Se realiza mediante análisis de factores yotras pruebas multivariadas.


Se hace necesario partir de unmodelo teórico que especifiquelas relaciones teóricas, entre elrasgo latente o constructoteóricamente considerado y loselementos e indicadoresespecíficos , que se debansatisfacer empíricamente.


En este sentido un constructo hacereferencia a un rasgo, atributo ocualidad no observabledirectamente, sino que es inferirle através de una teoría. Ello implicaque la validez de constructo nopuede expresarse empíricamentemediante indicadores básicos comoun coeficiente de correlaciónsimple.

TÉCNICAS DE LA VALIDEZ DE

CONSTRUCTO

ANÁLISIS FACTORIAL

El análisis factorial es una técnicaestadística que examina la estructurainterna de la unidad de medida, mide silos indicadores tienen algo en común, esdecir si tienen un común denominador,mide las correlaciones entre losindicadores e intenta descubrir si hayalgo subyacente. Los ítems deben tenerun común denominador que debeaflorar estadísticamente. La estructurasubyacente o común denominador sellama factor

TÉCNICA DE LOS GRUPOS CONOCIDOS

Aplicar la validez a un criterio estándar, elprocedimiento consiste en aplicar elinstrumento a dos o más grupos y ver sidiscrimina.

Ejemplo: Un grupo de pacientes crónicoscompuesto por un grupo de pacienteshipertensos y otro grupo de pacientes conesclerosis múltiple. Si el instrumento demedida discrimina a ambos grupos (es decirme dice que los hipertensos tienen mayorcalidad de vida que los pacientes conesclerosis múltiple) es que tiene validez.

MATRIZ MULTIMÉTODO-MULTIRRASGO

El instrumento de medida introduce unafuente de variación, es la racionalidad.Ejemplo: medir el grado de satisfacciónmediante un cuestionario, una entrevista y laobservación y posteriormente se estudiará laconvergencia entre los tres resultados.Que se debe esperar en las medidas, quehaya convergencia (es decir granconcordancia entre lo que miden los tresmétodos).MTMM nos permite medir varios métodoscon varias variables.

La confiabilidad (oconsistencia) de un test es laprecisión con que el test midelo que mide, en unapoblación determinada y enlas condiciones normales deaplicación.

CONFIABILIDAD

La falta de confiabilidad de untest psicométrico esta enrelación con la intervención delerror. Se considera que el errores cualquier efecto irrelevantepara los fines o resultados de lamedición que influye sobre lafalta de confiabilidad de talmedición

FALTA DE CONFIABILIDAD

El error es de dos tipos:

a) Error constante (sistemático),que se produce cuando lasmediciones que se obtienen conuna escala sonsistemáticamente mayores omenores que lo que realmentedeben ser.


b) Error causal (al azar o nosistemático), que se producecuando las medidas sonalternativamente mayores omenores de lo que realmentedeben ser. Este último tipo deerror interviene cuando se afectala confiabilidad de un testpsicométrico.


Este error tiene que ver con lasalud, fatiga, motivación, tensiónemocional, fluctuaciones de lamemoria, condiciones externasde luz, humedad, ventilación,calor, distracción por problemasdel momento, familiaridad con laprueba, que presenta elexaminado al momento de dar eltest


MÉTODOS PARA OBTENER LA

CONFIABILIDAD DE UN TEST

MÉTODOS PARA OBTENER LA

CONFIABILIDAD DE UN TEST

1. Confiabilidad a través del tiempo

a. Test Retestb. Formar alternas o equivalentes

2. Confiabilidad o consistencia interna

a. Método de la equivalenciaracional o Alfa de Cronbach

b. Método de la división pormitades emparejadas:Spearman Brown, Guttman yAlfa de Cronbach

3. Confiabilidad entre evaluadores.

1. CONFIABILIDAD A TRAVÉS DEL TIEMPO

Se utiliza un grupo, donde se le administrael instrumento en dos tiempo diferentes.El tiempo entre la primera y la segundaadministración es un factor que hay quetomar en consideración.Mientras más tiempo pase entre laprimera y la segunda administración,menor puede ser el coeficiente deconfiabilidad.Los intervalos de tiempo pueden generarproblemas de mortalidad, efectos deaprendizaje o de memoria y maduración.

A. TEST - RETEST

Se le administra el instrumentoa un grupo de personas, se dejapasar un tiempo y luego seadministra el mismoinstrumento al mismo grupo.Se correlacionan los pares depuntuaciones, donde el índicede correlación debe fluctuarentre 0,70 a 1,00.

r = 0,7 a más

APLICACION

RESULTADOS

A. TEST - RETEST

B. FORMAR ALTERNAS O EQUIVALENTES

Se le administra dos o mas versionesequivalentes similares al contenidodel instrumento de medición.La forma A del instrumento a ungrupo de personas, se deja pasar untiempo y luego se administra laforma B del instrumento al mismogrupo.Se correlacionan los pares depuntuaciones, donde el índice decorrelación debe fluctuar entre 0,70a más

r = 0,7 a más

APLICACION

RESULTADOS

B. FORMAR ALTERNAS O EQUIVALENTES

2. CONFIABILIDAD DE CONSISTENCIA

INTERNA

Ayuda a determinar el grado deinterrelación que existe entre losreactivos de un instrumento.La consistencia interna no contemplalos elementos que afectan a laconfiabilidad a través del tiempo porlo que ambas técnicas soncomplementarias y no son iguales.En cierto modo trata de indagarsobre el grado de homogeneidad delas respuestas.

A. MÉTODO DE LA EQUIVALENCIA

RACIONAL O ALFA DE CRONBACH

Establece una relación entrereactivos y la puntuacióntotal del instrumento.Se usa mucho cuando hayescalas de medición tipoLikert.La correlación debe ser de0,7 a más.

ALFA DECRONBACH INTERPRETACION

0,53 a menos Confiabilidad nula

0,54 a 0,59 Confiabilidad baja

0,60 a 0,65 Confiable

0,66 a 0,71 Muy Confiable

0,72 a 0,79 Excelente Confiabilidad

0,80 a 1,0 Confiabilidad Perfecta



Los ítems cuyos coeficientes de correlación sonmenores a 0,35 deben ser o recodificadosreformulados o desechados (Cohen- Manion,1990).

B. MÉTODO DE LA DIVISIÓN POR MITADES

EMPAREJADAS: SPEARMAN BROWN, GUTTMAN Y

ALFA DE CRONBACH

Se divide la prueba en dosmitades colocando losreactivos impares a un lado ylos pares al otro.Se correlacionan ambasmitades.Se usa la fórmula de correcciónde Spearman Brown.El coeficiente de Correlacióndebe ser de 0,70 en adelante.

B. MÉTODO DE LA DIVISIÓN POR MITADES

EMPAREJADAS: SPEARMAN BROWN, GUTTMAN Y

ALFA DE CRONBACH

2468

10

13579

Correlación de Spearman Brownentre 0,7 a 1,0

NonesPares

3. CONFIABILIDAD ENTRE EVALUADORES.

Unos expertos en el contenidodel instrumento contestan elinstrumento.Se supone que laspuntuaciones sean similares.Se calcula un índice deconcordancia.A mayor concordancia, másconfiable resultará ser elinstrumento.