Mag. Fernando Ramos RamosDocente de la UNFV – UIGV – USMP - PUCP – CPAL
VALIDEZ Y CONFIABILIDAD
ESCALAS O
INVENTARIOS
EJECUCIÓN
TÍPICA
TESTS
EJECUCIÓN
MÁXIMA
PROPIEDAD PSICOMÉTRICAS
CONFIABILIDAD – VALIDEZ
MUESTRAS DE CONDUCTA NOESTRUCTURADAS –
OBSERVACIONES - ENCUESTAS NO SON TESTS
TESTS
TESTS
TESTS
Constructos Psicológicos
Teóricos IndicadoresConstructos
Se asignan números y seestablecen relaciones empíricas
Observables
Constructos
Indicadores
Constructos
Constructos
Constructos
Constructos
Constructos
Indicadores
Indicadores
Indicadores
Ítems
Propiedades psicométricas de los tests
Predictiva Retrospectiva
Discriminante PuntuaciónObservada
Evid
en
cia
sd
eV
alid
ez
Concurrente
Convergente
CONSTRUCTO
CONTENIDO
VALIDEZ
CRITERIO
FIABILIDAD
Puntuación Observada
Test- Retest
Estabilidad -Tiempo Consistencia interna
Homogeneidad
División por mitadesFormas Paralelas
Propiedades psicométricas de los tests
VALIDEZ
FIABILIDAD
Validez y Fiabilidad.Teoría de la Medición
Errores sistemáticos
Varianza defactores irrelevantes
SESGO
Constructo
PuntuaciónVerdadera
PuntuaciónObservada
Error de Medición
asistemáticos
VALIDEZFIABILIDAD
Hogan 2004: Es el grado en que untest mide lo que pretende medir, serefiere al grado en que uninstrumento o conjunto deoperaciones mide lo que dice medir.
Martínez, 2006: Es una inferencia, sepresenta como el proceso dedeterminar si la teoría y lasevidencias empíricas respaldan estainferencia.
DEFINICIÓN DE VALIDEZ
TIPOS DE VALIDEZ
TIPOS DE VALIDEZ
Evidenciasde
Validez
VALIDEZ DECONSTRUCTO
VALIDEZ DECRITERIO
VALIDEZ DECONTENIDO
VALIDEZ GLOBAL DEL TEST
VALIDEZ DECONTENIDO
VALIDEZDE
CRITERIO
VALIDEZ DECONSTRUCTO
VALIDEZGLOBAL
ENTRE MAYOR EVIDENCIA DE VALIDEZ DE CONTENIDOS,VALIDEZ DE CRITERIO Y VALIDEZ DE CONSTRUCTO TENGA
UN INSTRUMENTO DE MEDICIÓN, ÉSTE SE ACERCA MÁS A
REPRESENTAR LA VARIABLE O VARIABLES QUE PRETENDE
MEDIR.UN INSTRUMENTO PUEDE SER FIABLE PERO NO VALIDO,PUEDE MEDIR CONSISTENTEMENTE UN ASPECTO, MAS NO
MEDIR LO QUE PRETENDE MEDIR.
VALIDEZ DE CONTENIDO
Grado en que un instrumento refleja undominio específico del contenido que semide.
Nunnally 1973: Es el grado en que losítems que constituyen el instrumentotienen el dominio del contenido que semide.
Un instrumento de medición debe tenerrepresentados a todos los ítems deldominio de contenido de las variables amedir.
VALIDEZ DE CONTENIDO
ILUSTRACIÓN DE UN INSTRUMENTO DE MEDICIÓN CON
VALIDEZ DE CONTENIDO VERSUS CON UNO QUE CARECE DE
ÉSTA
L RE AN MA ZU G
Ñ
DOMINIO DE VARIABLE
L RE AN MA ZU G
L E
INSTRUMENTO
CON VALIDEZ DE
CONTENIDO
INSTRUMENTO
SIN VALIDEZ DE
CONTENIDO
EL INSTRUMENTO DEBE CONTENER TODOS LOS ASPECTOS O ÍTEMS DEL DOMINIO DE LA VARIABLE QUE SE ESTA
MIDIENDO, Y SE CONSTRUYE DE ACUERDO CON LA TEORÍA.SU FINALIDAD ES GARANTIZAR QUE EL TEST CONSTITUYE UNA MUESTRA ADECUADA Y REPRESENTATIVA DEL
CONTENIDO QUE ÉSTE PRETENDE EVALUAR.SE REALIZA MEDIANTE JUICIO DE EXPERTOS.SE USA LA TABLA DE ESPECIFICACIONES COMO UNA DE LAS TÉCNICAS PARA EVALUAR LA VALIDEZ DE CONTENIDO.
CALCULO DE LA VALIDEZ DE CONTENIDO
CRITERIO DE LOS JUECES
Es la proporción que existe entre los juicios que coinciden conla definición propuesta por el autor (acuerdo A) y el total dejuicios emitidos (acuerdos A y desacuerdos D).Tomándose como válidos los reactivos cuyos valores seaniguales o mayores que 0,80 (Guilford, 1954).
IA = A / D
IA = Índice de acuerdoA = AcuerdoD = Desacuerdo
INDICE DE ACUERDO
CALCULO DE LA VALIDEZ DE CONTENIDO
CRITERIO DE LOS JUECES
Es un análisis estadístico que estudia laprobabilidad de obtener x objetos en unacategoría y n-x objetos en la otra (Hoel, 1976).
p = proporción de casos esperados en una de las categorías.q = 1 – p proporción de casos esperado en la otra categoría.D = Desacuerdo
PRUEBA BINOMIAL
CALCULO DE LA VALIDEZ DE CONTENIDO
CRITERIO DE LOS JUECES
Las categorías son p (acuerdos) y q(desacuerdos) y se asume que p = q = 0,50. Seelige esta prueba porque los datos sondicotómicos y se tiene un solo grupo de sujetos(Siegel, 1980).
El cálculo realizado nos da la probabilidad deocurrencia de manera directa de manera que sies menor de 0,05 o 0,01 se asume que el ítemposee validez de contenido.
PRUEBA BINOMIAL
COEFICIENTE DE VALIDEZ VV DE A IKEN: 1985
Es un coeficiente que se computa como larazón de un dato obtenido sobre la sumamáxima de la diferencia de los valoresposibles.
Puede ser calculado sobre la valoración de unconjunto de jueces con relación a un ítem ocomo valoraciones de un juez respecto a ungrupo de ítems. Asimismo las valoracionesasignadas pueden ser dicotómicas (recibirvalores de 0 o 1) o politómicas (recibir valoresde 0 a 5).
COEFICIENTE DE VALIDEZ VV DE A IKEN: 1985
Este coeficiente puede obtener valores entre 0 y1, a medida que se más elevado el valorcomputado, el ítem tendrá una mayor validez decontenido.
El resultado puede evaluarse estadísticamentehaciendo uso de la tabla de probabilidadesasociadas de cola derecha.
Es precisamente esta posibilidad de evaluar susignificación estadística lo que hace a estecoeficiente uno de los más apropiadas paraestudiar este tipo de validez,
COEFICIENTE DE VALIDEZ VV DE A IKEN: 1985
V = 9__ = 0,90 P= 0,001 VÁLIDO
10(2-1)
VALIDEZ DE CRITERIO
Establece la validez de un instrumento demedición comparando entre nuestra situaciónde medida y un estándar al que se le llamacriterio externo.
Este criterio es estándar con el que se juzga lavalidez del instrumento.
Es disponer de otra situación de lo que conozcosu validez.
Pero se requiere de consenso entre lacomunidad científica, se trabaja en relación alcriterio o Gold Standard (patrón de oro).
VALIDEZ DE CRITERIO
EVIDENCIA RELACIONADA CON EL
CRITERIO
Validez Concurrente: Si el Criteriose fija en el presente (a corto
plazo)
Validez Predictiva: Siel criterio se fija en
el futuro (a largoplazo)
Cuando el instrumento y el estándarse miden al mismo tiempo.Se lleva a cabo un análisis decorrelación y mientras más alta lacorrelación, mayor será la validez decriterio.Por ejemplo: se administra elinstrumento a un grupo y seguido serecoge una medida de desempeño.Contesta la pregunta ¿Carlos esexitoso?
VALIDEZ DE CRITERIOCONCURRENTE
VALIDEZ DE CRITERIOPREDICTIVA
Cuando el instrumento y el estándar no sonmedidos a la vez, en este último caso,debemos conocer previamente los datosdel estándar y lo que se obtiene es lapredicción. Se lleva a cabo un análisis decorrelación y mientras más alta lacorrelación, mayor será la validez decriterio.Por ejemplo: Se administra el instrumentoa un grupo, se deja pasar un tiempo (6meses) y se recoge la medida dedesempeño. Contesta la pregunta ¿SeráCarlos exitoso?
VALIDEZ DE CONSTRUCTO
La más importante desde una perspectivacientífica.Se refiere a que tan exitosamente uninstrumento representa y mide un conceptoteórico.Cuanto más elaborado y comprobado seencuentre la teoría que apoya la hipótesis,la validación de constructo arrojará mayorluz sobre la validez general de uninstrumento de medición.Se realiza mediante análisis de factores yotras pruebas multivariadas.
VALIDEZ DE CONSTRUCTO
Se hace necesario partir de unmodelo teórico que especifiquelas relaciones teóricas, entre elrasgo latente o constructoteóricamente considerado y loselementos e indicadoresespecíficos , que se debansatisfacer empíricamente.
VALIDEZ DE CONSTRUCTO
En este sentido un constructo hacereferencia a un rasgo, atributo ocualidad no observabledirectamente, sino que es inferirle através de una teoría. Ello implicaque la validez de constructo nopuede expresarse empíricamentemediante indicadores básicos comoun coeficiente de correlaciónsimple.
TÉCNICAS DE LA VALIDEZ DE
CONSTRUCTO
ANÁLISIS FACTORIAL
El análisis factorial es una técnicaestadística que examina la estructurainterna de la unidad de medida, mide silos indicadores tienen algo en común, esdecir si tienen un común denominador,mide las correlaciones entre losindicadores e intenta descubrir si hayalgo subyacente. Los ítems deben tenerun común denominador que debeaflorar estadísticamente. La estructurasubyacente o común denominador sellama factor
TÉCNICA DE LOS GRUPOS CONOCIDOS
Aplicar la validez a un criterio estándar, elprocedimiento consiste en aplicar elinstrumento a dos o más grupos y ver sidiscrimina.
Ejemplo: Un grupo de pacientes crónicoscompuesto por un grupo de pacienteshipertensos y otro grupo de pacientes conesclerosis múltiple. Si el instrumento demedida discrimina a ambos grupos (es decirme dice que los hipertensos tienen mayorcalidad de vida que los pacientes conesclerosis múltiple) es que tiene validez.
MATRIZ MULTIMÉTODO-MULTIRRASGO
El instrumento de medida introduce unafuente de variación, es la racionalidad.Ejemplo: medir el grado de satisfacciónmediante un cuestionario, una entrevista y laobservación y posteriormente se estudiará laconvergencia entre los tres resultados.Que se debe esperar en las medidas, quehaya convergencia (es decir granconcordancia entre lo que miden los tresmétodos).MTMM nos permite medir varios métodoscon varias variables.
La confiabilidad (oconsistencia) de un test es laprecisión con que el test midelo que mide, en unapoblación determinada y enlas condiciones normales deaplicación.
CONFIABILIDAD
La falta de confiabilidad de untest psicométrico esta enrelación con la intervención delerror. Se considera que el errores cualquier efecto irrelevantepara los fines o resultados de lamedición que influye sobre lafalta de confiabilidad de talmedición
FALTA DE CONFIABILIDAD
El error es de dos tipos:
a) Error constante (sistemático),que se produce cuando lasmediciones que se obtienen conuna escala sonsistemáticamente mayores omenores que lo que realmentedeben ser.
FALTA DE CONFIABILIDAD
b) Error causal (al azar o nosistemático), que se producecuando las medidas sonalternativamente mayores omenores de lo que realmentedeben ser. Este último tipo deerror interviene cuando se afectala confiabilidad de un testpsicométrico.
FALTA DE CONFIABILIDAD
Este error tiene que ver con lasalud, fatiga, motivación, tensiónemocional, fluctuaciones de lamemoria, condiciones externasde luz, humedad, ventilación,calor, distracción por problemasdel momento, familiaridad con laprueba, que presenta elexaminado al momento de dar eltest
FALTA DE CONFIABILIDAD
MÉTODOS PARA OBTENER LA
CONFIABILIDAD DE UN TEST
MÉTODOS PARA OBTENER LA
CONFIABILIDAD DE UN TEST
1. Confiabilidad a través del tiempo
a. Test Retestb. Formar alternas o equivalentes
2. Confiabilidad o consistencia interna
a. Método de la equivalenciaracional o Alfa de Cronbach
b. Método de la división pormitades emparejadas:Spearman Brown, Guttman yAlfa de Cronbach
3. Confiabilidad entre evaluadores.
1. CONFIABILIDAD A TRAVÉS DEL TIEMPO
Se utiliza un grupo, donde se le administrael instrumento en dos tiempo diferentes.El tiempo entre la primera y la segundaadministración es un factor que hay quetomar en consideración.Mientras más tiempo pase entre laprimera y la segunda administración,menor puede ser el coeficiente deconfiabilidad.Los intervalos de tiempo pueden generarproblemas de mortalidad, efectos deaprendizaje o de memoria y maduración.
A. TEST - RETEST
Se le administra el instrumentoa un grupo de personas, se dejapasar un tiempo y luego seadministra el mismoinstrumento al mismo grupo.Se correlacionan los pares depuntuaciones, donde el índicede correlación debe fluctuarentre 0,70 a 1,00.
r = 0,7 a más
APLICACION
RESULTADOS
A. TEST - RETEST
B. FORMAR ALTERNAS O EQUIVALENTES
Se le administra dos o mas versionesequivalentes similares al contenidodel instrumento de medición.La forma A del instrumento a ungrupo de personas, se deja pasar untiempo y luego se administra laforma B del instrumento al mismogrupo.Se correlacionan los pares depuntuaciones, donde el índice decorrelación debe fluctuar entre 0,70a más
r = 0,7 a más
APLICACION
RESULTADOS
B. FORMAR ALTERNAS O EQUIVALENTES
2. CONFIABILIDAD DE CONSISTENCIA
INTERNA
Ayuda a determinar el grado deinterrelación que existe entre losreactivos de un instrumento.La consistencia interna no contemplalos elementos que afectan a laconfiabilidad a través del tiempo porlo que ambas técnicas soncomplementarias y no son iguales.En cierto modo trata de indagarsobre el grado de homogeneidad delas respuestas.
A. MÉTODO DE LA EQUIVALENCIA
RACIONAL O ALFA DE CRONBACH
Establece una relación entrereactivos y la puntuacióntotal del instrumento.Se usa mucho cuando hayescalas de medición tipoLikert.La correlación debe ser de0,7 a más.
ALFA DECRONBACH INTERPRETACION
0,53 a menos Confiabilidad nula
0,54 a 0,59 Confiabilidad baja
0,60 a 0,65 Confiable
0,66 a 0,71 Muy Confiable
0,72 a 0,79 Excelente Confiabilidad
0,80 a 1,0 Confiabilidad Perfecta
A. MÉTODO DE LA EQUIVALENCIA
RACIONAL O ALFA DE CRONBACH
Los ítems cuyos coeficientes de correlación sonmenores a 0,35 deben ser o recodificadosreformulados o desechados (Cohen- Manion,1990).
A. MÉTODO DE LA EQUIVALENCIA
RACIONAL O ALFA DE CRONBACH
B. MÉTODO DE LA DIVISIÓN POR MITADES
EMPAREJADAS: SPEARMAN BROWN, GUTTMAN Y
ALFA DE CRONBACH
Se divide la prueba en dosmitades colocando losreactivos impares a un lado ylos pares al otro.Se correlacionan ambasmitades.Se usa la fórmula de correcciónde Spearman Brown.El coeficiente de Correlacióndebe ser de 0,70 en adelante.
B. MÉTODO DE LA DIVISIÓN POR MITADES
EMPAREJADAS: SPEARMAN BROWN, GUTTMAN Y
ALFA DE CRONBACH
2468
10
13579
Correlación de Spearman Brownentre 0,7 a 1,0
NonesPares
3. CONFIABILIDAD ENTRE EVALUADORES.
Unos expertos en el contenidodel instrumento contestan elinstrumento.Se supone que laspuntuaciones sean similares.Se calcula un índice deconcordancia.A mayor concordancia, másconfiable resultará ser elinstrumento.