Confibialidad y Validez

República Bolivariana de Venezuela

Ministerio de Educación Superior

Vicerrectorado Académico

Universidad Bicentenaria de Aragua

Faculta de ciencias Administrativas y Sociales

Escuela de Psicología

San Joaquín de Turmero

Confiabilidad y

Validez

Prof. Arquímedes Ramírez Autores:

Margret Montero C.I. 22.344.723

José Miguel Dona C.I. 24.387.127

Susana Álvarez C.I. 19.586.975

Evelin Benavides C.I. 19.724.867

Anthony Simone C.I. 19.793.071

San Joaquín de Turmero, 19 de Julio de 2011

Introducción

La palabra estadística se deriva del latín Status que en la época medieval se

traducía como estado político, el significado de la estadística era la exposición

sistemática de las características más destacadas del estado. Esta se ha utilizado desde

los comienzos de la civilización, así pues, desde la antigüedad ya se utilizaban formas

sencillas de estadística, como por ejemplo, representaciones gráficas y otros símbolos

en pieles y paredes de curva para contar el número de personas, animales y cosas.

Hoy en día la estadística se ha convertido en un método efectivo para describir

con exactitud los valores de datos económicos, políticos, sociales, biológicos,

Psicológicos y físicos, de una determinada población. A raíz de la estadística nace

una nueva ciencia llamada Psicoestadistica y de ella la Psicometría esta nos sirve

como herramienta para seleccionar y analizar datos, en ciertos campos (psicología

sanitaria, social, experimental, neurociencias, etc.) por esta razón se hace necesario

conocer una serie de elementos que intervienen de manera muy directa en los

diferentes procesos Psicométricos, los cuales algunos de estos elementos han sido

investigados, para la elaboración de el presente trabajo escrito. Los puntos destacados

son: la confiabilidad y validez, temas que facilitan al psicólogo la implementación de

test, análisis de los resultados y su clasificación, destacando que la confiabilidad es un

aspecto vital en los tests, ya que sin esta no se puede aplicar un test, no obstante es

importante la validez ya que esta nos permite medir el propósito del test, sin embargo

la confiabilidad es una condición necesaria, pero no suficiente para la validez, esto

quiere decir que una prueba o test puede ser confiable sin ser válida, y no puede ser

válida sin ser confiable.

Para realizar este trabajo escrito también se usaron muchos conocimientos

adquiridos en nuestros estudios, la utilización de fuentes de internet, libros tales como

test psicológicos y evaluación, entre otros instrumentos de investigación.

La validez y confiabilidad

Validez

Desde el punto de vista psicométrico, la validez es el resultado de un proceso de

recopilación de evidencias empíricas sustentado en supuestos teóricos que, en suma,

permiten emitir un juicio valorativo que afirme la pertinencia y la suficiencia de las

interpretaciones basadas en los resultados de una prueba. Este juicio no depende úni-

camente de los ítemes de la prueba, sino también de la muestra sobre la que se efectúe

el test, y del contexto de aplicación.

Esta es la capacidad de un instrumento de medición para cuantificar de for-

ma significativa y adecuada el rasgo para cuya medición ha sido diseñado. De esta

forma, un instrumento de medida es válido si realmente mide aquello que pretende

medir.

Parsons señala que "la condición más decisiva para que un análisis dinámico

sea válido, es que cada problema se refiera continua y sistemáticamente al estado

del sistema considerado como un todo" (en: Lyotard, 1989, p. 31). Así, para Messi-

ck (1984, pp. 741), «la validez unificada integra consideraciones de contenido, crite-

rio y consecuencias en un marco de referencia de constructo para la evaluación em-

pírica de hipótesis racionales acerca del significado de las puntuaciones y de relacio-

nes relevantes desde el punto de vista teórico, incluyendo las de naturaleza científica

y aplicada»

Tipos de Validez

Existen diversos tipos de validez, estos mantienen una relación de influencia re-

cíproca y conforman las diversas partes de un todo, que es lo que conocemos de for-

ma genérica como "validez".

Validez de contenido

La validez de construcciones es la más importante, trata de establecer una

medida operacional para los conceptos usados; en el campo psicológico, por ejem-

plo, se trataría de que el instrumento mida la propiedad o propiedades psicológicas

aisladas que subyacen a la variable. Esta validez no es fácil de entender, ya que se

encuentra inmersa en el marco de referencia científico de la investigación y su

metodología. Éstos son los que le dan sentido.

Se dice que una prueba o test cumple con las condiciones de validez de conteni-

do si constituye una muestra adecuada y representativa de los contenidos y alcance

del constructo o dimensión a evaluar.

En el campo de la psicología no siempre es posible disponer de poblaciones de

contenidos bien definidas (por ejemplo, si se pretenden medir variables psicológicas

clásicas, como la extraversión, la inteligencia o el liderazgo). En estos casos suele re-

currirse a un análisis racional de ítems, consistente en la evaluación de los contenidos

del test por parte de un grupo de expertos en el área a tratar. La validez de contenido

es esencial a la hora de realizar inferencias o generalizaciones a partir de los resulta-

dos del test.

Un caso particular de la validez de contenido es la denominada «validez aparen-

te»; una prueba posee una validez aparente adecuada cuando produce en los sujetos a

los que se aplica la impresión de que efectivamente es una prueba adecuada.

Validez predictiva

También conocida como «validez relativa al criterio» o «validez de

pronóstico», se refiere al grado de eficacia con que se puede predecir o pronosticar

una variable de interés (criterio) a partir de las puntuaciones en un test.

Así pues, la operacionalización del concepto se realiza a partir del

denominado coeficiente de validez, que es la correlación entre el test y el criterio. A

mayor correlación, mayor capacidad predictiva del test. Existen distintos diseños

experimentales que permiten determinar esta correlación. La elección de un diseño u

otro dependerá de las necesidades y circunstancias específicas de cada caso:

Validez concurrente o simultánea: El test y el criterio se miden al mismo

tiempo. Puede utilizarse para validar un nuevo test por comparación con otro

ya validado previamente.

Validez de pronóstico: El criterio se mide pasado un periodo de tiempo tras

la aplicación del test. Es el tipo más habitual en los procesos de selección de

personal, en los que se pretende predecir el rendimiento futuro de los sujetos.

Validez retrospectiva: El test se aplica un tiempo después del criterio que se

pretende evaluar. Útil cuando se pretende dilucidar mediante una prueba algún

aspecto del pasado que actualmente no es accesible.

La fórmula general del coeficiente de validez es:

Donde "x" hace referencia a las puntuaciones obtenidas en el test, e "y" hace

referencia a las puntuaciones obtenidas en la variable criterio.

Validez de constructo

Para Messick (1980; p.1015) «la validez de constructo es el concepto unificador

que integra las consideraciones de validez de contenido y de criterio en un marco

común para probar hipótesis acerca de relaciones teóricamente relevantes».

Asimismo, Cronbach (1984; p.126) refiere que «la meta final de la validación es la

explicación y comprensión, y por tanto, esto nos lleva a considerar que toda validez

es validación de constructo».

Los procedimientos metodológicos más utilizados para la obtención de datos

referentes a la validez de constructos psicológicos han sido el análisis factorial y la

matriz multirrasgo - multimétodo.

Validez convergente-discriminante

Este tipo de validez se determina a partir de los resultados arrojados por la

matriz multirrasgo - multimétodo (diseño MRMM, sistematizado por Campbell y

Fiske en 1959). El sistema consiste en realizar mediciones de varios rasgos con

distintos métodos de medición. De este modo podemos encontrarnos con varios

resultados.

Validez convergente: existe validez convergente cuando las mediciones del

mismo rasgo realizadas con distintos métodos correlacionan entre sí. El hecho

de que un mismo rasgo sea detectado por igual con varias metodologías dife-

rentes, es un indicador fiable de la existencia real de ese rasgo. Se dice que en

este caso, las medidas convergen.

Validez discriminante: se refiere al grado de diferenciación entre distintos

constructos a partir de un único sistema de medición. Es decir, las medidas de

distintos rasgos por el mismo método muestran una baja correlación en com-

paración con la que muestran las medidas del mismo rasgo con diferentes mé-

todos, señal de que los rasgos son independientes entre sí, e independientes al

sistema Muñiz, José (1998).

Confiabilidad.

La confiabilidad en el instrumento psicométrico mas que ser una característi -

ca de una prueba, es una propiedad en las puntuaciones obtenidas cuando se admi-

nistra la prueba a un grupo particular de personas en una ocasión determinada y

bajo condiciones específicas. (Thompson, 1994, p. 85)

También la confiabilidad tiene dos caras, una interna y otra externa: hay

confiabilidad interna cuando varios observadores, al estudiar la misma realidad,

concuerdan en sus conclusiones; hay confiabilidad externa cuando investigadores

independientes, al estudiar una realidad en tiempos o situaciones diferentes, llegan

a los mismos resultados.

En las ciencias humanas es prácticamente imposible reproducir las condicio-

nes exactas en que “un comportamiento” y su estudio tuvieron lugar. Ya Herácli-

to dijo en su tiempo que "nadie se bañaba dos veces en el mismo río"; y Cratilo le

añadió que "no era posible hacerlo ni siquiera una sola vez", ya que el agua está

fluyendo continuamente (Aristóteles, Metafísica, iv, 5).

La Confiabilidad está orientada hacia el nivel de concordancia interpretativa

entre diferentes observadores, evaluadores o jueces del mismo fenómeno. Se con-

sidera un buen nivel de esta confiabilidad cuando alcanza un 70%.

La confiabilidad interna es muy importante. En efecto, el nivel de consenso entre

diferentes observadores de la misma realidad eleva la credibilidad que merecen las

estructuras significativas descubiertas en un determinado ambiente, así como la

seguridad de que el nivel de congruencia de los fenómenos en estudio es fuerte y

sólido.

La Teoría Clásica de los Tests

En el marco de la Teoría Clásica de los Tests, según el modelo lineal clásico

propuesto por Charles Spearman (1904, 1907, 1913); la puntuación empírica (X) que

obtiene un sujeto en un test, es la suma de dos componentes: la puntuación verdadera

(V) y el inevitable error de medida asociado al instrumento. Es decir, si a la

puntuación empírica (obtenida en la prueba) se le elimina el error de medida, se

obtendrá la puntuación verdadera. En este contexto, la fiabilidad hace referencia a la

proporción de la varianza verdadera, es decir, la parte de la varianza total que los

ítems discriminan por lo que tienen en común. Siguiendo este razonamiento,

obtendríamos:

Donde ρxx' es el símbolo de la fiabilidad de las

puntuaciones observadas (X); y , , y son las varianzas de las puntuaciones

empíricas, verdaderas y de error, respectivamente. Dado que no existe modo alguno

de determinar la puntuación verdadera directamente, existe una serie de métodos para

realizar una estimación de la fiabilidad.

Pruebas Paralelas

Este procedimiento es el que se deriva naturalmente del modelo. Requiere que se

utilicen dos pruebas o instrumentos paralelos, esto es, que midan lo mismo de forma

diferente (por ejemplo, dos tests que con diferentes preguntas midan un

determinado rasgo). Después se comparan los dos tests, calculando el coeficiente de

correlación de Pearson. Si la correlación es alta, se considera que hay una buena

fiabilidad. Al valor obtenido también se le conoce como coeficiente de equivalencia,

en la medida en que supone un indicador del grado de equivalencia entre las dos

formas paralelas de un test.

La dificultad de este procedimiento radica en conseguir que dos instrumentos sean

realmente "paralelos", dada la dificultad que supone realizar dos pruebas que midan

exactamente lo mismo, pero con diferentes ítems. No obstante, en condiciones ideales

en las que se pueda garantizar el paralelismo de ambas formas, este es el método más

recomendable. En estadística, el coeficiente de correlación de Pearson es un índice

que mide la relación lineal entre dos variables aleatorias cuantitativas. A diferencia de

la covarianza, la correlación de Pearson es independiente de la escala de medida de

las variables.

En el caso de que se esté estudiando dos variables aleatorias x e y sobre

una población estadística; el coeficiente de correlación de Pearson se simboliza con la

letra ρx,y, siendo la expresión que nos permite calcularlo:

Dónde:

σXY es la covarianza de (X,Y)

σX es la desviaciones típicas de la variable X

σY es la desviaciones típicas de la variable Y

También se puede calcular este coeficiente sobre un estadístico muestral, denotado

como rxy a:

Interpretación

El valor del índice de correlación varía en el intervalo [-1,1]:

Si r = 1, existe una correlación positiva perfecta. El índice indica una depen-

dencia total entre las dos variables denominada relación directa: cuando una

de ellas aumenta, la otra también lo hace en proporción constante.

Si 0 < r < 1, existe una correlación positiva.

Si -1 < r < 0, existe una correlación negativa.

Si r = -1, existe una correlación negativa perfecta. El índice indica una rela-

ción inversa: cuando una de ellas aumenta, la otra disminuye en proporción

constante.

Test-retest

Con este método el coeficiente de fiabilidad se calcula pasando mismo test dos veces

a los mismos sujetos. Se pueden pasar inmediatamente, o dejando un intervalo de

tiempo entre el test y el retest. Después se calcula la correlación de Pearson entre las

puntuaciones de ambas aplicaciones, y el resultado obtenido será el coeficiente de

fiabilidad. Se considera un caso específico de formas paralelas, dado que

evidentemente un test es paralelo a sí mismo. Al resultado obtenido se le denomina

coeficiente de estabilidad, al servir de indicador de hasta qué punto son estables las

mediciones realizadas durante la primera aplicación del test. Las diferencias en los

resultados se atribuyen al grado de consistencia interna o muestreo de los ítems de la

prueba en el caso de pasar el retest de forma inmediata, y se le suman las

fluctuaciones en el tiempo en el caso del intervalo temporal.

Dejar transcurrir un espacio de tiempo excesivo entre ambas aplicaciones puede

suponer una amenaza a la validez interna por las posibles influencias externas a la

que pueden estar expuestos los sujetos durante el intervalo, y que pueden afectar a su

desempeño en la segunda aplicación. En el extremo opuesto, una aplicación

demasiado apresurada del retest podría afectar igualmente a la validez interna, en este

caso por los posibles efectos del recuerdo reciente de la primera aplicación. La

elección del intervalo de tiempo adecuado entre ambas aplicaciones dependerá en

gran medida del tipo de test, ya que en función de su formato puede ser más sensible

al efecto de una u otra amenaza.

Dos mitades

Este método sólo requiere una aplicación del test. Tras obtener las puntuaciones

obtenidas por los sujetos en cada una de las dos mitades en que se habrá dividido, se

procede a calcular la correlación entre las dos puntuaciones. El resultado obtenido

será un indicador de la covariación entre ambas mitades, es decir, de la consistencia

interna del test. Un sistema habitual es dividir el test entre los ítems pares y los

impares; no es recomendable dividirlo sin más por la mitad, dado que muchos tests

muestran un incremento gradual de la dificultad de sus ítems.

Otros métodos basados en la consistencia interna

Alfa de Cronbach (1951): El coeficiente alfa (α) es un indicador de la fiabili-

dad de un test basado en su grado de consistencia interna. Indica el grado en

que los ítems de un test covarían.

Coeficientes de Kuder-Richardson (1937): Se trata de dos fórmulas aplica-

bles a sendos casos particulares de alfa. KR20 se aplica en el caso en que los

ítems del test sean dicotómicos, y KR21, en el caso de que además de ser dico-

tómicos, tengan la misma dificultad.

Método de Rulon (1939): Una estimación de la fiabilidad de un test a partir

de las puntuaciones obtenidas en sus dos mitades. Considera que la diferencia

entre las dos mitades se debe sólo al error aleatorio. Formula de Rulon:

ρ xx=1−σ 2

ρ−i

σ x2

Método de Guttman/Flanagan (1945/1937): Otra fórmula basada en la con-

sistencia interna, equivalente a la de Rulon.

Coeficiente beta (β): Propuesto por Raju (1977) para calcular la fiabilidad de

una batería compuesta por diversos subtests. En los casos en los que se desea

calcular la fiabilidad de una batería, se trata a los distintos subtests como si

fueran los ítems de un único test y se calcula el coeficiente alfa global. El pro-

blema surge en los casos en los que los distintos subtests no tienen el mismo

número de ítems, lo que suele ser lo más frecuente, y que repercute en una in-

fraestimación del alfa global. El coeficiente beta permite sortear esta infraesti-

mación.

Coeficientes theta (θ) y omega (Ω): Basados en el análisis factorial de los

ítems, son indicadores de la consistencia interna similares al coeficiente alfa.

El coeficiente theta fue desarrollado por Carmines y Zeller (1979); y el coefi-

ciente omega fue desarrollado por Heise y Bohrnstedt (1970).

Conclusión

La confiabilidad se refiere a la libertad relativa que tienen las calificaciones de

las pruebas de los errores de medición por tal esta se define como la razón de la

varianza de las calificación real en una prueba con la varianza de su clasificación

observada.

Tres métodos tradicionales para estimar la confiabilidad de un instrumento de

evaluación son: test retest, pruebas paralelas y de dos mitades.

La confiabilidad a su vez es una prueba que varía directamente con el número

de reactivos del grupo que la presenta. También varía con el nivel de dificultad de los

reactivos que componen la prueba, siendo más alta con reactivos de dificultad

intermedia.

La validez es el resultado de un proceso de recopilación de evidencias

empíricas sustentado en supuestos teóricos que, en suma, permiten emitir un juicio

valorativo que afirme la pertinencia y la suficiencia de las interpretaciones basadas en

los resultados de una prueba.

La información sobre la validez de una prueba puede obtenerse de varias

maneras: analizando el contenido de la prueba (validez de contenido),

correlacionando las calificaciones del test con calificaciones en un criterio medidas al

mismo tiempo (validez concurrente), correlacionando las calificaciones de la prueba

en un criterio, medidas en un momento posterior (validez predictiva) y por el estudio

sistematico de lo adecuado de la prueba para valorar un constructo psicológico

especificando (validez de constructo). La validez concurrente y la de constructo son

importantes para las pruebas de personalidad.

Las pruebas psicológicas se aplican con propósitos de selección, clasificación,

promoción y valoración periódica, en algunos de los procedimientos estadísticos que

se utilizan son tablas de expectativas, razones de selección, métodos de limites

múltiples y regresión múltiple.

Recomendación

La continuación de la investigación de los temas tales como confiabilidad y

validez a los futuros estudiantes de psicología con respecto a los temas pertenecientes

a la asignatura de psicometría I, por ser un tema de suma importancia para el

desarrollo de test y evaluaciones psicológicas.

La formación de psicólogo depende del buen desarrollo de los temas de

psicometría I, y el profesionalismo de los docentes en la explicación y evaluación de

los contenidos asignados para tal materia, como es el caso del profesor Arquímedes

Ramírez, que motivo a la investigación y estudio de estos temas tan importantes para

el psicólogo.

Bibliografía

Tests psicológicos y evaluación, editorial: Pearson Educación, 2003 México

Teoría clásica de los tests (5ª edición). Editorial Pirámide.1998. Madrid

Papeles del psicólogo Edición empleado España (Consejo General de Colegios Ofi-

ciales de Psicólogos) publicado el 16 de febrero de 2011.

Aristóteles (1973). Obras completas. Madrid: Aguilar.

Confibialidad y Validez

Documents

Transcript of Confibialidad y Validez