TEORIA DE LOS TEST Y FUNDAMENTOS DE MEDICION

CIENCIA Y PSICOLOGIA

Visite este Link http://www.yumpu.com/es/document/view/57027781


http://www.yumpu.com/es/document/view/57027781/ciencia-y-psicologia

Autor:

Nelly Carolina Acosta

16-1845

Estudiante Psicología

Basado en el Libro

Gregory, R. J. (2012).

psicológicas: Historia, principios y

aplicaciones.

Educación.


Carolina Acosta

Estudiante Psicología

Basado en el Libro

Gregory, R. J. (2012). Pruebas

psicológicas: Historia, principios y

aplicaciones.. México: Pearson

2

Febrero, 2017


Febrero, 2017

Pruebas Psicológicas 03 Principales tipos de pruebas 05 Aplicaciones y consecuencias de la evaluación psicológica 07 Historia de la evaluación psicológica 09 Normas y confiabilidad 12 Validez y desarrollo de las pruebas 16 16

Para comprender mejor el contenido de este tema debemos son Procedimiento estandarizado para de categorías o calificaciones. Además, la mayoría de las pruebas tienen normas oestándares que permiten usar los resultados para predeciimportantes.

La evaluación puede definirse como la o más atributos en una persona. La evaluación de las características humanas implica observaciones, entrevistas, listas de cotejo, inventarios, pruebas proyectivas y otras pruebas psicológicas La mayoría de las pruebas poseen ciertas características que las definen: • Son procedimientos estandarizados • Consideran una muestra de la conducta • Permiten obtener puntuaciones o derivar categorías • Contemplan normas o estándares • Predicen conductas no evaluada

mejor el contenido de este tema debemos conocer que Procedimiento estandarizado para muestrear la conducta y describirla por medio

ones. Además, la mayoría de las pruebas tienen normas ousar los resultados para predecir otras conductas más

Las pruebas se utilizan casi en cualquier país del mundo con fines de orientación, selección y colocación, en escenarios tan diversos como escuelas, oficinas gubernamentales, industrias, clínicas médicas y centros de orientación. La mayoría de las personas han resuelto docenas de pruebas sin siquiera reparar en ello. No obstante, en el momento en el que el individuo típico alcanza la edad de jubilación, es muy probable que los resultados de las pruebas psicológicas hayan afectado su destino.

puede definirse como la valoración o estimación de la magnitud de uno o más atributos en una persona. La evaluación de las características humanas implica observaciones, entrevistas, listas de cotejo, inventarios, pruebas proyectivas y otras

as pruebas poseen ciertas características

• Son procedimientos

• Consideran una muestra de la

• Permiten obtener puntuaciones

• Contemplan normas o

• Predicen conductas no

3

que las Pruebas muestrear la conducta y describirla por medio

ones. Además, la mayoría de las pruebas tienen normas o otras conductas más

cualquier país del mundo con fines de orientación, selección y colocación, en escenarios tan diversos como escuelas, oficinas gubernamentales, industrias, clínicas médicas y centros de orientación. La mayoría de las personas han resuelto docenas de

as sin siquiera reparar en ello. No obstante, en el momento en el que el individuo típico alcanza la edad de jubilación, es muy probable que los resultados de las pruebas psicológicas

valoración o estimación de la magnitud de uno o más atributos en una persona. La evaluación de las características humanas implica observaciones, entrevistas, listas de cotejo, inventarios, pruebas proyectivas y otras

4

Procedimiento Estandarizado es una característica esencial de cualquier prueba psicológica. Se considera que una prueba es estandarizada si los procedimientos para aplicarla son uniformes de un examinador a otro y de una situación a otra. La estandarización, por consiguiente, depende principalmente de las instrucciones de aplicación que se encuentran en el manual que suele acompañar a las pruebas. La selección y evaluación de la Muestra de Estandarización es crucial para la utilidad de una prueba. la muestra de conducta es de interés únicamente en la medida en que permita que el examinador haga inferencias acerca del dominio total de conductas relevantes. Permiten obtener puntuaciones o derivar categorías Contemplan normas o estándares Las pruebas se esfuerzan por ser una forma de medición similar a los procedimientos de las ciencias físicas, donde los números representan dimensiones abstractas, como peso o temperatura Una prueba psicológica también debe considerar normas o estándares. Los diseñadores de las pruebas comunican Normas, es decir, un resumen de los resultados de la prueba obtenidos en un grupo grande y representativo de individuos. El grupo normativo se conoce como muestra de estandarización. El examinador podría tener mayor interés en las conductas no evaluadas que la prueba pronostica, que en las respuestas de la prueba en si anteriormente, se aplican sobre todo a las referidas a la norma, que constituyen la gran mayoría de las pruebas en uso. En una prueba referida a la norma, el desempeño de cada examinado se interpreta con referencia a una muestra de estandarización relevante. Sin embargo, estas características son menos importantes en el caso especial de las pruebas referidas al criterio, puesto que estos instrumentos no necesitan comparar al individuo examinado con un grupo de referencia. En una prueba referida al criterio, el objetivo consiste en determinar la ubicación del examinado respecto a objetivos educativos definidos de manera muy estrecha

Tipos de Pruebas Las pruebas grupales son pruebas escritas que permiten obtener medidas adecuadas para evaluar a grandes grupos de personas al mismo tiempo. Las pruebas individuales son instrumentos que, por su diseño y propósito, deben aplicarse a una sola persona. Una ventaja importante de las pruebas individuales es que el examinador puede valorar la influencia del nivel de motivación del sujeto, así como la importancia de otros factores Principales tipos de Pruebas

Pruebas de inteligencia:en áreas relativamente globalesorganización perceptual o razonamiento y, por lo tanto, permitenciertas ocupaciones. Pruebas de aptitud:tipo de habilidad relativamenteaptitud son, en efecto, una forma específica de evaluación de la capacidad. Pruebas de aprovechamiento:aprendizaje, éxito o logro de un itarea. Pruebas de creatividad:

original, así como la capacidadcomunes, en especial para problemas definidos

son pruebas escritas que permiten

medidas adecuadas para evaluar a grandes grupos

al mismo tiempo.

son que, por su

diseño y propósito, deben una sola persona.

Una ventaja importante de las individuales es que el

examinador puede valorar la del nivel de

motivación del sujeto, así importancia de otros

Principales tipos de Pruebas

Pruebas de inteligencia: Miden la habilidad de un individuo en áreas relativamente globales como comprensión verbal, organización perceptual o razonamiento y, por lo tanto, permiten determinar el potencial para el trabajo escolar o para ciertas ocupaciones.

Pruebas de aptitud: Miden la capacidad para una tarea o un tipo de habilidad relativamente específicos; las pruebas de aptitud son, en efecto, una forma específica de evaluación de

capacidad.

Pruebas de aprovechamiento: Miden el grado de aprendizaje, éxito o logro de un individuo en una materia o tarea.

Pruebas de creatividad: Evalúan el pensamiento innovador y original, así como la capacidad para encontrar soluciones inesperadas o poco comunes, en especial para problemas definidos de manera vaga.

5

Miden la habilidad de un individuo como comprensión verbal,

organización perceptual o razonamiento y, por lo tanto, determinar el potencial para el trabajo escolar o para

Miden la capacidad para una tarea o un específicos; las pruebas de

aptitud son, en efecto, una forma específica de evaluación de

Miden el grado de en una materia o

Evalúan el pensamiento innovador y para encontrar soluciones inesperadas o poco

6

Pruebas de personalidad: Miden los rasgos, las cualidades o las conductas que determinan la individualidad de una persona; estas pruebas incluyen listas de cotejo, inventarios y técnicas proyectivas. Los Inventarios de intereses: Miden las preferencias de un individuo por ciertas actividades o temas y, por lo tanto, ayudan a elegir una ocupación. Procedimientos conductuales: Describen y cuentan de manera objetiva la frecuencia de una conducta, identificando sus antecedentes y consecuencias. Pruebas: Miden el desempeño cognoscitivo, sensorial, perceptual y motor para determinar el grado, la localización y las consecuencias conductuales del daño cerebral. Las pruebas neuropsicológicas se utilizan en la evaluación de individuos que presentan una disfunción cerebral o de los que se sospecha que la tienen. La neuropsicología es el estudio de las relaciones entre el cerebro y la conducta.

Cinco usos de estas pruebas: • Clasificación • Diagnóstico y planeación del tratamiento • Autoconocimiento • Evaluación de programas • Investigación El término clasificación incluye una variedad de procedimientos que comparten un propósito común: asignar a una persona una categoría y no a otra. La asignación es la distribución de personas en los diferentes programas adecuados para sus

necesidades o habilidades. La detección se refiere a las pruebas o los procedimientos rápidos y sencillos para identificar a individuos que podrían tener características o necesidades especiales. El diagnóstico consiste en dos tareas interrelacionadas: determinar la naturaleza y la fuente de la conducta anormal de un individuo, y clasificar el patrón de conducta dentro de un sistema aceptado de diagnóstico

7

Como ocurre con todas las actividades profesionales de los psicólogos, la aplicación de pruebas se guía por estándares éticos y profesionales. El empleo responsable de pruebas está definido por lineamientos escritos y publicados por asociaciones profesionales como la American Psychological Association y otros grupos.

Los editores de pruebas también siguen li nchamientos profesionales, induyendo la expectativa de que diseñarán pruebas de alta calidad, comercializarán sus productos de manera responsable y restringirán su distribución solo a las personas con las acreditaciones indispensables. Aunque existen excepciones, en general la aplicación de pruebas se guía por una pregunta fundamental: ¿qué beneficia al cliente? La implicación funcional de este lineamiento es que la evaluación debería satisfacer un propósito constructivo para la persona examinada.

Los psicólogos tienen la obligación primordial de garantizar la confidencialidad de la información, incluyendo los resultados de pruebas, que obtengan de sus clientes en el transcurso de las consultas. Algunas excepciones incluyen circunstancias poco comunes en las que retener la información representaría un claro peligro para el cliente o para otras personas. Los psicólogos tienen el deber de advertir. Esta disposición se deriva de la decisión de 1976 para el caso Tarasoff. Los clínicos deben comunicar cual quier amenaza grave, tanto a una víctima potencial como a las autoridades competentes. La responsabilidad final de la aplicación adecuada de las pruebas siempre reside en el usuario de las mismas. Desde un punto de vista práctico, esto significa que el usuario de pruebas debe tener la capacitación adecuada en evaluación y teoría de la medición.

El estándar profesional para el consentimientoa las personas examinadas acerca de las razones de la prueba, los tiposque se utilizarán, las posibles consecuencias dedará a conocer y a quién. El estándar de cuidado prevaleciente es el habitual,Satisfacer el estándar de cuidado significa que el psicólogo debe abstenerse depruebas obsoletas, en especial cuando está disponible Otros lineamientos para el empleo responsable de pruebas incluyen la redacción cuidadosa y eficazcomo la retroalimentación a los individuosevaluados, basada en la sensibilidad y la reflexión, para aclarar de forma cuidadosa sus ideas erróneas. Otra expectativa es que la evaluación estaráguiada por el conocimiento y el respeto hacilas diferencias individuales. Por ejemplo, los profesionales deben conocer los efectos de la edad, el género, la raza, elotras variables antecedentes sobre losresultados de una prueba. Los factores culturales que pueden influir en losmanera cualitativa de enfocar una prueba, la confianza y desconfianzaamenaza del estereotipo, que es la amenaza deun estereotipo negativo acerca del grupo al que se Las también pueden inhibir el desempeño en una prueba de los individuos de minorías.

El estándar profesional para el consentimiento informado dispone que se debe informar acerca de las razones de la prueba, los tipos

que se utilizarán, las posibles consecuencias de la evaluación y cuál información se

El estándar de cuidado prevaleciente es el habitual, acostumbrado y razonable. cuidado significa que el psicólogo debe abstenerse de

pruebas obsoletas, en especial cuando está disponible una nueva edición.

amientos para el empleo de pruebas incluyen la

redacción cuidadosa y eficaz del informe, así como la retroalimentación a los individuos evaluados, basada en la sensibilidad y la

aclarar de forma cuidadosa sus

Otra expectativa es que la evaluación estará guiada por el conocimiento y el respeto hacia

individuales. Por ejemplo, los conocer los efectos de la

edad, el género, la raza, el origen étnico y otras variables antecedentes sobre los

Los factores culturales que pueden influir en los resultados de una prueba incluyen la de enfocar una prueba, la confianza y desconfianza

amenaza del estereotipo, que es la amenaza de confirmar, como característica propia, negativo acerca del grupo al que se pertenece.

el desempeño en una prueba de los individuos de minorías.Las personas bilingües, y los individuos cuya lengua materna no es el inglés, podrían enfrentar problemas sutiles en las pruebas desarrolladas para utilizarse predominante. La falta de conocimiento acerca de la naturaleza de las pruebas es otro factor que enfrentan algunos individuosminoritarios. Las barreras del idiomadificultad de las pruebas son fuertes argumentos a favor del uso de un enfoque multidisciplinario de evaluación.

8

informado dispone que se debe informar acerca de las razones de la prueba, los tipos de pruebas

la evaluación y cuál información se

acostumbrado y razonable. cuidado significa que el psicólogo debe abstenerse de utilizar

una nueva edición.

resultados de una prueba incluyen la de enfocar una prueba, la confianza y desconfianza racial y la

confirmar, como característica propia,

el desempeño en una prueba de los individuos de minorías. Las personas bilingües, y los individuos cuya

materna no es el inglés, podrían sutiles en las pruebas

en la cultura La falta de conocimiento acerca

de las pruebas es otro factor que enfrentan algunos individuos de grupos minoritarios. Las barreras del idioma y la dificultad de las pruebas son fuertes

favor del uso de un enfoque

9

Se desconoce la prevalencia del engaño en las pruebas de aprovechamiento que se aplican a nivel nacional. Sin embargo, en los últimos años han surgido varios informes, incluyendo la alteración de las hojas de respuestas por parte de las autoridades escolares, la venta masiva de algunos exámenes para la obtención de licencias, y prácticas de evaluación impropias por parte de los maestros (por ejemplo, otorgar tiempo adicional para terminar de resolver la prueba).

Los resultados de las pruebas psicológicas tienen el poder de alterar las vidas. Si se quiere comprender la influencia contemporánea de dichas pruebas resulta fundamental la revisión de las tendencias históricas. Las Formas rudimentarias de evaluación se remontan al año 2200 a. C. en China. Los emperadores chinos se valían de exámenes escritos grupales para elegir a los funcionarios del servicio civil. De mediados a finales del siglo XIX, varios médicos y psiquiatras desarrollaron procedimientos estandarizados para revelar la naturaleza y el grado de los síntomas de las personas con enfermedades mentales y lesiones cerebrales. Por ejemplo, en 1885, Hubert von Grashey desarrolló el precursor del tambor de memoria para examinar la habilidad de reconocimiento visual de pacientes con daño cerebral. La evaluación psicológica moderna debe su inicio a los instrumentos psicológicos de la era de bronce que florecieron en Europa a finales del siglo xix. Por medio de la prueba de umbrales sensoriales y

tiempos de reacción, pioneros en el desarrollo de las pruebas, como sir Francis Galton, demostraron que era posible medir la mente de una forma objetiva y reproducible. Wilhelm Wundt fundó el primer laboratorio de psicología experimental en 1879 en Leipzig, Alemania. Entre sus primeras investigaciones se incluye el intento que hizo en 1862 de medir la velocidad del pensamiento con el medidor de pensamientos, un péndulo calibrado con agujas que sobresalían de cada lado.

10

La primera referencia a pruebas mentales se hizo en 1890 en un trabajo clásico de James McKeen Cattell, un psicólogo estadounidense que estudió con Galton. Cattell importó a Estados Unidos el enfoque de los instrumentos de bronce. Uno de los discípulos de Cattell, Clark Wissler, demostró que las medidas del tiempo de reacción y de la discriminación sensorial no se correlacionaban con las calificaciones obtenidas en la universidad, lo que implicó que el movimiento de la evaluación mental se alejara de los instrumentos de bronce.

A finales del siglo XIX, un nuevo humanismo hacia las personas con retraso mental, reflejado en el trabajo de los médicos franceses Esquirol y Seguin para diagnosticar y remediar esa condición, ayudó a reconocer la necesidad de las primeras pruebas de inteligencia. Alfred Binet, quien inventó la primera prueba auténtica de inteligencia, inició su carrera estudiando la parálisis histérica con el neurólogo francés Charcot. La afirmación de Binet de que el magnetismo podría curar la histeria fue refutada, para su aflicción y vergüenza. Poco después, cambió sus intereses y realizó estudios sensoriales-perceptuales en los que utilizó a niños como sujetos.

En 1905 Binet y Simón desarrollaron en París, Francia, la primera prueba útil de inteligencia. Su sencillo instrumento de 30 reactivos para medir principalmente las funciones mentales superiores contribuyó a identificar a los escolares que no podían beneficiarse de la enseñanza regular. Curiosamente, no había un método para calificar la prueba. En 1908 Binet y Simón publicaron una escala corregida de 58 reactivos que incorporaba el concepto de nivel mental. En 1911 apareció una tercera revisión de las escalas de Binet-Simón. Cada nivel de edad incluía ahora exactamente cinco pruebas; la escala se extendió a la edad adulta. En 1912 Stem propuso dividir la edad mental entre la edad cronológica para obtener un cociente de inteligencia. En 1916 Terman sugirió multiplicar el cociente de inteligencia por 100 para eliminar las fracciones. Así nació el concepto de CI. En 1910 Henry Goddard tradujo la escala Binet- Simon de 1908. En 1911 utilizó la prueba para examinar a más de mil escolares, para lo cual se basó en las normas francesas originales. Le perturbó encontrar que el 3 por ciento de la muestra sufría “debilidad mental” y recomendó que esos niños fueran segregados de la sociedad.

11

A principios del siglo XX se inventaron las pruebas de inteligencia no verbales para facilitar la evaluación de inmigrantes que no hablaban inglés. Por ejemplo, en 1914 Knox publicó una prueba que consistía en un rompecabezas de madera y además empleó la prueba ahora familiar de sustitución de dígitos y símbolos. En 1916 Lewis Terman dio a conocer la Stanford- Binet, una revisión de las escalas de Binet. Esta prueba bien diseñada y cuidadosamente normalizada colocó la evaluación de la inteligencia sobre bases firmes de manera definitiva. Durante la Primera Guerra Mundial Robert Yerkes encabezó un equipo de psicólogos que produjo la Alfa del Ejército, una prueba de grupo con carga verbal para reclutas promedio y superiores, así como la Beta del Ejército, una prueba grupal no verbal para reclutas analfabetos o que no hablaban inglés. Los pioneros de la evaluación, como C. C. Brigham, emplearon los resultados de las pruebas individuales y grupales de inteligencia para corroborar las diferencias étnicas en la inteligencia y justificar así las restricciones a la inmigración. Más tarde, algunos de esos pioneros de la evaluación se retractaron de sus opiniones anteriores.

La evaluación educativa cayó en el ámbito del Consejo de Exámenes de Admisión a la Universidad (CEEB), fundado a principios del siglo xx. En 1947 el consejo fue reemplazado por el Servicio de Evaluación Educativa (ETS), el cual supervisaba la publicación de pruebas tan conocidas como las Pruebas de Aptitud Académica y el Examen de Registro de Graduados. El desarrollo del análisis factorial por L. L. Thurstone y otros hizo posible el surgimiento de múltiples

baterías de pruebas de aptitud. Más tarde, la mejora de esas baterías de pruebas fue estimulada por la necesidad práctica surgida durante la Segunda Guerra Mundial de seleccionar reclutas para puestos altamente especializados.

12

La evaluación de la personalidad comenzó con la Hoja de Datos Personales de Woodworth, una sencilla lista de cotejo de síntomas en la que se respondía sí o no y que se empleaba para descartar psiconeurosis en los reclutas durante la Primera Guerra Mundial. Muchos inventarios posteriores, incluyendo al conocido Inventario Multifásico de Personalidad de Minnesota, tomaron contenidos de la Hoja de Datos Personales. La evaluación proyectiva empezó con la técnica de asociación de palabras de Francis Galton; en 1910 C. G. Jung se encargó de llevarla a buen término. Hermann Rorschach publicó su famosa prueba de manchas de tinta en 1921. La Prueba de Apercepción Temática (TAT), un instrumento con ilustraciones que narraban una historia, fue presentada en 1935 por Morgan y Murray y se basaba en la hipótesis proyectiva: cuando los examinados responden a estímulos ambiguos o no estructura-dos, de manera inadvertida, revelan sus necesidades, fantasías y conflictos más recónditos. La evaluación de los intereses vocacionales empezó con el Inventario de Intereses de Carnegie que desarrolló Yoakum entre 1919 y 1920. Después de varias revisiones y ampliaciones, este instrumento surgió como el Inventario de Intereses Vocacionales de Strong.

Un grupo normativo consiste en una muestra de individuos examinados que son representativos de la población hacia la cual se dirige la prueba. Una distribución de frecuencias es útil para representar la distribución de las puntuaciones de prueba

dentro de ciertos intervalos de puntuación para un grupo normativo. Un histograma es la representación gráfica de una distribución de frecuencias Las medidas de tendencia central para conjuntos de puntuaciones incluyen la media (o el promedio aritmético), la mediana o calificación que se ubica a la mitad de las puntuaciones ordenadas, y la moda, que es la puntuación que se presenta con mayor frecuencia.

13

Las medidas de variabilidad para un grupo de puntuaciones incluyen la varianza y su raíz cuadrada, la desviación estándar, que es la medida preferida en las pruebas psicológicas. Estos índices ayudan a estimar la dispersión de las puntuaciones al incorporar en sus fórmulas las sumas de las desviaciones respecto a la puntuación media, elevadas al cuadrado. La distribución de puntuaciones de prueba de grandes grupos de individuos heterogéneos se asemeja con frecuencia a la distribución normal, que es una curra simétrica, definida en términos matemáticos y con forma de campana. Los psicólogos prefieren tratar con puntuaciones de prueba que se distribuyen normalmente, debido a que las características estadísticas de la distribución normal son muy conocidas.

Una distribución asimétrica es aquella en la que las puntuaciones se agrupan en el extremo inferior (asimetría positiva) o en el extremo superior (asimetría negativa). En las pruebas psicológicas, la causa más común de asimetría positiva es la presencia de muy pocos reactivos fáciles, mientras que la causa más común de asimetría negativa es el hecho de que la prueba tenga muy pocos reactivos difíciles. 6. Un percentil expresa el porcentaje de personas

dentro de la muestra de estandarización que obtuvieron puntuaciones por debajo de cierta puntuación natural. Los percentiles van de 0 a 100. Es importante distinguir entre el percentil (una medida relativa) y el porcentaje de respuestas correctas (una medida absoluta). Una puntuación estándar expresa la puntuación natural de una persona examinada en términos de su distancia respecto a la media en unidades de desviación estándar. La fórmula para una puntuación estándar es z = (X - MJ/DE. La puntuación T es una puntuación estándar con media de 50 y desviación estándar de 10. La fórmula para una puntuación T es: T = 10(X — M)/DE + 50 El método más común para seleccionar un grupo normativo es a través del muestreo aleatorio estratificado. En este procedimiento, se estratifica o clasifica la población meta de acuerdo con importantes variables antecedentes (por ejemplo, edad, género, raza, clase social, nivel educativo) y después se elige al azar un porcentaje adecuado de personas dentro de cada estrato.

14

Para muchas pruebas, es importante establecer normas independientes por edad y grado escolar. Las normas por edad son necesarias para características que cambian rápidamente con el desarrollo, como las capacidades intelectuales en la niñez. Las normas por grado suelen utilizarse en entornos educativos cuando se informa sobre los niveles de aprovechamiento de niños en edad escolar. Las normas locales y de subgrupo pueden ser valiosas si en una prueba un subgrupo identificable tiene un desempeño evidente que es mejor o peor que el de la muestra de estandarización definida en términos más generales. Una tabla de expectativas -una forma de estandarización de pruebas- describe la relación establecida entre las puntuaciones de prueba y el resultado esperado en una tarea relevante. Por ejemplo, una tabla de expectativas podría mostrar la relación entre las puntuaciones de una prueba de aprovechamiento escolar y el ulterior promedio de calificaciones en la universidad. Una prueba referida al criterio compara los logros de un individuo en la prueba con un dominio bien definido del contenido. Estas pruebas ayudan a identificar la pericia o la falta de ella respecto a conductas específicas. Por ejemplo, los resultados de una prueba referida al criterio podrían especificar que el individuo suma correctamente dos números de tres dígitos en el 100 por ciento de las ocasiones. En las pruebas psicológicas, la confiabilidad se Refiere al atributo de consistencia de la medición. Pocas Medidas conductuales son totalmente confiables (casi en Todos los casos está presente cierto grado de inconsistencia de una medición a otra). La confiabilidad debería considerarse como un continuo. Según la teoría clásica de las puntuaciones verdaderas y de error, cualquier puntuación de prueba refleja la influencia de dos factores: aquellos que contribuyen a la consistencia, es decir, los atributos estables que el examinador pretende medir; y aquellos que contribuyen a la inconsistencia, los cuales incluyen las variables del sujeto, la prueba y la situación. Los errores de medición pueden surgir durante la selección de los reactivos, la aplicación de la prueba y su calificación. Los errores sistemáticos también contribuyen al error de medición. He aquí un ejemplo de error de medición producido por la selección de reactivos: en el proceso de selección, el diseñador de la prueba podría elegir reactivos que no son igualmente justos para todas las personas.

15

Los errores sistemáticos de medición surgen cuando, sin que el diseñador lo sepa, la prueba mide de manera consistente algo diferente del rasgo que se pretende medir. Por ejemplo, una prueba diseñada para medir la introversión social podría evaluar la ansiedad de manera consistente e inadvertida. 6. Las suposiciones básicas de la teoría clásica de la medición son: a) los errores de medición son aleatorios, b) la media del error de medición es igual a cero, c) las puntuaciones verdaderas y las puntuaciones de error no están correlacionadas y, d) los errores en diferentes pruebas no están correlacionados. De estas suposiciones se deduce que la varianza de las puntuaciones obtenidas es simplemente la varianza de las puntuaciones verdaderas más la varianza de los errores de medición. La confiabilidad expresa la influencia relativa de las puntuaciones verdaderas y de error sobre las puntuaciones obtenidas en la prueba. El coeficiente de confiabilidad es la proporción de la varianza de las puntuaciones verdaderas respecto a la varianza total de las puntuaciones de prueba (varianza de las puntuaciones verdaderas más varianza de las puntuaciones de error). El valor del coeficiente de confiabilidad puede variar entre 0.0 y 1.0. El coeficiente de correlación producto-momento de Pearson sirve para estimar la consistencia de las puntuaciones de una prueba psicológica. Esta forma de confiabilidad se conoce como confiabilidad test-retest. La confiabilidad de formas paralelas se calcula al correlacionar las puntuaciones en dos formas equivalentes, aplicadas de manera contrabalanceada a un amplio grupo de sujetos heterogéneos. Los métodos de consistencia interna para determinar la confiabilidad incluyen la confiabilidad por mitades, en la cual se correlacionan las puntuaciones de ambas mitades de una prueba, y el coeficiente alfa, que podría considerarse como la media de todos los posibles coeficientes por mitades. Para las pruebas que requieren del juicio del examinador para la asignación de puntuaciones, es necesaria la confiabilidad intercalificadores. El cálculo de la confiabilidad intercalificadores es sencillo: dos o más examinadores califican de manera independiente una muestra de pruebas y luego se correlacionan las puntuaciones por pares de examinadores.

16

La teoría de la respuesta al reactivo (TRR) ha sustituido a la teoría clásica de pruebas como modelo preferido para la elaboración de instrumentos. La TRR plantea una sola dimensión de la habilidad o el rasgo subyacente en la que se basan todos los reactivos, e hipotetiza que cada individuo evaluado posee cierta cantidad del rasgo latente que se está midiendo. Esto permite la obtención de fórmulas precisas que vinculan la probabilidad de una respuesta correcta con la dificultad del reactivo y el nivel del rasgo latente en el examinado Los enfoques tradicionales para la estimación de la confiabilidad pueden ser engañosos o inadecuados para las siguientes aplicaciones: cuando la característica medida es sumamente volátil o inestable; cuando se usan pruebas de velocidad que tienen reactivos de dificultad menor; y cuando los sujetos son sumamente homogéneos en cuanto a la característica medida. En el caso de muchas pruebas referidas al criterio, los resultados deben ser casi perfectamente confiables como para considerarlos útiles. Puesto que, con frecuencia estas pruebas tienen una cualidad de “puede hacerlo/ no puede hacerlo”, la repetibilidad de la clasificación es un método para evaluar la confiabilidad de las pruebas referidas al criterio. La confiabilidad se relaciona de manera inversa con el error estándar de medición (EEM), el cual determina el intervalo de confianza que rodea a la puntuación de cualquier individuo examinado. Por ejemplo, el intervalo de confianza del 95 por ciento se encuentra a ±2 EEM de la puntuación obtenida por el individuo.

La validez de una prueba es el grado en que mide lo que afirma medir. Una prueba es válida en la medida en que las inferencias que se hacen a partir de ella son apropiadas, significativas y útiles. La confiabilidad es una condición necesaria, pero no suficiente, de la validez. Tradicionalmente, las diferentes maneras de acumular evidencia sobre la validez se han agrupado en tres categorías: de contenido, la relacionada con el criterio y la de constructo. Sin embargo, la validez es un concepto unitario y cualquier estudio empírico puede relacionarse con la validez de una prueba.

17

La validez de contenido está determinada por la medida en que las preguntas, las tareas o los reactivos de una prueba son representativos del universo de conducta que la prueba fue diseñada para muestrear. La validez de contenido es fácil de asegurar para rasgos bien definidos (como la habilidad ortográfica), pero es más difícil de especificar para rasgos no explícitos como la ansiedad. Una prueba tiene validez aparente si parece válida ante los usuarios, examinadores, en especial, los examinados. La validez aparente es importante para la aceptabilidad social del instrumento, pero es irrelevante para propósitos psicométricos. La validez relacionada con el criterio se demuestra cuando una prueba predice de manera eficaz el desempeño en una medida de resultado apropiada. La validez relacionada con el criterio abarca la validez concurrente, en que las medidas de criterio se obtienen aproximadamente al mismo tiempo que las puntuaciones de la prueba de predicción, y la validez predictiva, en que las medidas del criterio se obtienen en el futuro. Cuando las pruebas se utilizan con fines de predicción, es necesario desarrollar una ecuación de regresión. Dicha ecuación describe la línea recta de mejor ajuste (la que minimice la suma del cuadrado de las desviaciones de la línea) para calcular el criterio a partir de la prueba. La correlación entre la prueba y el criterio (rxy) se conoce como coeficiente de validez. Cuanto mayor sea la correlación, mayor es la exactitud de la prueba en la estimación del criterio. El error estándar de estimación es el margen de error que se espera en la puntuación criterio que se pronostica. El error de estimación se deriva de la siguiente fórmula EE,* = DEy V l - r j donde r«, es el coeficiente de validez. Los defensores de la teoría de la decisión hacen hincapié en que una prueba debe contribuir a la toma de decisiones certeras. Es esencial que la predicció n del éxito o el fracaso en una medida de resultado sea precisa. Las pruebas deben evitar dos tipos de errores: los falsos positivos (cuando fracasan los sujetos que se pensó que aprobarían), y los falsos negativos (cuando tienen éxito los sujetos que se pensó que reprobarían). La teoría de la decisión supone que es posible medir los costos de las predicciones precisas e inexactas en una escala de utilidad común como la de pérdidas y ganancias.

18

Una suposición fundamental de la teoría de la decisión es la maximización. En las decisiones institucionales de selección, la estrategia más adecuada para el uso de una prueba es la que maximice la ganancia promedio o que minimice la pérdida promedio. Un constructo es una cualidad o un rasgo teórico intangible en que difieren los individuos. La validez de constructo concierne a las pruebas psicológicas que afirman medir atributos complejos, multifacéticos y ligados a la teoría, como la capacidad de liderazgo, la hostilidad sobre controlada y la inteligencia. Los estudios sobre la validez de constructo por lo general caen en una de tres categorías: análisis de homogeneidad de los reactivos, evaluación de los cambios del desarrollo y de grupo sobre la prueba; análisis de los efectos de la intervención, correlación y análisis factorial de las puntuaciones obtenidas en la prueba en relación con otras fuentes de información; y evaluación de la precisión de la clasificación. En cada caso, la pregunta fundamental es si los resultados son congruentes con la teoría subyacente del constructo medido. Las preocupaciones ajenas a la validez incluyen los efectos secundarios y las consecuencias no deliberadas de la evaluación. Por ejemplo, una evaluación válida para la asignación a un grupo de educación especial puede ocasionar que los niños identificados se sientan tontos o fuera de lo normal. La consideración de los efectos secundarios puede influir en la decisión del examinador de usar una prueba particular para un objetivo específico. La nueva y más amplia perspectiva funcionalista sobre la validez de la prueba asevera que una prueba es válida si cumple los propósitos para los que se utiliza. Por ejemplo, la validez de una prueba de aprovechamiento en lectura podría relacionarse con la regularización exitosa de los estudiantes identificados por la prueba como personas con problemas en la lectura. La elaboración de una prueba consta de seis etapas entrelazadas: definición de la prueba, elección del método de escalamiento, elaboración de los reactivos, análisis de los reactivos, revisión y publicación de la prueba.

19

Los creadores de la prueba necesitan elegir un método de escalamiento que se ajuste de manera óptima a la forma en que han conceptualizado los rasgos que mide su instrumento. En este contexto es de gran relevancia la noción de niveles de medición. Se reconocen cuatro niveles de medición: las escalas nominales constituyen la mera nominación o categorización; las escalas ordinales permiten el ordenamiento; las escalas de intervalo poseen intervalos iguales; y las escalas de razón incorporan todas las características anteriores y, además, introducen un punto cero absoluto.

Existen docenas de métodos de escalamiento. Algunos ejemplos representativos incluyen el método de escalamiento absoluto, en que la dificultad del reactivo se localiza sobre un eje o línea base y se mide en unidades de desviación estándar de un grupo base; las escalas Likert, que presentan reactivos con cinco respuestas ordenadas sobre un continuo de acuerdo/desacuerdo; y el método racional, en que los reactivos derivados de manera racional se correlacionan con las puntuaciones totales obtenidas en la prueba. La elaboración de los reactivos es un procedimiento laborioso que requiere de mucho tiempo. Los creadores de la prueba deben tratar de evitar los efectos de límites superior e inferior. En un efecto de límite superior, una cantidad importante de examinados obtiene puntuaciones perfectas o casi perfectas. En un efecto de límite inferior, cantidades significativas de examinados obtienen puntuaciones en la parte inferior, o cerca de la parte inferior, de la escala.

La tabla de especificaciones presenta la información y las tareas cognoscitivas que se pretende evaluar en los examinados. En el caso de las pruebas de aprovechamiento y de habilidades, los redactores por lo regular trabajan a partir de una tabla de especificaciones para asegurarse de que el instrumento resultante se base en la mezcla deseada de procesos cognoscitivos y contenido de los reactivos. Los reactivos de la prueba pueden escribirse en muchos formatos distintos, incluyendo los de opción múltiple, de respuesta abierta, de verdadero o falso y de elección forzada. Las preguntas de aparejamiento, que son comunes en los exámenes realizados dentro del aula, son cuestionables desde el punto de vista psicométrico porque las opciones no son independientes entre sí.

20

El objetivo del análisis de reactivos es determinar qué reactivos iníciales deberían conservarse, cuáles ameritan corrección y cuáles deben eliminarse. Se dispone de muchos procedimientos estadísticos para el análisis de reactivos, incluyendo el índice de dificultad, la curva característica y el índice de discriminación del reactivo. El término validación cruzada se refiere a la práctica de volver a validar una prueba con una nueva muestra de examinados. La reducción de la validez se refiere al fenómeno común en que una prueba predice el criterio relevante con menos precisión en una muestra nueva que en la muestra original. Las pruebas deben ser sencillas de usar para recibir gran aceptación por parte de los psicólogos y educadores. Por ejemplo, resultan especialmente deseables las carpetas de anillos que en un lado muestran las instrucciones y en el otro presentan los estímulos de prueba. Los usuarios también agradecen un manual técnico detallado que resuma los datos técnicos y la investigación de validación.

Autor:

Nelly Carolina Acosta

EGeneral

Basado en el Libro

Gregory, R. J. (2012). Pruebas psicológicas: Historia, principios y aplicaciones. México:

Pearson Educación.

TEORIA DE LOS TEST Y FUNDAMENTOS DE MEDICION

Presentations & Public Speaking

Transcript of TEORIA DE LOS TEST Y FUNDAMENTOS DE MEDICION