Conceptos estadisticos

CONCEPTOS ESTADÍSTICOS, NORMAS Y ESTANDARIZACIÓN

Melissa Judith Ortiz Barrero

Mg. Psicología

Abril de 2014

Por lo general, el resultado inicial de las pruebas es una puntuación natural como

el número total de afirmaciones de personalidad refrendadas en una dirección en

particular o el número total de problemas resueltos correctamente, quizá con ¡a

adición de puntos bonificados por las soluciones rápidas. En la mayor parte de

los casos, esta puntuación inicial es inútil en sí misma para que los resultados

de prueba tengan significado, los examinadores deben ser capaces de convertir

la puntuación inicial a alguna forma de puntuación derivada que se base en la

comparación con un grupo normativo o de estandarización. Gran parte de las

pruebas se interpretan al comparar los resultados individuales con el desempeño

del grupo normativo; las pruebas referidas a criterio, que se analizan más

adelante, constituyen una excepción.

Un grupo normativo consiste en una muestra de personas examinadas que son

representativas de la población hacia la cual se dirige la prueba. Considérese

una prueba del conocimiento de vocabulario, diseñada para utilizarse con futuros

estudiantes universitarios de primer grado. En este caso, podrían recolectarse los

resultados del desempeño de una muestra grande, heterogénea y nacional de

dichas personas, con propósitos de estandarización. El objetivo esencial de la

estandarización de una prueba consiste en determinar la distribución de las

puntuaciones naturales en un grupo normativo, de modo que quienes desarrollan

la prueba tengan la posibilidad de publicar las puntuaciones derivadas conocidas

como normas. Como se analizará más adelante, las normas sé encuentran en

muchas variedades; por ejemplo, rangos percentiles, equivalentes por edad,

equivalentes de ¡nado o puntuaciones estándar. Las normas indican la posición

que Tiene un individuo dentro de la prueba, en relación con el desempeño de

otras personas de la misma edad, grado escolar, sexo y otras variables. Para ser

efectivas, las normas deben obtenerse con gran cuidado y construirse según los

preceptos ya conocidos que se analizan después; lo que es más, pueden

volverse anticuadas en sólo unos cuantos años, de modo que la regla, más que

la excepción, debe ser el establecimiento periódico de nuevas normas. El tema

de las normas se enfoca de manera indirecta, ya que el propósito es hacer un

análisis sobre las puntuaciones naturales y después se revisan los conceptos

estadísticos esenciales para una comprensión de las normas.

Puntuaciones Naturales

El nivel más básico de información proporcionada por una prueba psicológica es

la puntuación natural. Por ejemplo, en una prueba de personalidad, con

frecuencia la puntuación natural es el número de preguntas respondidas en la

dirección codificada para una escala específica. En las pruebas de capacidad,

por lo común la puntuación natural se integra del número de problemas

respondidos de manera correcta, al que con frecuencia se le suman los puntos

bonificados por el desempeño rápido. Así, el resultado inicial de la prueba es casi

siempre una suma numérica, como 17 de 44 reactivos totales respondidos en la

dirección codificada en una escala de depresión, o 29 de 55 puntos de

puntuación natural obtenidos en la subes-cala de Diseño con Cubos de una

prueba de inteligencia.

Sin embargo, debería ser obvio para el lector que las puntuaciones naturales, por

sí solas carecen absolutamente de significado. Por ejemplo, ¿de qué sirve

conocer que una persona resolvió de manera correcta 12 de 20 preguntas de

razonamiento abstracto? ¿Qué significado tiene que un examinando haya

respondido en la dirección codificada 19 de 33 preguntas de verdadero-falso de

una escala de depresión?

Incluso es difícil pensar sobre dichas preguntas sin recurrir a comparaciones de

una variedad u otra. Se desea saber la manera en que otras personas han

respondido a estas pruebas, si las puntuaciones observadas son altas o bajas en

comparación con un grupo representativo de sujetos. En el caso de pruebas de

capacidad, se tiene curiosidad de saber si las preguntas fueron fáciles o difíciles,

en especial en relación con la edad del sujeto.

De hecho, parece casi trivial que una puntuación natural adquiera significado

principalmente en relación con las normas, un marco de referencia establecido

de manera independiente que se deriva de una muestra de estandarización.

Posteriormente .se ampliará más acerca de la derivación y el uso de las normas.

Por ahora bastará con saber que las normas se establecen de modo empírico, a

través de la aplicación de la prueba a una ¡nuestra grande y representativa de

personas. Después se compara la puntuación del examinado con la distribución

de puntuaciones obtenidas por la muestra de estandarización. Así, se determina,

a partir de las normas, si una puntuación obtenida es baja, promedio o alta La

gran parte de las pruebas psicológicas se interpreta a través de la consulta de

normas; como ya se señaló, estos instrumentos se denominan pruebas referidas

a la norma. Sin embargo, se recuerda al lector que existen otros tipos de

instrumentos. En particular, las pruebas referidas a criterio ayudan a determinar

si una persona puede alcanzar un criterio objetivamente definido, como la suma

de pares de números de dos dígitos con una precisión de 97%. En el caso de las

pruebas referidas a criterio, las normas no son esenciales. Al final de este tema

se explicarán con más detalle estas pruebas.

Existen diferentes tipos de normas, pero éstas tienen una característica en

común: cada una incorpora un resumen estadístico de un enorme conjunto de

puntuaciones. Así, para comprenderlas, el lector necesita dominar la estadística

descriptiva elemental. En este punto se hace un modesto paréntesis para revisar

los conceptos estadísticos esenciales.

Conceptos Estadísticos Especiales

Supóngase por el momento que se tiene acceso á una prueba de vocabulario de

alto nivel, apropiada para examinar las habilidades verbales de profesores

universitarios y otros profesionales (Gregory y Gernert, 1990). La prueba es un

cuestionario de opción múltiple con 30 palabras difíciles como firmamento,

paradisiaco y melifluo. Una profesora toma la prueba y elige la alternativa

correcta para 17 de las 30 palabras. Pregunta cómo se compara su calificación

con otras personas con el mismo nivel académico. ¿Cómo podría responderse a

su pregunta?

Una manera de responder a la interrogante consistiría en darle una lista de las

puntuaciones naturales de la muestra preliminar de estandarización con 100

profesores representativos de su universidad. Sin embargo, incluso con esta

muestra normativa relativamente pequeña (lo típico son miles de individuos), la

lista de puntuaciones de prueba es un despliegue excesivo.

Cuando se nos confronta con un conjunto de datos cuantitativos, la tendencia

humana natural es la de resumir, condensar y organizar dichos datos en

patrones significativos. Por ejemplo, en la evaluación del significado de la pun-

tuación de vocabulario de la profesora, el lector podría calcular la puntuación

promedio de toda la muestra o establecer la posición relativa de la puntuación de

la profesora.

Distribución de frecuencias

Una manera simple y útil de resumir los datos consiste en tabular una

distribución de frecuencias, la cual se prepara al especificar un pequeño número

de intervalos de clase de igual tamaño y después determinar cuántas

puntuaciones caen dentro de cada intervalo. La suma de las frecuencias de

todos los intervalos será igual a N, el número total de puntuaciones en la

muestra. No existe una regla simple para determinar el tamaño de los intervalos;

éste, obviamente, depende del número de intervalos deseado. Es común que la

distribución de frecuencias tenga entre 5 y 15 intervalos de clase. El cuadro

indica que un profesor obtuvo una calificación de 4, 5 o 6; 8 profesores obtu-

vieron 7, 8 o 9, y así sucesivamente.

Un histograrna proporciona una representación gráfica de la misma información

contenida en la distribución de frecuencias. El eje horizontal representa las

puntuaciones agrupadas en intervalos de clase, mientras el eje vertical

representa el número de puntuaciones que caen dentro de cada intervalo de

clase. En un histograrna, la altura de una columna indica el número de

puntuaciones que ocurren dentro de ese intervalo. Un polígono de frecuencias es

similar a un histograrna, excepto que la frecuencia de los intervalos de clase se

representa con puntos en lugar de columnas. Después, los puntos

independientes se unen por medio de líneas rectas.

Distribución de frecuencia

de las puntuaciones de 100 profesores

en una prueba de vocabulario

Intervalo de clase Frecuencia

4-6 17-9 8

10-12 12

13-15 21

16-18 24

19-21 21

22-24 7

25-27 5

28-30 1

W=100

Medidas de Tendencia Central

¿Se puede establecer una sola puntuación representativa de las 100

puntuaciones de vocabulario en nuestra muestra? La media (X) o promedio

aritmético es una de dichas puntuaciones. Se calcula sumando todas las pun-

tuaciones y dividiéndolas entre N, el número de puntuaciones. Otro índice útil de

tendencia central es la mediana, la puntuación que se encuentra a la mitad

cuando se han ordenado todas las puntuaciones. Si el número de puntuaciones

es par, la mediana es el promedio de las dos puntuaciones a la mitad. En

cualquier caso, la mediana es el punto que divide en dos la distribución, de modo

que la mitad de los casos se encuentren por encima de ella y la mitad por debajo.

Por último, la moda es simplemente la puntuación que ocurre con mayor

frecuencia. Si dos puntuaciones tienen la mayor frecuencia de ocurrencia, se

dice que la distribución es bimodal. La media es sensible a los valores extremos

y puede ser engañosa si una distribución tiene pocas puntuaciones inusualmente

altas o bajas. Considérese el caso extremo donde nueve personas ganan $10

000.00 y una décima persona gana $910 000.00. El ingreso promedio para este

grupo de personas sería de $100 000; sin embargo, este nivel de ingresos no es

típico de nadie dentro del grupo. La mediana del ingreso, colocada en $10 000,

es mucho más representativa. Por supuesto, éste es un ejemplo extremo, pero

ilustra un punto en general: si una distribución está sesgada (es decir, es

asimétrica), la mediana es un mejor índice de la tendencia central que la medía.

Medidas de variabilidad

Dos o más distribuciones de puntuaciones de prueba pueden tener la misma

media y, sin embargo, es posible que difieran en gran medida en el grado de

dispersión de las puntuaciones con respecto a la media. Para describir el grado

de dispersión, es necesario un índice estadístico que exprese la variabilidad de

las puntuaciones en una distribución.

El índice estadístico de variabilidad que se utiliza con mayor frecuencia en un

grupo de puntuaciones es la desviación estándar, simbolizada o/y abreviada DE.

Desde un punto de vista conceptual, el lector necesita saber que la DE refleja el

grado de dispersión en un grupo de puntuaciones. Si éstas se encuentran agru-

padas estrechamente cerca de un valor central, la Olí es pequeña. De hecho, en

el caso extremo donde todas las puntuaciones son idénticas, la DE es

exactamente cero. A medida que un grupo de puntuaciones se dispersa más, la

DE se vuelve más grande.

Como lo sugiere el nombre, la varianza es una medida de variabilidad. Sin

embargo, en general, los psicólogos prefieren informar la desviación estándar,

que se calcula obteniendo la raíz cuadrada de la varianza. Por supuesto, la

varianza y la desviación estándar transmiten información intercambiable —una

se puede calcular a partir de la otra, al elevar al cuadrado (la desviación estándar

para obtener la varianza) u obtener la raíz cuadrada (de la varianza para obtener

la desviación estándar). Sin embargo, la desviación estándar es la medida

preferida de varianza en las pruebas psicológicas, debido a su relevancia directo

para la distribución normal.

Distribución normal

Los psicólogos prefieren una distribución normal de puntuaciones de prueba, aun

cuando muchas otras distribuciones son teóricamente posibles. Por ejemplo,

dentro de la esfera de posibilidades se encuentra la distribución rectangular de

puntuaciones de prueba -un número igual de resultados en cada intervalo de

clase. De hecho, muchos legos podrían incluso preferir una distribución

rectangular de puntuaciones de prueba, basados en la premisa equitativa de que

las diferencias individuales serían por ello menos pronunciadas. Por ejemplo, una

mayor proporción de personas obtendría puntuaciones en el rango superior si las

pruebas psicológicas se conformaran a una distribución rectangular de

puntuaciones, en vez de a una distribución normal.

Entonces, ¿por qué los psicólogos prefieren una distribución normal de

puntuaciones, aun hasta el punto de seleccionar reactivos de prueba que ayuden

a producir este tipo de distribución en la muestra de estandarización? Existen

varias razones para ello, incluyendo las consideraciones estadísticas y los dalos

empíricos. Aquí se hará un breve paréntesis para explicar la fascinación

psicométrica con las distribuciones normales.

Una razón por la que los psicólogos prefieren las distribuciones normales es que

la curva normal tiene características matemáticas útiles que forman la base para

varios tipos de investigación estadística. Supóngase que se tiene interés en

determinar si los CI promedio de dos grupos de personas fueron

significativamente diferentes. Sería apropiado utilizar una estadística inferencial

como la prueba / para la diferencia entre medias. Sin embargo, muchas

estadísticas inferenciales se basan en la suposición de que la población

subyacente de puntuaciones se distribuye de manera normal, o muy cercano a

ello. Así, a fin de facilitar el uso de estadísticas inferenciales, los psicólogos pre-

fieren que las puntuaciones de prueba en la población normal sigan una

distribución normal o casi normal.

Otra base para preferir la distribución normal es su precisión matemática. Dado

que la distribución normal se define de manera precisa en términos matemáticos,

es posible calcular con gran exactitud el área bajo las diferentes regiones de la

curva. Así, una propiedad útil de las distribuciones normales es que el porcentaje

de casos que caen dentro de un cierto rango o más allá de un cierto valor se

conoce de manera exacta. Una tercera base para preferir una distribución normal

de las puntuaciones de prueba es que, con frecuencia, la curva normal surge de

manera espontánea en la naturaleza.

Transformación de las Puntuaciones Naturales

Darle sentido a los resultados de prueba es, en gran medida, una cuestión de

transformar las puntuaciones naturales en formas más interpretables y útiles de

información. En el análisis anterior acerca de las distribuciones normales, se

insinuaron las transformaciones al mostrar la manera en que el conocimiento

sobre la media y la desviación estándar de dichas distribuciones pueden ayudar

a determinar la posición relativa de una puntuación individual. En esta sección se

continuará con este tema de una manera más directa, al presentar los requisitos

formales para varios tipos de transformaciones de las puntuaciones naturales

Percentiles y rangos percentiles

Un percentil expresa el porcentaje de personas dentro de la muestra de

estandarización que obtuvieron puntuaciones por debajo de una puntuación

natural específica.

Se advierte al lector que no debe confundir los percentiles con el porcentaje de

respuestas correctas. Recuérdese que un percentil indica sólo cómo se compara

a un individuo con la muestra de estandarización y no transmite el porcentaje de

preguntas respondidas de manera correcta. Es posible que, en una prueba difícil,

una puntuación natural de 50% de respuestas correctas pudiera traducirse a un

percentil 90, 95 o incluso 100. A la inversa, en una prueba fácil, una puntuación

natural de 95% de respuestas correctas podría traducirse a un percentil 5, 10o

20.

Los percentiles también pueden concebirse como látigos en un grupo de 100

sujetos representativos, donde I es el rango inferior y 100 el superior. Obsérvese

que los rangos percentiles son el reverso completo de los procedimientos

comunes de clasificación por rangos. Un rango percentil (RP) de I se encuentra

en el extremo inferior de la muestra, mientras que un RP de 99 se encuentra

cerca del tope.

Puntuación Estándar

Aunque los percentiles son el tipo más popular de puntuación transformada, las

puntuaciones estándar ejemplifican las propiedades psicométricas más

deseables. Una puntuación estándar utiliza la desviación estándar de la

distribución total de puntuaciones naturales como la unidad fundamental de

medida. La puntuación estándar expresa la distancia de la media en unidades de

desviación estándar. Por ejemplo, una puntuación natural que se encuentra

exactamente a una desviación estándar por encima de la media se convierte en

una puntuación estándar de +1.00. Una puntuación natural que se encuentra

exactamente a la mitad de una desviación estándar por debajo de la media, se

convierte en una puntuación estándar de -0.50. Así, una puntuación estándar no

sólo expresa la magnitud de la desviación con respecto a la media, sino también

la dirección de esa desviación (positiva o negativa).

El cálculo de la puntuación estándar de un individuo (también llamada puntuación

z) es sencillo: se resta la puntuación natural de la persona examinada a la media

del grupo normativo y después se divide esta diferencia entre la desviación

estándar del grupo normativo.

La puntuación estándar posee la propiedad psicométrica deseable de conservar

las magnitudes relativas de distancia entre los valores sucesivos, encontradas

entre las puntuaciones naturales originales. Esto se debe a que la distribución de

las puntuaciones estándar tiene la misma forma que la distribución de las puntua-

ciones naturales. Como consecuencia, el uso de las puntuaciones estándar no

distorsiona la escala de medida subyacente.

Puntuaciones T y otras Puntuaciones Estandarizadas

Muchos psicólogos y educadores aprecian las propiedades psicométricas de las

puntuaciones estándar, pero consideran las fracciones decimales y los signos

positivos y negativos (p. ej., z = -2.32) como distracciones innecesarias. En

respuesta a estas preocupaciones, los especialistas en pruebas han diseñado

cierto número de variaciones para las puntuaciones estándar que colectivamente

se conocen como puntuaciones estandarizadas.

Desde un punto de vista conceptual, las puntuaciones estandarizadas son

idénticas a las puntuaciones estándar. Ambas contienen exactamente la misma

información. No se afecta la forma de la distribución de puntuaciones y la

relación entre las puntuaciones estándar y estandarizadas siempre se traza

como una línea recta. Sin embargo, las puntuaciones estandarizadas siempre se

expresan como números enteros positivos (no existen fracciones decimales ni

signos negativos), de modo que muchos usuarios de prueba prefieren

representar los resultados en esta forma.

Las puntuaciones estandarizadas eliminan las fracciones y los signos negativos

al producir valores diferentes a cero para la media y 1.00 para la desviación

estándar de las puntuaciones transformadas. La media de las puntuaciones

transformadas puede establecerse en cualquier valor conveniente como 100 o

500 y la desviación estándar en, digamos, 15 o 100. El punto importante acerca

de las puntuaciones estandarizadas es que se puede transformar cualquier

distribución a una escala preferida con media y desviación estándar

predeterminadas.

Un tipo muy conocido de puntuación estandarizada es la puntuación T, que tiene

una media de 50 y desviación estándar de 10. Las escalas en puntuación T son

especialmente comunes en las pruebas de personalidad. Por ejemplo, en el

MMP1, cada escala clínica (como Depresión, Paranoia) se convierte a una medi-

da común, donde 50 es la puntuación promedio y 10 es la desviación estándar

de la muestra normativa.

Las puntuaciones estandarizadas se pueden adaptar para producir cualquier

media y desviación estándar. Sin embargo, para eliminar las puntuaciones

estandarizadas negativas, la media preseleccionada debe ser cuanto menos 5

veces tan grande como la DE. En la práctica, quienes desarrollan pruebas

dependen de unos cuantos valores preferidos para las medias y desviaciones

estándar de las puntuaciones estandarizadas.

Selección de un Grupo Normativo

Cuando se elige un grupo normativo, quienes desarrollan pruebas se esfuerzan

por obtener una muestra representativa de la población para la cual se diseñó la

prueba (Petersen, Kolen y Hoover, 1989). En teoría, obtener un grupo normativo

representativo es simple y sencillo. Considérese una prueba de rendimiento

escolar diseñada para niños de sexto grado de primaria en EUA. La población

relacionada la constituyen todos los niños en sexto grado, de costa a costa del

país y en Alaska y Hawai. Se puede obtener una muestra representativa de estos

individuos potenciales a través de un muestreo aleatorio por computadora de

aproximadamente 10 000 niños, entre los millones de niños elegibles. Cada uno

tendría igual probabilidad de ser elegido para realizar la prueba; es decir, la es-

trategia de selección sería un simple muestreo aleatorio. Los resultados de dicho

muestreo constituirían una fuente ideal para los datos normativos. Con una

muestra aleatoria amplia, es casi seguro que la diversidad de antecedentes

étnicos, clases sociales, localizaciones geográficas y entornos urbanos contra

rurales tendrían una representación proporcional en la muestra.

En el mundo real, obtener muestras normativas nunca es tan sencillo y definitivo

como el caso hipotético anterior. Los investigadores no tienen una lista completa

de todos los niños de sexto grado en el país y, aunque la tuvieran, quienes

desarrollan pruebas no podrían obligar a lodos los niños seleccionados al azar a

que participaran en la estandarización de una prueba. También surgen asuntos

relacionados con el costo. Debe pagarse a los psicómetras para que apliquen la

prueba al grupo normativo. Los autores de la prueba pueden optar por unos

cuantos cientos de personas representativas en vez de utilizar un número mayor.

Para ayudar a asegurar que los grupos normativos de menor tamaño sean

verdaderamente representativos de la población para la cual se diseñó la prueba,

los autores de la misma utilizan un muestreo aleatorio estratificado. Este enfoque

consiste en estratificar, o clasificar, a la población blanco en cuanto a variables

antecedentes (como edad, sexo, raza, clase social, nivel educativo) y después

seleccionar al azar un porcentaje apropiado de personas dentro de cada estrato.

Por ejemplo, si 12% de la población relacionada es afroestadounidense,

entonces quien desarrolla la prueba elige los sujetos de manera aleatoria, pero

con la restricción de que 12% del grupo normativo debe ser también

afroestadounidense.

En la práctica, muy pocos creadores de pruebas reproducen completamente el

muestreo aleatorio o el muestreo aleatorio estratificado en el proceso de

selección del grupo normativo. Lo que es más típico es un esfuerzo de buena fe

por elegir una muestra diversa y representativa de escuelas fuertes y débiles; ve-

cindarios minoritarios y blancos; ciudades grandes y pequeñas y comunidades

del norte, este, centro y sur. Si esta muestra engloba entonces aproximadamente

el mismo porcentaje de minorías, habitantes de las ciudades, familias de clase

alta y baja que el censo nacional, entonces los autores de la prueba se sienten

seguros de que el grupo es representativo.

Existe una importante lección en las incertidumbres, concesiones y aspectos

prácticos de la selección del grupo normativo; a saber, que las normas de

pruebas psicológicas no son absolutas, universales o intemporales. Son relativas

a una época histórica y a la población normativa particular de la cual se

derivaron. Se ilustrará la naturaleza efímera de las estadísticas normativas en

una sección posterior cuando se muestre cómo una importante prueba de CI en

cuyas normas se estableció un promedio nacional de 100 puntos en 1974,

produjo un promedio nacional de 107 en 1988. Incluso las normas que se

seleccionan con gran cuidado y se basan en muestras grandes pueden volverse

obsoletas en el curso de un decenio —y en ocasiones menos.

Normas por Edad y Grado Escolar

A medida que uno crece, se cambia de manera calculable, ya sea para mejorar o

empeorar. Esto es obviamente cierto en la infancia, cuando las habilidades

intelectuales mejoran visiblemente de un mes a otro. En la edad adulta, el

cambio personal es lento, pero aun se puede discernir. Por ejemplo, se espera

que los adultos muestren un nivel más maduro de vocabulario con cada decenio

que transcurre (Gregory y Gernert, 1990). Una norma por edad representa el

nivel de desempeño en la prueba para cada grupo independiente según la edad

dentro de la muestra normativa. El propósito de las normas por edad es el de

facilitar las comparaciones entre individuos de la misma edad. Con las normas

por edad, el desempeño de una persona se interpreta en relación con los sujetos

dentro de la estandarización que tienen la misma edad. El rango de edades para

un grupo normativo por edad puede variar de un mes a un decenio o más, según

el grado en que el desempeño en la prueba depende de los años de vida. Para

características que cambian con rapidez —como las capacidades intelectuales

durante la infancia— los creadores de pruebas podrían informar normas

independientes de prueba para grupos de edad definidos de manera estrecha;

por ejemplo, intervalos de cuatro meses. Eso permite que, por decir, el

examinador compare los resultados de prueba de un niño que tiene cinco años,

dos meses de edad (edad 5-2) con la muestra normativa de niños que van de los

5-0 a los 5-4 años. En contraste, las características adultas cambian de manera

más lenta y podría ser suficiente con informar datos normativos para intervalos

de edad de 5 o 10 años.

Las normas según el grado escolar son conceptualmente similares a las normas

por edad. Una norma por grado representa el nivel de desempeño en pruebas

para cada grado escolar dentro de la muestra normativa. Las normas por grado

se utilizan poco en el caso de pruebas de capacidad. Sin embargo, éstas son

especialmente útiles en entornos educativos, cuando se presentan los niveles de

rendimiento de los niños en edad escolar. Dado que el rendimiento académico en

muchas áreas de contenido depende en gran medida de la exposición al

currículo de materias según el grado escolar, la comparación de un estudiante

contra una muestra normativa del mismo grado es más apropiada que emplear

comparaciones basadas en la edad.

Pruebas Referidas al Criterio

Una alternativa a las pruebas referidas a la norma, es las pruebas referidas a

criterio (Frechtling, 1989; Glaser, 1963; Popham, 1978; Berk, 1984). Mientras que

las primeras utilizan una muestra representativa de personas como su marco de

referencia interpretativo, una prueba referida a criterio compara los logros de un

individuo examinado con un área bien definida de contenido. Por ejemplo, el

desempeño de la persona que se somete a prueba podría presentarse como un

nivel específico de habilidad en aritmética (suma correctamente 2 números de 3

dígitos en 100% de las ocasiones, pero sólo tiene 70% de precisión cuando

suma 3 números de 3 dígitos).

Las pruebas referidas a criterio representan un cambio fundamental en

perspectiva. El centro de atención se coloca en aquello que el examinado puede

hacer, más que en comparaciones con los niveles de desempeño de otros indivi-

duos. Así, las pruebas referidas a criterio identifican el dominio (o falta de

dominio) absoluto de la persona examinada en relación con conductas

específicas. En general, estas pruebas se han utilizado en entornos escolares

para ayudar a los maestros dentro del salón de clase a determinar qué se debe

enseñar y también para evaluar los efectos precisos de los esfuerzos de

enseñanza del currículo escolar.

Las pruebas referidas a criterio son más adecuadas para examinar las

habilidades académicas básicas (p. ej., nivel de lectura, habilidades de cálculo

aritmético) en ambientes educativos. Sin embargo, estos tipos de instrumentos

son sumamente inapropiados para examinar capacidades de nivel superior, debi-

do a que es difícil formular objetivos específicos para dichas áreas de contenido.

Considérese un caso en particular: ¿cómo se desarrollaría una prueba referida a

criterio para examinar la pericia en programación de computadora? Sería difícil

proponer conductas específicas que pudieran poseer todos los expertos en

programación de computadoras y, por tanto, sería casi imposible construir una

prueba referida a criterio para esta habilidad de alto nivel. Berk (1984) analiza los

problemas técnicos en la construcción y evaluación de este tipo de pruebas.

REFERENCIAS USADAS Y BIBLIOGRAFÍA RECOMENDADA

Anastasi, A. (1968). Psychological testing. New York: MacMillan.

Anastasi, A. y Urbina, S. (1997). Psychological Testing (7ª ed.). Englewood

Cliffs, NJ: Prentice-Hall.

Arnau, J. (1989). Metodología de la investigación y diseño. En J. Arnau y H.

Carpintero (Eds.). Historia, teoría y método. Madrid: Alhambra

Universidad. Canpintero, H. (1996).

Cronbach, L.J. y Meehl, P.E. (1955). Construct validity in psychological tests.

Psychological Bulletin, 52, 281-302.

Crocker, L. y Algina, J. (1986). Introduction to classical and modern test theory.

New

York: Holt, Rinehart and Winston.

Gregory, R. (2001). Evaluación psicológica: Historia, principios y aplicaciones. México: Manual Moderno

Hambleton, R.K. y van der Linden, W.J. (1982). Advances in IRT and

applications: An introduction. Applied Psychological Measurement, 6(4),

373-378.

Lord, F.M. (1980). Applications of item response theory to practical

testing problems. Hillsdale, New Jersey: Lawrence Erlbaum Associates.

Lord, F.M. y Novick, M.R (1968). Statistical theories of mental test scores. New

York: Addison-Wesley.

Meliá, J.L. (1990). La construcción de la Psicometría coma ciencia

teórica y aplicada. Valencia: Cristóbal Serrano.

Conceptos estadisticos

Documents

Transcript of Conceptos estadisticos