U1 S1 1.Organizacion de Datos Estadisticos Generalidades y Conceptos Basicos
Conceptos estadisticos
-
Upload
johnny-villegas -
Category
Documents
-
view
64 -
download
3
Transcript of Conceptos estadisticos
CONCEPTOS ESTADÍSTICOS, NORMAS Y ESTANDARIZACIÓN
Melissa Judith Ortiz Barrero
Mg. Psicología
Abril de 2014
Por lo general, el resultado inicial de las pruebas es una puntuación natural como
el número total de afirmaciones de personalidad refrendadas en una dirección en
particular o el número total de problemas resueltos correctamente, quizá con ¡a
adición de puntos bonificados por las soluciones rápidas. En la mayor parte de
los casos, esta puntuación inicial es inútil en sí misma para que los resultados
de prueba tengan significado, los examinadores deben ser capaces de convertir
la puntuación inicial a alguna forma de puntuación derivada que se base en la
comparación con un grupo normativo o de estandarización. Gran parte de las
pruebas se interpretan al comparar los resultados individuales con el desempeño
del grupo normativo; las pruebas referidas a criterio, que se analizan más
adelante, constituyen una excepción.
Un grupo normativo consiste en una muestra de personas examinadas que son
representativas de la población hacia la cual se dirige la prueba. Considérese
una prueba del conocimiento de vocabulario, diseñada para utilizarse con futuros
estudiantes universitarios de primer grado. En este caso, podrían recolectarse los
resultados del desempeño de una muestra grande, heterogénea y nacional de
dichas personas, con propósitos de estandarización. El objetivo esencial de la
estandarización de una prueba consiste en determinar la distribución de las
puntuaciones naturales en un grupo normativo, de modo que quienes desarrollan
la prueba tengan la posibilidad de publicar las puntuaciones derivadas conocidas
como normas. Como se analizará más adelante, las normas sé encuentran en
muchas variedades; por ejemplo, rangos percentiles, equivalentes por edad,
equivalentes de ¡nado o puntuaciones estándar. Las normas indican la posición
que Tiene un individuo dentro de la prueba, en relación con el desempeño de
otras personas de la misma edad, grado escolar, sexo y otras variables. Para ser
efectivas, las normas deben obtenerse con gran cuidado y construirse según los
preceptos ya conocidos que se analizan después; lo que es más, pueden
volverse anticuadas en sólo unos cuantos años, de modo que la regla, más que
la excepción, debe ser el establecimiento periódico de nuevas normas. El tema
de las normas se enfoca de manera indirecta, ya que el propósito es hacer un
análisis sobre las puntuaciones naturales y después se revisan los conceptos
estadísticos esenciales para una comprensión de las normas.
Puntuaciones Naturales
El nivel más básico de información proporcionada por una prueba psicológica es
la puntuación natural. Por ejemplo, en una prueba de personalidad, con
frecuencia la puntuación natural es el número de preguntas respondidas en la
dirección codificada para una escala específica. En las pruebas de capacidad,
por lo común la puntuación natural se integra del número de problemas
respondidos de manera correcta, al que con frecuencia se le suman los puntos
bonificados por el desempeño rápido. Así, el resultado inicial de la prueba es casi
siempre una suma numérica, como 17 de 44 reactivos totales respondidos en la
dirección codificada en una escala de depresión, o 29 de 55 puntos de
puntuación natural obtenidos en la subes-cala de Diseño con Cubos de una
prueba de inteligencia.
Sin embargo, debería ser obvio para el lector que las puntuaciones naturales, por
sí solas carecen absolutamente de significado. Por ejemplo, ¿de qué sirve
conocer que una persona resolvió de manera correcta 12 de 20 preguntas de
razonamiento abstracto? ¿Qué significado tiene que un examinando haya
respondido en la dirección codificada 19 de 33 preguntas de verdadero-falso de
una escala de depresión?
Incluso es difícil pensar sobre dichas preguntas sin recurrir a comparaciones de
una variedad u otra. Se desea saber la manera en que otras personas han
respondido a estas pruebas, si las puntuaciones observadas son altas o bajas en
comparación con un grupo representativo de sujetos. En el caso de pruebas de
capacidad, se tiene curiosidad de saber si las preguntas fueron fáciles o difíciles,
en especial en relación con la edad del sujeto.
De hecho, parece casi trivial que una puntuación natural adquiera significado
principalmente en relación con las normas, un marco de referencia establecido
de manera independiente que se deriva de una muestra de estandarización.
Posteriormente .se ampliará más acerca de la derivación y el uso de las normas.
Por ahora bastará con saber que las normas se establecen de modo empírico, a
través de la aplicación de la prueba a una ¡nuestra grande y representativa de
personas. Después se compara la puntuación del examinado con la distribución
de puntuaciones obtenidas por la muestra de estandarización. Así, se determina,
a partir de las normas, si una puntuación obtenida es baja, promedio o alta La
gran parte de las pruebas psicológicas se interpreta a través de la consulta de
normas; como ya se señaló, estos instrumentos se denominan pruebas referidas
a la norma. Sin embargo, se recuerda al lector que existen otros tipos de
instrumentos. En particular, las pruebas referidas a criterio ayudan a determinar
si una persona puede alcanzar un criterio objetivamente definido, como la suma
de pares de números de dos dígitos con una precisión de 97%. En el caso de las
pruebas referidas a criterio, las normas no son esenciales. Al final de este tema
se explicarán con más detalle estas pruebas.
Existen diferentes tipos de normas, pero éstas tienen una característica en
común: cada una incorpora un resumen estadístico de un enorme conjunto de
puntuaciones. Así, para comprenderlas, el lector necesita dominar la estadística
descriptiva elemental. En este punto se hace un modesto paréntesis para revisar
los conceptos estadísticos esenciales.
Conceptos Estadísticos Especiales
Supóngase por el momento que se tiene acceso á una prueba de vocabulario de
alto nivel, apropiada para examinar las habilidades verbales de profesores
universitarios y otros profesionales (Gregory y Gernert, 1990). La prueba es un
cuestionario de opción múltiple con 30 palabras difíciles como firmamento,
paradisiaco y melifluo. Una profesora toma la prueba y elige la alternativa
correcta para 17 de las 30 palabras. Pregunta cómo se compara su calificación
con otras personas con el mismo nivel académico. ¿Cómo podría responderse a
su pregunta?
Una manera de responder a la interrogante consistiría en darle una lista de las
puntuaciones naturales de la muestra preliminar de estandarización con 100
profesores representativos de su universidad. Sin embargo, incluso con esta
muestra normativa relativamente pequeña (lo típico son miles de individuos), la
lista de puntuaciones de prueba es un despliegue excesivo.
Cuando se nos confronta con un conjunto de datos cuantitativos, la tendencia
humana natural es la de resumir, condensar y organizar dichos datos en
patrones significativos. Por ejemplo, en la evaluación del significado de la pun-
tuación de vocabulario de la profesora, el lector podría calcular la puntuación
promedio de toda la muestra o establecer la posición relativa de la puntuación de
la profesora.
Distribución de frecuencias
Una manera simple y útil de resumir los datos consiste en tabular una
distribución de frecuencias, la cual se prepara al especificar un pequeño número
de intervalos de clase de igual tamaño y después determinar cuántas
puntuaciones caen dentro de cada intervalo. La suma de las frecuencias de
todos los intervalos será igual a N, el número total de puntuaciones en la
muestra. No existe una regla simple para determinar el tamaño de los intervalos;
éste, obviamente, depende del número de intervalos deseado. Es común que la
distribución de frecuencias tenga entre 5 y 15 intervalos de clase. El cuadro
indica que un profesor obtuvo una calificación de 4, 5 o 6; 8 profesores obtu-
vieron 7, 8 o 9, y así sucesivamente.
Un histograrna proporciona una representación gráfica de la misma información
contenida en la distribución de frecuencias. El eje horizontal representa las
puntuaciones agrupadas en intervalos de clase, mientras el eje vertical
representa el número de puntuaciones que caen dentro de cada intervalo de
clase. En un histograrna, la altura de una columna indica el número de
puntuaciones que ocurren dentro de ese intervalo. Un polígono de frecuencias es
similar a un histograrna, excepto que la frecuencia de los intervalos de clase se
representa con puntos en lugar de columnas. Después, los puntos
independientes se unen por medio de líneas rectas.
Distribución de frecuencia
de las puntuaciones de 100 profesores
en una prueba de vocabulario
Intervalo de clase Frecuencia
4-6 17-9 8
10-12 12
13-15 21
16-18 24
19-21 21
22-24 7
25-27 5
28-30 1
W=100
Medidas de Tendencia Central
¿Se puede establecer una sola puntuación representativa de las 100
puntuaciones de vocabulario en nuestra muestra? La media (X) o promedio
aritmético es una de dichas puntuaciones. Se calcula sumando todas las pun-
tuaciones y dividiéndolas entre N, el número de puntuaciones. Otro índice útil de
tendencia central es la mediana, la puntuación que se encuentra a la mitad
cuando se han ordenado todas las puntuaciones. Si el número de puntuaciones
es par, la mediana es el promedio de las dos puntuaciones a la mitad. En
cualquier caso, la mediana es el punto que divide en dos la distribución, de modo
que la mitad de los casos se encuentren por encima de ella y la mitad por debajo.
Por último, la moda es simplemente la puntuación que ocurre con mayor
frecuencia. Si dos puntuaciones tienen la mayor frecuencia de ocurrencia, se
dice que la distribución es bimodal. La media es sensible a los valores extremos
y puede ser engañosa si una distribución tiene pocas puntuaciones inusualmente
altas o bajas. Considérese el caso extremo donde nueve personas ganan $10
000.00 y una décima persona gana $910 000.00. El ingreso promedio para este
grupo de personas sería de $100 000; sin embargo, este nivel de ingresos no es
típico de nadie dentro del grupo. La mediana del ingreso, colocada en $10 000,
es mucho más representativa. Por supuesto, éste es un ejemplo extremo, pero
ilustra un punto en general: si una distribución está sesgada (es decir, es
asimétrica), la mediana es un mejor índice de la tendencia central que la medía.
Medidas de variabilidad
Dos o más distribuciones de puntuaciones de prueba pueden tener la misma
media y, sin embargo, es posible que difieran en gran medida en el grado de
dispersión de las puntuaciones con respecto a la media. Para describir el grado
de dispersión, es necesario un índice estadístico que exprese la variabilidad de
las puntuaciones en una distribución.
El índice estadístico de variabilidad que se utiliza con mayor frecuencia en un
grupo de puntuaciones es la desviación estándar, simbolizada o/y abreviada DE.
Desde un punto de vista conceptual, el lector necesita saber que la DE refleja el
grado de dispersión en un grupo de puntuaciones. Si éstas se encuentran agru-
padas estrechamente cerca de un valor central, la Olí es pequeña. De hecho, en
el caso extremo donde todas las puntuaciones son idénticas, la DE es
exactamente cero. A medida que un grupo de puntuaciones se dispersa más, la
DE se vuelve más grande.
Como lo sugiere el nombre, la varianza es una medida de variabilidad. Sin
embargo, en general, los psicólogos prefieren informar la desviación estándar,
que se calcula obteniendo la raíz cuadrada de la varianza. Por supuesto, la
varianza y la desviación estándar transmiten información intercambiable —una
se puede calcular a partir de la otra, al elevar al cuadrado (la desviación estándar
para obtener la varianza) u obtener la raíz cuadrada (de la varianza para obtener
la desviación estándar). Sin embargo, la desviación estándar es la medida
preferida de varianza en las pruebas psicológicas, debido a su relevancia directo
para la distribución normal.
Distribución normal
Los psicólogos prefieren una distribución normal de puntuaciones de prueba, aun
cuando muchas otras distribuciones son teóricamente posibles. Por ejemplo,
dentro de la esfera de posibilidades se encuentra la distribución rectangular de
puntuaciones de prueba -un número igual de resultados en cada intervalo de
clase. De hecho, muchos legos podrían incluso preferir una distribución
rectangular de puntuaciones de prueba, basados en la premisa equitativa de que
las diferencias individuales serían por ello menos pronunciadas. Por ejemplo, una
mayor proporción de personas obtendría puntuaciones en el rango superior si las
pruebas psicológicas se conformaran a una distribución rectangular de
puntuaciones, en vez de a una distribución normal.
Entonces, ¿por qué los psicólogos prefieren una distribución normal de
puntuaciones, aun hasta el punto de seleccionar reactivos de prueba que ayuden
a producir este tipo de distribución en la muestra de estandarización? Existen
varias razones para ello, incluyendo las consideraciones estadísticas y los dalos
empíricos. Aquí se hará un breve paréntesis para explicar la fascinación
psicométrica con las distribuciones normales.
Una razón por la que los psicólogos prefieren las distribuciones normales es que
la curva normal tiene características matemáticas útiles que forman la base para
varios tipos de investigación estadística. Supóngase que se tiene interés en
determinar si los CI promedio de dos grupos de personas fueron
significativamente diferentes. Sería apropiado utilizar una estadística inferencial
como la prueba / para la diferencia entre medias. Sin embargo, muchas
estadísticas inferenciales se basan en la suposición de que la población
subyacente de puntuaciones se distribuye de manera normal, o muy cercano a
ello. Así, a fin de facilitar el uso de estadísticas inferenciales, los psicólogos pre-
fieren que las puntuaciones de prueba en la población normal sigan una
distribución normal o casi normal.
Otra base para preferir la distribución normal es su precisión matemática. Dado
que la distribución normal se define de manera precisa en términos matemáticos,
es posible calcular con gran exactitud el área bajo las diferentes regiones de la
curva. Así, una propiedad útil de las distribuciones normales es que el porcentaje
de casos que caen dentro de un cierto rango o más allá de un cierto valor se
conoce de manera exacta. Una tercera base para preferir una distribución normal
de las puntuaciones de prueba es que, con frecuencia, la curva normal surge de
manera espontánea en la naturaleza.
Transformación de las Puntuaciones Naturales
Darle sentido a los resultados de prueba es, en gran medida, una cuestión de
transformar las puntuaciones naturales en formas más interpretables y útiles de
información. En el análisis anterior acerca de las distribuciones normales, se
insinuaron las transformaciones al mostrar la manera en que el conocimiento
sobre la media y la desviación estándar de dichas distribuciones pueden ayudar
a determinar la posición relativa de una puntuación individual. En esta sección se
continuará con este tema de una manera más directa, al presentar los requisitos
formales para varios tipos de transformaciones de las puntuaciones naturales
Percentiles y rangos percentiles
Un percentil expresa el porcentaje de personas dentro de la muestra de
estandarización que obtuvieron puntuaciones por debajo de una puntuación
natural específica.
Se advierte al lector que no debe confundir los percentiles con el porcentaje de
respuestas correctas. Recuérdese que un percentil indica sólo cómo se compara
a un individuo con la muestra de estandarización y no transmite el porcentaje de
preguntas respondidas de manera correcta. Es posible que, en una prueba difícil,
una puntuación natural de 50% de respuestas correctas pudiera traducirse a un
percentil 90, 95 o incluso 100. A la inversa, en una prueba fácil, una puntuación
natural de 95% de respuestas correctas podría traducirse a un percentil 5, 10o
20.
Los percentiles también pueden concebirse como látigos en un grupo de 100
sujetos representativos, donde I es el rango inferior y 100 el superior. Obsérvese
que los rangos percentiles son el reverso completo de los procedimientos
comunes de clasificación por rangos. Un rango percentil (RP) de I se encuentra
en el extremo inferior de la muestra, mientras que un RP de 99 se encuentra
cerca del tope.
Puntuación Estándar
Aunque los percentiles son el tipo más popular de puntuación transformada, las
puntuaciones estándar ejemplifican las propiedades psicométricas más
deseables. Una puntuación estándar utiliza la desviación estándar de la
distribución total de puntuaciones naturales como la unidad fundamental de
medida. La puntuación estándar expresa la distancia de la media en unidades de
desviación estándar. Por ejemplo, una puntuación natural que se encuentra
exactamente a una desviación estándar por encima de la media se convierte en
una puntuación estándar de +1.00. Una puntuación natural que se encuentra
exactamente a la mitad de una desviación estándar por debajo de la media, se
convierte en una puntuación estándar de -0.50. Así, una puntuación estándar no
sólo expresa la magnitud de la desviación con respecto a la media, sino también
la dirección de esa desviación (positiva o negativa).
El cálculo de la puntuación estándar de un individuo (también llamada puntuación
z) es sencillo: se resta la puntuación natural de la persona examinada a la media
del grupo normativo y después se divide esta diferencia entre la desviación
estándar del grupo normativo.
La puntuación estándar posee la propiedad psicométrica deseable de conservar
las magnitudes relativas de distancia entre los valores sucesivos, encontradas
entre las puntuaciones naturales originales. Esto se debe a que la distribución de
las puntuaciones estándar tiene la misma forma que la distribución de las puntua-
ciones naturales. Como consecuencia, el uso de las puntuaciones estándar no
distorsiona la escala de medida subyacente.
Puntuaciones T y otras Puntuaciones Estandarizadas
Muchos psicólogos y educadores aprecian las propiedades psicométricas de las
puntuaciones estándar, pero consideran las fracciones decimales y los signos
positivos y negativos (p. ej., z = -2.32) como distracciones innecesarias. En
respuesta a estas preocupaciones, los especialistas en pruebas han diseñado
cierto número de variaciones para las puntuaciones estándar que colectivamente
se conocen como puntuaciones estandarizadas.
Desde un punto de vista conceptual, las puntuaciones estandarizadas son
idénticas a las puntuaciones estándar. Ambas contienen exactamente la misma
información. No se afecta la forma de la distribución de puntuaciones y la
relación entre las puntuaciones estándar y estandarizadas siempre se traza
como una línea recta. Sin embargo, las puntuaciones estandarizadas siempre se
expresan como números enteros positivos (no existen fracciones decimales ni
signos negativos), de modo que muchos usuarios de prueba prefieren
representar los resultados en esta forma.
Las puntuaciones estandarizadas eliminan las fracciones y los signos negativos
al producir valores diferentes a cero para la media y 1.00 para la desviación
estándar de las puntuaciones transformadas. La media de las puntuaciones
transformadas puede establecerse en cualquier valor conveniente como 100 o
500 y la desviación estándar en, digamos, 15 o 100. El punto importante acerca
de las puntuaciones estandarizadas es que se puede transformar cualquier
distribución a una escala preferida con media y desviación estándar
predeterminadas.
Un tipo muy conocido de puntuación estandarizada es la puntuación T, que tiene
una media de 50 y desviación estándar de 10. Las escalas en puntuación T son
especialmente comunes en las pruebas de personalidad. Por ejemplo, en el
MMP1, cada escala clínica (como Depresión, Paranoia) se convierte a una medi-
da común, donde 50 es la puntuación promedio y 10 es la desviación estándar
de la muestra normativa.
Las puntuaciones estandarizadas se pueden adaptar para producir cualquier
media y desviación estándar. Sin embargo, para eliminar las puntuaciones
estandarizadas negativas, la media preseleccionada debe ser cuanto menos 5
veces tan grande como la DE. En la práctica, quienes desarrollan pruebas
dependen de unos cuantos valores preferidos para las medias y desviaciones
estándar de las puntuaciones estandarizadas.
Selección de un Grupo Normativo
Cuando se elige un grupo normativo, quienes desarrollan pruebas se esfuerzan
por obtener una muestra representativa de la población para la cual se diseñó la
prueba (Petersen, Kolen y Hoover, 1989). En teoría, obtener un grupo normativo
representativo es simple y sencillo. Considérese una prueba de rendimiento
escolar diseñada para niños de sexto grado de primaria en EUA. La población
relacionada la constituyen todos los niños en sexto grado, de costa a costa del
país y en Alaska y Hawai. Se puede obtener una muestra representativa de estos
individuos potenciales a través de un muestreo aleatorio por computadora de
aproximadamente 10 000 niños, entre los millones de niños elegibles. Cada uno
tendría igual probabilidad de ser elegido para realizar la prueba; es decir, la es-
trategia de selección sería un simple muestreo aleatorio. Los resultados de dicho
muestreo constituirían una fuente ideal para los datos normativos. Con una
muestra aleatoria amplia, es casi seguro que la diversidad de antecedentes
étnicos, clases sociales, localizaciones geográficas y entornos urbanos contra
rurales tendrían una representación proporcional en la muestra.
En el mundo real, obtener muestras normativas nunca es tan sencillo y definitivo
como el caso hipotético anterior. Los investigadores no tienen una lista completa
de todos los niños de sexto grado en el país y, aunque la tuvieran, quienes
desarrollan pruebas no podrían obligar a lodos los niños seleccionados al azar a
que participaran en la estandarización de una prueba. También surgen asuntos
relacionados con el costo. Debe pagarse a los psicómetras para que apliquen la
prueba al grupo normativo. Los autores de la prueba pueden optar por unos
cuantos cientos de personas representativas en vez de utilizar un número mayor.
Para ayudar a asegurar que los grupos normativos de menor tamaño sean
verdaderamente representativos de la población para la cual se diseñó la prueba,
los autores de la misma utilizan un muestreo aleatorio estratificado. Este enfoque
consiste en estratificar, o clasificar, a la población blanco en cuanto a variables
antecedentes (como edad, sexo, raza, clase social, nivel educativo) y después
seleccionar al azar un porcentaje apropiado de personas dentro de cada estrato.
Por ejemplo, si 12% de la población relacionada es afroestadounidense,
entonces quien desarrolla la prueba elige los sujetos de manera aleatoria, pero
con la restricción de que 12% del grupo normativo debe ser también
afroestadounidense.
En la práctica, muy pocos creadores de pruebas reproducen completamente el
muestreo aleatorio o el muestreo aleatorio estratificado en el proceso de
selección del grupo normativo. Lo que es más típico es un esfuerzo de buena fe
por elegir una muestra diversa y representativa de escuelas fuertes y débiles; ve-
cindarios minoritarios y blancos; ciudades grandes y pequeñas y comunidades
del norte, este, centro y sur. Si esta muestra engloba entonces aproximadamente
el mismo porcentaje de minorías, habitantes de las ciudades, familias de clase
alta y baja que el censo nacional, entonces los autores de la prueba se sienten
seguros de que el grupo es representativo.
Existe una importante lección en las incertidumbres, concesiones y aspectos
prácticos de la selección del grupo normativo; a saber, que las normas de
pruebas psicológicas no son absolutas, universales o intemporales. Son relativas
a una época histórica y a la población normativa particular de la cual se
derivaron. Se ilustrará la naturaleza efímera de las estadísticas normativas en
una sección posterior cuando se muestre cómo una importante prueba de CI en
cuyas normas se estableció un promedio nacional de 100 puntos en 1974,
produjo un promedio nacional de 107 en 1988. Incluso las normas que se
seleccionan con gran cuidado y se basan en muestras grandes pueden volverse
obsoletas en el curso de un decenio —y en ocasiones menos.
Normas por Edad y Grado Escolar
A medida que uno crece, se cambia de manera calculable, ya sea para mejorar o
empeorar. Esto es obviamente cierto en la infancia, cuando las habilidades
intelectuales mejoran visiblemente de un mes a otro. En la edad adulta, el
cambio personal es lento, pero aun se puede discernir. Por ejemplo, se espera
que los adultos muestren un nivel más maduro de vocabulario con cada decenio
que transcurre (Gregory y Gernert, 1990). Una norma por edad representa el
nivel de desempeño en la prueba para cada grupo independiente según la edad
dentro de la muestra normativa. El propósito de las normas por edad es el de
facilitar las comparaciones entre individuos de la misma edad. Con las normas
por edad, el desempeño de una persona se interpreta en relación con los sujetos
dentro de la estandarización que tienen la misma edad. El rango de edades para
un grupo normativo por edad puede variar de un mes a un decenio o más, según
el grado en que el desempeño en la prueba depende de los años de vida. Para
características que cambian con rapidez —como las capacidades intelectuales
durante la infancia— los creadores de pruebas podrían informar normas
independientes de prueba para grupos de edad definidos de manera estrecha;
por ejemplo, intervalos de cuatro meses. Eso permite que, por decir, el
examinador compare los resultados de prueba de un niño que tiene cinco años,
dos meses de edad (edad 5-2) con la muestra normativa de niños que van de los
5-0 a los 5-4 años. En contraste, las características adultas cambian de manera
más lenta y podría ser suficiente con informar datos normativos para intervalos
de edad de 5 o 10 años.
Las normas según el grado escolar son conceptualmente similares a las normas
por edad. Una norma por grado representa el nivel de desempeño en pruebas
para cada grado escolar dentro de la muestra normativa. Las normas por grado
se utilizan poco en el caso de pruebas de capacidad. Sin embargo, éstas son
especialmente útiles en entornos educativos, cuando se presentan los niveles de
rendimiento de los niños en edad escolar. Dado que el rendimiento académico en
muchas áreas de contenido depende en gran medida de la exposición al
currículo de materias según el grado escolar, la comparación de un estudiante
contra una muestra normativa del mismo grado es más apropiada que emplear
comparaciones basadas en la edad.
Pruebas Referidas al Criterio
Una alternativa a las pruebas referidas a la norma, es las pruebas referidas a
criterio (Frechtling, 1989; Glaser, 1963; Popham, 1978; Berk, 1984). Mientras que
las primeras utilizan una muestra representativa de personas como su marco de
referencia interpretativo, una prueba referida a criterio compara los logros de un
individuo examinado con un área bien definida de contenido. Por ejemplo, el
desempeño de la persona que se somete a prueba podría presentarse como un
nivel específico de habilidad en aritmética (suma correctamente 2 números de 3
dígitos en 100% de las ocasiones, pero sólo tiene 70% de precisión cuando
suma 3 números de 3 dígitos).
Las pruebas referidas a criterio representan un cambio fundamental en
perspectiva. El centro de atención se coloca en aquello que el examinado puede
hacer, más que en comparaciones con los niveles de desempeño de otros indivi-
duos. Así, las pruebas referidas a criterio identifican el dominio (o falta de
dominio) absoluto de la persona examinada en relación con conductas
específicas. En general, estas pruebas se han utilizado en entornos escolares
para ayudar a los maestros dentro del salón de clase a determinar qué se debe
enseñar y también para evaluar los efectos precisos de los esfuerzos de
enseñanza del currículo escolar.
Las pruebas referidas a criterio son más adecuadas para examinar las
habilidades académicas básicas (p. ej., nivel de lectura, habilidades de cálculo
aritmético) en ambientes educativos. Sin embargo, estos tipos de instrumentos
son sumamente inapropiados para examinar capacidades de nivel superior, debi-
do a que es difícil formular objetivos específicos para dichas áreas de contenido.
Considérese un caso en particular: ¿cómo se desarrollaría una prueba referida a
criterio para examinar la pericia en programación de computadora? Sería difícil
proponer conductas específicas que pudieran poseer todos los expertos en
programación de computadoras y, por tanto, sería casi imposible construir una
prueba referida a criterio para esta habilidad de alto nivel. Berk (1984) analiza los
problemas técnicos en la construcción y evaluación de este tipo de pruebas.
REFERENCIAS USADAS Y BIBLIOGRAFÍA RECOMENDADA
Anastasi, A. (1968). Psychological testing. New York: MacMillan.
Anastasi, A. y Urbina, S. (1997). Psychological Testing (7ª ed.). Englewood
Cliffs, NJ: Prentice-Hall.
Arnau, J. (1989). Metodología de la investigación y diseño. En J. Arnau y H.
Carpintero (Eds.). Historia, teoría y método. Madrid: Alhambra
Universidad. Canpintero, H. (1996).
Cronbach, L.J. y Meehl, P.E. (1955). Construct validity in psychological tests.
Psychological Bulletin, 52, 281-302.
Crocker, L. y Algina, J. (1986). Introduction to classical and modern test theory.
New
York: Holt, Rinehart and Winston.
Gregory, R. (2001). Evaluación psicológica: Historia, principios y aplicaciones. México: Manual Moderno
Hambleton, R.K. y van der Linden, W.J. (1982). Advances in IRT and
applications: An introduction. Applied Psychological Measurement, 6(4),
373-378.
Lord, F.M. (1980). Applications of item response theory to practical
testing problems. Hillsdale, New Jersey: Lawrence Erlbaum Associates.
Lord, F.M. y Novick, M.R (1968). Statistical theories of mental test scores. New
York: Addison-Wesley.
Meliá, J.L. (1990). La construcción de la Psicometría coma ciencia
teórica y aplicada. Valencia: Cristóbal Serrano.