u, .,.•. P-s.,~mef;.,~~s TestsPsicológicos - bibliopsi.org · ANNE ANASTASI Department of...

",_,_,,'<;'__~"",,,,,'_":',,~:,.: ,-¡;...~.._-;.:.:._•. __",", "., .,...."•. u,_., .•..,3.)-:':_'>- ..~'.:.' .. "'" '_'_ - _' ;

P-s.,~mef;.,~~s,

:.: ..--;\..~•.....-.' ." ",

.'.',- '.¡~

~~:. -'r';:iX~-:'~"

"- '.

~,

.~

-,~

Tests PsicológicosANNE ANASTASI

Department of Psychology, Fordham University .

SUSANA URBINA 'Depart"1ent of Psychology, UniversitY of North Floñda

,

~!EXICO • ARGESTt'A' BR.-ISn.. COLOMel-" COSTA RlCA' CIlD.EES?".'I'" GU.m.WJ.A' ?ERÚ' ?UEJ<[O RlCO' VENEZUELA

1r~I~!

\ .,\ .1

j

¡",.,

.\\{

1

\

TRADUCCIÓN:María Elena Drtíz SalinasLicenciada en PsicologíaUniversídad Nacional Autónoma de México

REVISIÓNTÉCNICA:María Enedina Villegas HernándezLicenciada en PsicologíaUniversidad Nacional Autónoma de México

Pearson ~ .. Educación...-:' @

I

i:

"

Normas y significado de laspuntuaciones de los tests

0,1'.$., ~. n la segunda parte, compuesta por los capículos 3 a 7, enconreará una introduc#, ." ci6n a los conceptos básicos y la metodología que se requieren para entendero{ _ bs pruebas psicológicas y para la adecuada interpretación de sus resultados. Los- siguientes capítulos abordan temas como las normas, la confiabilidad. la validez,

el anjlisis dt: reactivos y el diseño de los tests. Este capítulo trata sobre el desarroHo yuso d~ la.:;normas y OtrOSprocedimientos que facilitan la interpretación de las puncua.cion.e$.En ausencia de datos interpretativos adicionales •.la sola puntuación cruda decU3.lqui~r prueba psicológica carece de significado. Decir que un individuo ha resueltocorrectamente 15 problemas de una prueba de razonamiento aritm~cico, identificado34 pabcras de una prueba de vocabulario o armado un objeco mecánico en 57 segun-dos, tranSmite poca o ninguna informaci6n sobre su posici6n en cu'alquíera de estasfuncione$. Tampoco los porcencajd brindan una solución SJ,tisfactoria al problema deinterpretar [as punruacio~es de tos lnstnlmentOS¡ por ejemplo, una puntuaci6n de 65por ciento de aciertos en una prueba de vocabulario puede ser equivalente al 30 enoera y a180 por ciento en una.más. Obviamente. el grado de dificultad de los reactivosque componen cada prueba determinará el significado del resultado. Al igual que laspuntuaciones crudaJ, los porcentajes sólo pueden intetpretarse en un marco de refe-rencia claramente definido y uniforme.En tos in.mumentos pslcol6gicos, las puntuaciones suelen interpretarse haciendo

referencia a norma.sque representan el desempeño de la muestra de estandarización enb prueba; es decir, las normas se establecen emprricamente al determinar lo querucen en b prueba lo:smiembros de un grupo representativo. La puntuación rraNfor-mada de cualquier individuo se refiere entonces a la distribución de las puntuaciones'obtcni..:!aspor b muestra de estandari:3ción pan descubrir qUl~lugar ocupa en esa dis-tribución. ¡Coincide el resultado con el desempeño promedIO del grupo de estanda.

48

-------- --- .---------

"

NomJa5.¥ ~i~nificadiJ de [as puntual..ione:; de la!>test!> 4~

ri:ación? ¿Está li~erameme por debjo del promedio o se encuentra cerca del e'x:tremosuperior de la dLmlbuciónl r -

Paca averi~31' la posición exact:l del ind¡vidu~ en relación con la muestra de: es-'tandari:ación, la puntuación cruda se convierte en una medida relativa. Estas punrua-ciones rransformadas cumplen un doble propósito; primero, indican la posición delindividuo en relaci6n con la muestra normativa, lo que permite la evaluación de su de-sempeño en comparación con otras personas. Segundo, proporcionan medidas equiva-lentes que permiten la comparación directa del desempeño del individuo en pruebasdiferente.:;;por ejemplo, si una chica obtiene una punruación cruda de 40 en una pruebad~ vocabulario y una de 12 en una prueba de razonamiento aritmético, esto, nada nosdice acerca de su desempeño relativo en las dos pruebas: ¿es mejor en vocabulario o enaritmética, o bien igualmente buena en ambas materias? Como las puntuaciones crudasde diferentes pruebas suelen expresarse en unidades distintas resulta imposible su com.paraci6n directa: El nivel de dificultad de cada prueba también afecta esta compara-ción. Por otro lado, las puntuaciones derivadas pueden expresarse en las mismasunidades y referirlasa muescrasnormativas iguales o muy similares en distintas pruebas,lo que permite comparar la ejecución relativa en funciones muy diferentes.Aunque hay varias formas de convertir las puntuaciones crudas para satisfacer los

dos objetivo.:; planteados, las puntuaciones derivadas se expresan esencialmente endos formas principales: (1) el niyel de desarrollo alcanzado, o (2) la posición relativadenero de un grupo específico. Estudiaremos ambas puntuaciones "J algunas de susvariantes en otraS secciones del capítulo, pero antes es necesario examinar algunosconceptos elementales de estadística que fundamentan el desarrollo y la utilización delas normas:' La siguiente sección aclara el significado de ciertas medidas e5tJdísticascomunes, y proporciona ejemplos simplificados de los cálcul9S ~in pretender con ello. brindar una capacitación en los métodos-estadísticos. Para loSdetalles de cálculo y losprocedimientos a seguir en la aplicación práctica de esas técnicas, acuda el lector acualquier texco actuaH:ado de estadLstica (por ejemplo, D. C. HoweH, 1997¡ Runyony Haber, i991¡ West, 1991). En la actualidad, eScomún que se reconozca la necesidadde que no sólo los usuarios de los tests cuenten con conocimientos básicos de lamecodotog(a de la estadística, sino cambién cualquiera que desee comprender los in-formes de Investigación publicados en cualquier área de la psicologfa (L. S. Aiken,Wesc, Sechwr y Reno, 1990; Anascasi, 1991; lambert, 1991; S. T. Meier, 1993).

CONCEPTOS ESTADÍSTICOSUn propósitO fundamental de la escadrstica es organizar y resumir los datos cu:mtita-tivos para facilicarsu comprensión. Una lista de 1 000 puntuaciones no sólo resultaabrumadora, sino que trarumice poco significado. El primer paso para poner orden ensemejante caos de dacos es tabular las puntuaciotle5 en una discribución de jw:ueTlciaJ,como se Huseraen la tabla 11,'que agrupa las puncuaciones en intervalos pe et~e, ymarca cada uro "enel incervalo adecuado. Cuando se han an;otado todas La.spunrua"ciones se cuentm las m3Icas para encontrar la frecuencia ° el número de casos encada intervalo de clase. Lasuma de esas frecuencias será igual a N, el número total decasos ~n el gru~o.u tabb 3.1 rnutsrra las puntuaciones obtenidJS por 1OC{) uníveTsi.

,'O.-:

50 Pdndpios técnicosy metodológicosNormas'Ysignificadode laspu~t'¡adones de los tests 51

Fi 9 u r a 3.1. Curvas de distribución:polígonode frecuenciae hisrograma.(DatOSde la t:!bla ).l)

,

~.:'.~,

.:...'.

.:~:•.

'¡O.':'.'

"

-- Polígono de frecuencia___ • Histograma

340

320

300280

260240

• 220o '<JI 200~.. 180'" .e 160~ 140.g .z 120

100

8060

4020

", ,~","~P~~,~~~ip2~:~~~:~f;:~ji~2j~~~~~j~~

La curva es simétrica y tiene un único pico en el centro. Casi todas las distribucionesde rasgos humanos, estatura, peso. aptitudes y caractedsticas de personalidad, seaproximan a la curva normal. y. en general, entre más grande sea el grupo más pare-cida resultará la distribución a la curva teórica normal.

Un grupo de puntuaciones también puede describirse en términos de alguna me-dida de wulenda central, que ofrece la puntuación más común o representativa del de-sempeño de todo el grupo. La mis conocida de esas medidas es el promedio, quetécnicament~ se llama media (M) y se obtiene al sumar todas las puntuaciones y di-vidir la suma entre el número de casos (N). Otra medida es la moda, o puntuaciónmás frecuente. En una distribución de frecuencias, la moda es el punto central del in-tervalo de clase con la mayor frecuencia. De acuerdo con lo anterior, en la tabla 3.1 lamoda cao a la mitad dd incecvale 32-35 y es igual a 33.5, Ob,ecve que es'" pun'tU3.ci6ncorresponde al punto más alto ,en la curva de distribución de la figura 3.1.Otra medid3.de tendencia central es la mediana, el puntO m:iscercano al centro deuna distribución de puncu.3cionesordenJdJ-Spor tamaño. La mediana eSel punto quedivide la disuibución por encima y por debajo del cual cae la mitad de los casos.

Las medid3.Sde variabilidad, de la extensión de las diferencias individuales alrede-dor de b cendenciJ.cenual, proporcion.3n otra descripción del conjunto de puntUJ-ciones de un [ejt. La forma m:1sevidente y familiar de mamar b vadabilid3.d es el

(Da~ tom:idos de Aruswi, 1934, pj.g. )4)

Distribución de frecuencias de las puntuaciones de 1 000 estu-diantes universitarios en una prueba de aprendi~aje de códigos

tarios en una prueba de aprendi::aje de códigos en la que un conjunto de palabras arti-ficiales o sílabas sin sentido debía ser sustituido por otro. Las punruaciones crudas in-dicaban el número de sílabas correctas sustituidas en un ensayo de dos minutos. conun rango de ocho a 52. Se agruparon en intervalos de clase de cuatro pumas, que ibande 52-SS enla parte superior de la distribuci6n a 8-11 ,en el extremo inferior. Lacolumna de frecuencia revela que dos estudiantes obtuvieron pumuaciones entreocho y 11, tres entre 12 y 15. ocho entre 16 y 19. etcétera.

La información que proporciona una distribución de frecuencias también puederepre:ientarse en forma gráfica en una curva de distribución. La figura 3.1 muestra deesa manera los datos de la tabla 3.1. En la Unea bas~, el eje .llorizomal, se encuenaanlas puntuaciones agrupadas en intervalos de clase; en el eje vertical se localizan las fte-cuencias o números de casos que caen en cada intervalo. La gráfica se presenta de dosformas, ambas de uso común. En elMwgrama. la altura de la columna levantada sobrecada intervalo corre~ponde al número de sujetos localizados ah£. Podemos imaginarque cada individuo se para en los hombros de otro para.formar la columna. En el po/(-gono de frecuencia. un puntO en el centrO del intervalo de clase y conectado a la fre-cuencia apropiada indica el número de sujetos en cada intervalo. Los puntOSs~cesivosse unen luego con líneas rectas.

A ~xcepci6n de algunas irregularidades menore:i, la distribución que se muestra enla figura 3.1 recuerda heun:a normal. En la figura 3.2 se presenta una curva normalp<:rfeccadecermin:lJa m:ltemáricamente. Esta curva tiene importantes propiedadc:sm<ltemáticasy brinda la base para muchos anáJisisestad8tic~; sin embargo, para nuc:s-traS propósitos actuales sólo mencionaremos algunos de esos rasgo.s. En esenci3, lacurva indica que el m:lyornúmero de C350S se agrupa en el centrO de la distribución, yque al acercarse a los extrc:mosva disminuyendo gT3dualmenceen ambas direcciones,

Intervalo de clase Frecuencu

.(:'1",'1 ....'-;.:);;;-.¿.': ..,~:¡'0.-

';:1 ;

.';: :

;;Ii.j!\~¡'I,;;:f0;¡~~;]:~lI~~~~~_.:: '. .i';;fJ:J:;;;'U '{: F! ",,-:,:B-aHl :";'}f.\:b::bi r.~bi;.l-::2; si ~I~l:.qi"..oo ~jirn1)q ~op~'oI;;.~ ~:-'':' .. ::!: ...~r;;~,-.: : ..;~. ':~'::" ..: ::,'¡:'i:Xi':-.[J 1; ¡i:;'d'j !lol~~~~ ,?l':í1~::!,::t"i"JI-5iq;rt~/<.-~;

.0

-'--.-- .-.-----------

.• / ...;~r

52 Principios tecnicos y metodológicos

,¿;~

Normasy-significado de los puntuaciones de los tests 53

Fi 9 u"/a 3. 2. Distribucionesde frecuenciascon la misma media pero dife-rente variabilidad. .

r:::-=-r.:-~._:'

Ilustración de la tendencia central y Lavariabilidad

emplea la "desviación promedio" porque la eliminación arbitraria de los signos haceinadecuado su uso en posteriores análisis matemáticos.

La desviación estándar (simbolitada por DE o a) es una medida de variabilidadmucho más útil en la que los signos negativos se eliminan al elevar al cuadrado cadadesviación, procedimiento seguido en la última columna de I.ata~la 3.2. Se conoe,ecomo varianza o media de los cuadrados de las desviaciones a la suma de esta columna

dividida entre el número de casos' ( r.t ).La .varianza ha demostrado serd~ gran

utilidad para' separar la contribución de diferentes factores a las diferencias indivi-duales en el desempeñ.o de una prueba; sin embargo, para los propósitos presentes loque más nos inreresa es la DE que, como se muestra en la tabla 3.2, es la rafzcuadrada de la varianza. Esta medid3 suele emplearse al comparar la variabilidad dedistintos grupoS; por ejemplo, b figura3.2 present'a dos distribucioneli que coincidenen la media p~ro difieren en la variabilidad. La distribución con la mayor variabili.

Noco.. los s(mbolos r. y C1 son 13 OU)'\ÍSCub y b minüscula de la muou lelr3 gricg3. pronunci3<b ~sigrn3•• En mu-chos textos de C$rndísti6', \1 DE ~ refiere a b desviación cst:ind:lr de la mucstrJ. de la que ~ obtuvieron!o:s datos,mientras que C1 se refiere al estimado de la desviación esónd:uen la poblaci6n de la que ~ exmjo la m\JC:Str:l.

I ~ cllculos lllJ,\t~os en esle OplfU!O tíCn(n que ver con la (lted!lrica dtKTipd\.'ll, que ~ refiere a b mucstr3reJlmenlC mcJiJJ; en la tJw&stiu m/(T(l"•.id. u N e1 reempl1:3<,h por N.¡ p:1n ~ríour los valores COrTcspon.dientcJ 3 b pobbci6n :1.pJnir de loi dHOS & lJ mccmJ. Enue menor su b mU(1{l'3, fT\3yOt'1Cd b difercnci:l.cnHe los "'llores de l:a muC)ln y \o¡ de U pJ:txión, PlrJ l1Ú1e,lplic.3(iúnes, vo!:uc cu.11quier libro JctwliuJo decstaJ[Uic3S (por ejemplo. Comrey y lec. 199!). •

Pun~:lc¡ones ex) Desvi:lción (x = X - M) Cuadrado de las desv. (xl)

,,:,.,.:,:" . , . ,." .. ,,'.50% d,:.•...

:;~'~eái~ri~7' 4o;? _.',' ~-;.r.:_ , ......, ...• v .... ,.. " .\/:. '., .. :50% de ... r.\,.

.,..:;_-,:I),:t-::;;~~~':',:,p,..LX~

.',i. :; ~;"."';:~':-';~:

, ,,:;"":,:,';~'~~11~~~~lr!¡ttilll

. '~.

,.,

,;',

..,.:....-;

~.',:;, .,

y .."

"'.'

.;-:.....

.~~~

~~R:\t.~'t~;;~:X~.r...:;.-: •.

,'.:;

;'(,.:.'

.2..B"{l".0

.. ' Cii:: E"":;1z.

rango entre la mayor y la menor puntuación; sin embargo, se trata de una medida muycruda e inestable, toda vez.que la determinan apenas dcl puntuaciones, lo cual suponeque una sola puntuación inusualmente elevada o baja puede afectar mucho sutama~o. Un método más preciso para medir la variabilidad se basa en la diferencia'entre la puntuación de cada individuo y la media del grupo.

En este p'umo resulta útil estudiar el ejemplo de la tabla 3.2, en el que se calcularonlas diversas' medidas consideradas para 10 casos. Aunque en la práctica real suelenmanejarse grupos más grandes, en este caso la elección de un grupo tan pequeño obe-dece a la necesidad de simplificar la explicación. La tabla 3.2 también permite intro-ducir algunos símbolos estadfsticos que debe aprender, ya que los emplearemos másadelante. ~ manera convencional, designamos las puntuaciones crudas originales conuna X mayúscula, la x minúscula se emplea para referirse a las desviaciones de cadapuntuación,' respecto a la media del grupo y la letra griegaL significa ula suma de", Seobserva que en la primera columna de la tabla 3.2 aparecen los datos para el cálculo dela media (que en este caso es 40) y la mediana (que es igual a 40.5 y se en!=uentra entre40 y 41) por encima y por debajo de la cual se encuentran respectivamente cinco casos(50 por ciento). En un grupo tOanpequeño no tiene sentido buscar la moda, porque loscasos no muestran un agrupamiento inequívoco en ninguna puntuaci6n; de cualquiermodo, la puntuación d~ 41 representarfa técnicamente a la moda, porque la obcu-vkron dos individuos, en ranto que el resto de los resultados ocurrió una sola vei.

La Stgunda columna muestra qué ramo se desvfa cada puntuación por encima o pord~b3jo de la m~dia de 40. La suma de las desviaciones siempre será igual a cero,porque bs desviaciones positivas y las negativas alrededor de la media necesariamentese equilibran o cancelan (+20 -20 •• O). Si ignoramos los signos podemos promediarIJ.Sd~svbciones absolutas y obtener una medida de la desviación promedio de cadasujeco d~ la media del grupo. Aunque de cierro valor descriptivo, en 13práctica no se

~~~;.?,;t";.iio¡',:-:.',I,".-;:¡' !t--;.~:~:;':-V~::"~i~',:''''~>..\;:'~.,~_::.:~;".,~,,,;;,,-,,,::::-:;:~":'''':''':::''''...i.~~.~ •.'~'¿0¿-"':"~.i:..<.:'.'-"----"-'.~~:""""-":'-:J..o. • -

Normas; s{gnificado de las puniu~ciones de los t~ts SS

---5-4 Principios técnicos y metodológicos

___~..:....._,~ . ~__~_ ..... , ..~....'....' . :::'-:-";Y=:'S-X~~~8l~--

í oC>:;' '" " ;" :~:, "f ,',::", ":~,o; V i: + _ .. 0'_ 68.26% •.. -" - + . ':'-

1\ « ¡ ,'!"".~r2i.";,1.'}:~~~]&i1It~tf&I{&11~f~jr.i~;íl;~~~~i~tit.i0~~~iF i 9 u fa .3. 3. Distribución de los porcentajes de casos de la curva normal.

dad individual produce una DE m~ grande que la que tiene rl}enores diferencias in.dividuales: Al evaluar la ejecuci~n relativa de dos grupos, deben compararst tantOlas DE como las medias. Si se encuentra que la variabilidad de los grupos difiere,puede suponerse que son dis[miles en la proporción de punruaciones altas, bajas o enambas, independientemente de las diferencias entre las medias. En la actualidad sedispone de procedimientos que permiten combinar los efectos de las diferenciasentre las medias y las diferencias en la DE (véase, por ejemplo, Feingold, 1995).

1.3 DE también proporciona la base para expresar en términos de normas las pun.tuaciones del individuo en dife~emes pruebas, como se mostrará en la sección de caH.ficaciones 'estándares. La interpretación de la DE resulta especialmente clara alaplicarse a una curva de distribución normal o aproximadamente normal, en la quehay una relación exacta entre la DE y la proporciÓn de casos, como se ve en la figura3.3. En 'ta~Hnea horizontal de la curva se han marcado las distancias que representanuna, do.:iy tres desviaciones normales por encima y por debajo de la media; por ejem.plo, en el caso presentado e.n la tabla 3.2, la media corresponder(a a una puntuación de40, +10 correspond,rla a 44.9 (es decir, 40 + 4.9); +20 a 49.8 (es d,ci" 40 + 2 X 4.9),etc. En la.curva normal el porcentaje de casos que cae enrte la media y +lcr es 34.13por ciento. Como la curva es sim~trica, también se encuenrra 34.13 por ciento de loscasos entre la media y -la, de modo que entre +10y -la a ambos lados de la media seencuentra el 68.26 por ciento de los casos. Casi todos los casos (99.72 por ciento) caendentro de :t3a de la media. Estas relaciones son particularmente importantes en la in-terpretación de las puntuaciones estándares y los percentiles que verelJlo.:iaddante.

NORMAS DE DESARROLLOL:u puntuaciones de l~ pruebas adquieren significado si indican qu~ tanto ro progre-sado el individuo en el pau6n de desarrollo normal. Así, puede decirse que un niño deocho ai\os tiene una ed3d mental (EM) de 10 si su ejecución en un3 prueba de in-

teligencia es tan buena como la de un niño de 10; la EM de 10 también se asignaría aun adulto retardado que mostra~ el mismo nivcLde ejecución: En un contexto dife-rente, puede decirse que un chico de cuarto grado ha alcaruado la nom,a de sexto enuna prueba de lectura y la de tercero en una de aritmética. Orros sisremas de desa-rrollo utilizan descripciones cualitativas de la conducta en funciones específicas,como las actividades sensoriomotoras o la formación de conceptos. Como quiera quese expresen, las puntuaciones basadas en normas de desarrollo tienden a ser burdas entérminos de la psicometda. Y no se prestan a un tratamiento estadístico preciso; noobstante, resultan muy atractivas para propÓSitOSdescriptivos, en especial en el estu-dio clínico intensivo de individuos Ypara ciertos propósitos de investigación .

Edad mental. En el cap[tulo 2 dijimos que el término "edad mental" se popularizógracias a las traducciones y adaptaciones de las escalas de Binet-Simon, aunque elpropio Binet prefeda usar el más neutral de "nivel mental". En escalas de edad comolas de Binet.y sus.revisiones (previas a 1986), los reactivos se agrupaban en nivelescronológicos. Por ejemplo, los. reactivos pasados por la mayoría de los niños de sieteaños de una muesIT3 de estandarización se colocaban en el nivel de siete años, lospasados por casi todos los de ocho años se asignaban al nivel de ocho años, etc. Lapuntuación de un niño en-la prueba correspondería entonces al mayor ni\'el quehubiera completado con éxito. En la práctica real, la ejecución de los individuosmostraba cierto grado de dispersión, lo que significa que en algunas pruebas estabanpor debajo de su edad mental y pasaban otras por encima. Por esta ra.::ón seacostumbraba' calcular la edad basal, es decir, la mayor edad en la que todas las pruebasse pasaban. A esta edad basal se agregaban luego créditos parciales en meses por laspruebas pasadas en niveles superiores. La edad mental del niño en la prueba era lasuma de la edad basal y los meses adquiridos como créditos en los niveles superiores.

Las normas de edad mental también han sido empleadas con pruebas que no se divi.den en niveles de años. En ese caso, primero se determina la puntuación del niño, quepuede ser el número total de aciertos obtenido en toda la prueba o bien puede basarseenel tiempo. número de errores Q en alguna combinación de esas medidas. El promedio delas puntuaciones crudas de los niños de la muestra de estandarización en cada grupo

. d, edad constituye la norma d, edad paro esa pru,ba; por ,jemp!o, la puntuadón ctudapromedio de los niños de ocho años representa la norma para esa edad. Si la calificaciónde un individuo es igual a la puntuación cruda promedio de los ocho años, entonces suedad m,neal en la prueba es de ocho años. Todas las puntuadon" crudas d, dicha pru,bapueden tra1\Sforrn:ll"Sede manera similar haciendo referencia a las normas de edad.

Advierta que la unidad de edad mental no permanece constante con la edad, sinoque tiende a disminuir con los ai\os; por ejemplo, un nii\o que a la edad de cuatrotiene un año de retardo a los 12 tendrá aproximadamente tres ai\os de retardo. Unaño de desarTollo mental de los tres a los CU3trOaños equivale a tres años de d~S3rTollode los nueve a los 12. Como el des3rTollo intelectual avan:a más r~pid3mentea edJdestempranas y disminuye a medida que el individuo se aproxima a su limire d~ madu-ración, la unidad de edad mental se reduce también con la edad. Est3 relación se apre.cia con mis facilid3.d si se piens3 en la eStatuf3 del individuo expresadJ en cénninosde "ed3d de escatura". La diferenci3, en centímetros, enue una ed3d de t-sratura d~ [[esy cuatro años será mayor que entr~ una de 10 y 11. D~bido a la disminución progr~sivJ

56 Principios técnicos y m~todológicos

de la unidad de EM, un año de aceleración o remrdo, dig3mos, la edad de cinco repre-::enta una desviación mayor de la norma que un año de aceleración o retardo a los 10.

Grados .equivalentes. En las pruebas de aprovechamiento académico, los re~ulm-dos suelen interpretarse como equivalentes a grados, práctica comprensible porqu~ laspruebas se emplean en medios escolares, Describir el aprovechamiento de un alumnocomo equivalente al desempeño de séptimo grado en ortografía, de OCtaVOen lecruray de quinto en aritmética tiene el mismo atractivo .popular que el uso de la edad men-tal en los tests tradicionales de inteligencia.

Las normas de grado se encuentran calculando la punruación cruda promedio de losniños de cada grado. De esta manera, si en la muestra de e.standari:aci6n los chicos decuartO resuelven correctamente un promed,io de 23 problemas en una prueba de ariuné-tica, entonces la puntuación cruda de 23 corresponde a un grado equivalente de cuatro.Los equivalentes de grados intermedios, que representan fracciones de grado, en generalse encuentran por interpolación, aunque también pueden obtenerse examinando direc-tamente a los niños en momentos diferentes del año escolar, Como éste cubre 10meses,pueden expresarse como decimales; por ejempto, 4,0 se refiere al desempeño,promed,ioalinicio del ~uano grado (aplicando la prueba al empez.ar el curso), 4.5 al desempeño pro-medio a la mitad del grado (aplicando la prueba a mediados del año escotar), etcétera.

A pesar de su popularidad, las normas de grado tienen varios defectos. Primero, elcontenido de la instrucci6n varía de un grado a otro, de ahí, que las nonnas de gradosólo sean apropiadas para las materias enseñadas a lo largo de todos los niveles escola-res cubiertos por la prueba. Por lo general no son aplicables en el nivel de secundaria,pues muchas materias se cursan sólo uno o dos años; sin embargo, incluso en las mate-rias enseñadas en cada grado el énfasis puesto en diferentes temas puede variar, por loque el p,rogreso puede ser inás rápido en una materia que en otra. En otras palabras, lasunidades de grado son desiguales, y tales desigualdades ocurren de manera irregular endiferentes áreas temáticas. .

Las normas de grado también pueden ser objeto de malas interpretaciones a menosque el usuario tenga siempre presente la manera en la que se derivaron; por ejemplo, siuna niña de cuarto obtiene un grado equivalente de 6.9 en aritmética, eso no signifi-ca que 40mine los procesos aritméticos enseñados en sexto. Aunque es indudableque su calificaci6n obedece a una ejecución superior en la aritmética de cuarto grado,no debe s.vponerse que cumple los requisitos para la aritmética de séptimo. Por último,las normas de grado tienden a ser consideradas en forma err6nea como criterios dedesempeño; por ejemplo, una mJestra de sexto puede suponer que todos sus alum-nos deben encontrarse alrededor de las normos del sexto grado en las pruebas de apro-vechamiento. Esm concepci6n errónea no es sorprendente cUJndo se utilizan normasde gr.ldo. Con todo, las diferencias individuales observadas en cualquier grado son tangrandes, que el mngo de las puncuJciones de una pruebJ de aprovechamiento inevita-~Iemente se extiende a lo I3rgo de varios grados.

Escalas ordinall::s. Otra aproximaci6n a las normas de de:i3rrotlo proviene de lainvestigaci6n en el c~mpo de la psicología ¡nfami\. L'l.S observaciones emprricas deldesarrotlo conduccu:l! de infantes y niños pequeñ~ lleva a b descripción de b con-ducca caracterGtica de esas ed3des sucesivas en funciones como b locomoción, b dis-criminaci6n sen.soriomotora, b comunicaci6n lingi.Hstica y la formación de concep-

,t

Nonnas y'significado de las puntuadone.s de los tests 57

tos. Un ejemplo precoz se encuentra en el trabajo de yeseU y sus coleg~~-;.l:"(Ames, 1937; Gesell y Amatruda, .1947; Halve..rson, 1933; Knobloch y Pa:;am;mick,1974). Los Programas de Des::trrolIo de Gesell preseman, en meses, el nivel ~proxima-do de desarrollo que ha alcanzado el nino en cuatro áreas principales de conducta, asaber, motora, adaptativa, lenguaje y personal-sociaL Estos niveles se encuentrancomparando la conducta del niño con la que es distintiva de ocho edades claves quevan de las cuatro semanas a los 36 meses.

Gesell y sus colaboradores subrayaban el pattón secuenciado del desarrollo conduc-tt1al temprano. Citaban evidencias considerables de las uniformidades de las secuen-cias del desarrollo y la progresión ordenada de los..cambios en la c<?nducta; porejemplo, en las reacciones del niño ante un objeto pequeño colocado frente a é1se en-cuentra una secuencia cronol6gica característica en la fijación visual y los movimien-toS de mano y dedos. El uso de la mano en intentos burdos de prensión palmar OCurrena una edad anterior al uso del pulgar en oposici6n a la palma; esta prensión es a su vezseguida por el uso más eficiente de los dedos pulgar e índice a manera de tenazas al asirel objeto. Este patr6n secuenciado se observa también al caminar, subir escaleras y enla mayor parte del desarrollo serisoriomotor de los primeros años. Las escalas desarro •... lIadas dentro de este marco son ordinales en el sentido de' que las etapas del desarrollosiguen un orden constante, en el que cada etapa presupone el dominio de la conductaque es característica de las etapas previas.2

En los sesenta se observó el resurgimiento del interés en las teorCasdel desarrollo delpsicólogo infantil suizoJean Piaget (véase Flavell, 1963; Ginsburg y Opper, 1969;D. R.Green, Ford y Flamer, 1971). La investigaci6n de Piaget se centr6 en el desarrollo de losprocesos co~osdtivos de la infancia a la adolescencia. Se interesaba en conceptos espe-cfficos más que en habilidades generales. La permanencia del objeto es un ejemplo dedichos conceptos o esquemas. En este caso, el niño es consdeme de la identidad y laexisrencia continua de objetos cuando los ve.desde ángulos c!iferentes o cuando salendel alcance de su vista. Otro concepto muy estudiado es el de la conservaci6n, el reco-nocimierúo de que un atributo permanece constante a pesar de los cambios en su apa-riencia, como cuando la misma cantidad de Irquido se vierte en recipiemes de formadistinta o cuando se colocan varillas de la misma longitud en órdenes diferente.s.

Las tareas piagetianas han sido exhaustivamente emple~das por los psicólogos deldesarrollo en su labor de investigación, y algunas han sido organizadas en escalas es-tandarizadas, como veremos en el capítulo 9 (Goldschmid y Bemler, 1968b¡ Pinard

. y Laurendeau, 1964; Ulgiris y Hunt, 1975). De acuerdo con la aproximación de Pia.get, esos instrumentos son escalas ordinales en las que alcanzar una etapa depende dehaber_completado las etapas anteriores en el desarrollo del concepto. Las tareas se di~• señan para revelar los aspectos dominantes de cada etapa d¿ desarrollo; sólo despuésse obtienen datos empíricos concernientes a las edades en las que suele alcanzarse

I E.1fe U$<)del término "d(;:1b orJI(\.;:¡I~dl~ere del que se le dJ eo CH.1<.I¡~li(:1.en b que UIU C1C:1I.;:¡orJlnJl Cj limoplemeole allue1b que permite el ONeoamiento Je los InJividU01 sin conocimIento SoJbrc lJ c:ltuiJ3J Je d¡(cren.cl:l eoue 0:1105; en s.cotldo dt:w:!fslico, W esc;¡l:u ordil\J1cs 'le contt:ll{an coo ~31.U de lnre('Y:I!oJe unllbd'Ii"U1.u.s C'1oC:lWordm.;:¡les del dC$:lrrolloJ in(:Iolil se dlJCl\.:lo sobre el moJc1o de lJ eolJ de Gurrrruo. o slmptex. eo bque II e¡ccud6n Cl1fOU en un nivellmpliC3 el oominlodc todos los niveles m{enoJres (L Gumn:ln. 19H1, B.lny Au':ui.;:¡n (1914) Jc.scntxo ufU eXlel\.l16n del arúluu Je Guwn.lO pJr:¡ indu;( J(l'3tqu1JJ fU) IlOn1a, coo rc(c'fl:oci.l Cjpecbl.1 Lu C'Ol.lJ pi.;:¡¡:eurus,

.1

~58 Principiostécnicosy metodológicos•~~betapa. A este respecto, el procedimiento difiere del seguido en la elaboraciónde escalas de edad en las que los reactivos se eligen en primer lugar sobre la base desu diferenciación entre edades sucesivas. Aunque prosigue el interés en las contri-buciones de los planteamientos de Piaget¡ los análisis críticos y las evaluaciones em.píricas han resaltado tanto sus aportaciones como sus limitaciones (Sugarman,1987)J '

En suma, las escalas ordinales se diseñan para identificar la etapa alcanzada por elniño en el desarrollo de funciones conductuales específicas. Aunque los resultados

~ pueden informarse en términos de niveles aproximados de edad, estas puntuaciones.: son secundarias á la descripción cualitativa de la conducta caracterfstica del niño. La

'c., ordinalidad d~ dichas escalas se refiere a la progresión uniforme del desarrollo pór las~:.etapas sucesivas. En la medida en que las escalas suelen proporcionar información, .:'_acerca de lo 'que el niño verdaderamente es capaz de hacer (por ejemplo. trepar esca-._. leras sin ayuda. reconocer la identidad de la cantidad de Hquido cuando se vierte en

.< ._: recipientes de distintas formas). comparten rasgos importanteS con las pruebas de dt;>-. ~ minio que anali:amos en otra sección.

O.,;.

NORMAS INTRAGRUPO.., Casi todos los tests estandarirados proporcionan alguna forma de nonnas intragrupo,

con las que b ejecución del individuo se evalúa en términos del desempeño del grupode estandari:ación más próximo. como sucede al comparar la calificación cruda de unniño con la de Otros de la misma edad o del mismo grado escolar. Las puntuaciones in-

o tragrupo tienen U!! significado cuantitativo uniforme y definido y pueden emplearse.' adecuadí.'lmeme en casi todos los análisis estadrsticos.

~~~.. '._'-

Normasj!significado de las puntuaciones de los tests 59" . \

Los pe,centiles no deben confundirse con los porcentajes, que son puntuaci~~es '~crudas qu~ se expresan en términos del porcentaje de los. reactivos correctos y el totai;"~los percentiles son puntuaciones rransformadas qtte se expresan en ténnin~ del por-centaje de individuos. Una puntuación cruda inferior a cualquiera de las calificacionesobtenidas en la muestra de estandarización tiene un rango percentil de cero (Po)¡ unasuperior a cualquier puntuación de la muestra de estandarización tiene una rango per-centil de 100 (P1OO); sin embargo. los percentiles no implican una puntuación crudade cero ni una puntuación cruda perfecta.Us rangos percentilares tienen varias ventajas: son sencillas de calcular y de com-

prender, incluso por personas sin capacitación técnica. Más aún, son de aplicaciónuniversal, pueden usarse lo mismo con adultos que con niños y son adecuados paracualquier prueba, sea que mida variables de aptitud o de personalidad.

Su principal desventaja ~stá en la marcada disparidad de sus unidades, en especialen los extremos de la distribución. Si la distribución de las puntuaciones crudas seaproxima a la curva normal (como sucede con los resultados de la mayor pane de laspruebas), las diferencias en las puntuaciones crudas cercanas al centro de la distribu-ción (o mediana) aparecen exageradas al rransfonnarse a.percet:\tiles¡ por el contrario,

. las diferencias en las punruacionescrudas próximas a los extremos quedan considera.. blemente acortadas. En la figura 3.4 puede verse esta distorsión. Como recordará. en

una curva normal los casos se agrupan cerca del centro y su dispersión aumenta alaproximarse a los extremos¡ en consecuencia, cualquier porcentaje de casos cercanosal centro cubre una distancia más corta en la línea horizontal que el mismo porcenta.je cerca de los--exrremos de la distribución. En la figura 3.4 puede verse fácilmentees-ta discrepancia en los intervalos entre los rangos percentiles (RP) si se compara ladistancia entre un RP de 40 y uno de 50 con la distancia entre un RP de 10 y uno de20. Todavra más so~rendente es la discrepancia entre esas distancias y la que hay en-

F 19 u r a 3. 4. Rangos percentilares en un:l di.mibución nonn:ll (Q es igual a cU:lrtil).

:. : .~~;:\~1 .,. •••• ':)1 ••••• ",,

",i ..)-?o.,'99,9

" :

+10 .,'. ::'+20' ".'84' ~ .~~;;~'éá'.~~ ,.

, . ,

~,

':.:.30 '.' ".-20 :- .... .:.10RPO:l ,~ " 2" ,', 16

."'.

Perc~ntilcs. Las calificaciones percenriles se expresan en términos del porcentaje'. de sujeto.s de la muestra de estandarización que caen bajo determinada puntuación_cruda. Por ejemplo, si 28 por ciento resuelve correctamente menos de 15 problemas, de una prueba de razonamiento ar.irmético. entonces la puntuación cruda de 15 ca.

': rmponde al percentil 28 (P,,), El percentil indica la posición relativa del individuo~ en la muestra de estandarización ..Los percentiles también pueden verse como rangos en. un grupo de lOO, excepto porque en éstos se acostumbra empezar a contar por la partesuperior. y el mejor individuo del grupo recihe un rango de 1. Por su pane, con los per-

- cemiles se comien:a por el extremo inferior, de modo que entre más bajo sea el percen'ri! más pobre es la posición del individuo, '

El percenti! 50 (P,ol corresponde a la mediana, ya estudiada como medida detendencia central. Los percentile~ por. encima de.50 representan una ejecuci6n porcncimJ de la mediana¡ los que están por debajo de 50 significan una ejecución infe~rior. LO::ipercentiles 25 y 75 se conocen como el primer y el tercer puntos cuarriles(Q, y Q¡), porque sepatan los cuartos inferior y superior de la distribución, Como lamedi3na, proporcionan referencias convenientes para describir una distribución depuncu:lciones y compararb con Otras distribuciones.

) \'é".uc el c:.Jpro.:~ 9 pJn Q(r:¡ev~llUClÓn de u ~pfOJ(Lln;¡ciónde PIJ.¡:c(.

60 Pdncipios técnicos y metodológicos

',;t'g

Normas y significado de las puntuacione5 de los tests 61

F f 9 U r a 3. 5. Di3grarn3 d~ pcrcemil norm31. Los percemiles se esp:1ciJn de:modo quecorr~pond3n a distJnci:u igual~ en unJ distribuci6n normJl, Compare la distanci3 entreb.s puntuaciones obtenidas por Juan y María con la que existe entre 105 resuh3dos deElena y Edg:lCj d~mro de ambos pares, 1.1diferencia percentil es de 5 puntos. Juana yRi.:ardo difieren en lO puntos percentiles, igual que Roberto y Debom,

tre un RP de 10 y un RP de 1 (en una curva normal derivada matemáticamente, elpercentil cero se alcama en el infinito, por lo que no puede mostrarse en la gráfica).

La misma relación puede verse desde la dirección opuesta si se examinan los rangospercentilares correspondientes a iguales distancias a de la 'media de una curva normal.Esos rangos se presentan bajo la gráfica de la figura 3.4, según la cual la diferencia per~centilar entre la media y +la es 34 (84 - 50). Yentre +la y +2aes de sólo 14 (98 - 84).

Resulta evidente que los percentiles muestran la posición rela~iva de cada individuoen la muestra normativa pero no la magnitud de la diferencia entre puntuaciones; sinembargo, si se grafican en una carta de probabilidad aritmética, las puntuaciones per~centilares también brindan una imagen corr'ecta de las diferencias entre las puntuacio~nes. La carta de probabilidad aritmética es una gráfica con secciones transversales en laque las líneas verticales muestran el mismo espaciamiento que los puntos percentilaresde una distribuci6n normal (como en la figura 3.4), mientras que el espaciamiento entrelas líneas horizontales es unifonne, o a la inversa (como en la fi&ura3.5). las gráficas dep¿;cenriles ~s pueden usarse para mostrar las puntuaciones de diferentes individuosen la ~isrn.J prueba o los resultados de la misma persona en diferentes pruebas. ,En cual~

DE.", 5 ,..

'jl'

.' .r'

~~~'wuWn~ ilol=q ,Xz=58 , .., 58~i;o

.¡ :l:z=-5-: '.'

= ..:0.40

":,1

,'.

'. M=6O". ;,l! ,.<.' q 1".,:': ~

'X'-M ','t;:a~,

,.

! . _'. ,,:.- .', ,.. . to:", 'p!"'~dtEkna'

X =65 .": .1,'. I ,'1 .' , , .

65 -'60tl?~.::"""

'~+l.OO' :1

":,.

,~;

~tuadones 'estándares

quier c~, la diferencia real entre puntuaciones aparecerá representada co~--;a~H:n'te ..Muchas.'baterías de aptitudes y de aprovechamiento utilizan esta técnica en sus perfilesde .calificaciones, que mueStran el desempeño del individuo en cada prueba.

Calificaciones estándares. Los instrumentos actuales hacen un uso creciente de lascalificaciones estándares, que desde cualquier punto de, vista constiruye~ el tipo mássatisfactorio de puntuación derivada. Estas calificaciones expresan la distancia del in~dividuo de la media en términos de la desviación normal de la distribución normal.-Las calificaciones estándares pueden obtenerse por medio de transformaciones linea.

les o no lineales de las puntuaciones crudas originales. Las calificaciones estándares obte~nidas por medio de una rrans[orrnaci6n lineal conservan las reladones numéricas exactasde las puntuaciones originales gracias a que para calcularlas se resta una constante decada puntuación cruda y se divide el resultado entre otra constante. La magnitud rela~tiva de las difereI}cias entre las calificaciones estándares así derivadas corresponde exac~tamente a la que existe, entre laspuntuaciones crudas. Todas las propiedades de la. distribución original de las puntuaciones crudas se duplican en la qistribución de cal¡fi~caciones-estándares,lo cual implica que en las dos clases de puntuaciones es posible rea~lizar el mismo cálculo sin distorsionar de los resultados.

Las puntuaciones estándares derivadas linealmente suelen conocerse simplementecomo l<calificaciones estándares" o como Itcalificaciones t". Para calcular una ca{¡fica~ción t, se encuentra la diferencia entre la calificación individual cruda y la media delgrupo norrnáÜvo, y luego se divide la diferencia entre la DE del grupo normativo. L"tabla 3.3 muestra el cálculo de las puntuaciones z para dos individuosl de los que unocae a una DE por encima de la media del grupo y el otro a .40 DE por debajo. Cual.quier puntuación no procesada que sea exactamente igual a la media es equivalente auna puntuación t de cero. Es evidente que dicho procedimiento producirá puntuacio~nes derivadas con signo negativo para todos los que caigan por debajo de la media.Además, como el rango total de la mayor parte de los grupos no se extiende más alláde tres DE por encima y por debajo de la medial las puntuaciones estándares debenexpresarse con al menos un ~ecimal para permitirla sufici~nte diferenciación.

Las dos condiciones mencionadas (la ocurrencia de valores negativos y de decima~les) tienden a producir números desproporcionados que resultan confusos y difíciles

;,,.. ;.. .:

. '_".1

'. ,

'" .':., ,,:,:::'';:::1'.1.

" .'" :.¡ ,il:;r

'.., , '.' :';. ..

'"

....:~'J

f:tena Edgar

'.:..

'.. ;';

.,:' : .... :... ::.:~..::_.~::¡: .:}'::';:.~.~' .. :;":.;:~~':",~~:~::~d.~\;:,.~:;,,;,:tt!:~\'~:-~¡¡I~:~~~tr~~~~l,~~~~',.

.'~.71 ::'1"8075

.-1',70~.$' 60='e SO~, '

,. 4()0.,' •... SO

".; 2S'" '::20

"

, !'10,

.:.' .

~'.~.r_95'.. '~'.".W

• 99

~~0'~:"'1¥~0~~S~"j'Srr;,*",::;(m~~'0\," •..ó.P':':'._"'..~*~~.:::"'i~~~~,'L.>.-='~:c'";. __-,.,-,.='-'.--"--""~~ __. -~._-

62 Pdndpios técnicos y metodológicosNormasy significado de los puntuaoones de los ,tests 63

..de usar en cálculos _oinfonne.sl por lo que suele aplicarse alguna otra transformaciónlineal para poner las puntuaciones en una forma más conveniente; por ejemplo, laspuntuaciones de las Pruebas de Evaluación Académica (S-cholastic Ñsessmenc Tests,SAT) de la Junta Universitaria son calificaciones estándar~ ajustadas a una media de500 y una DE de 100. Asf, en esta prueba una calificación estándar de -1 se expresacomo 400 (500 -100 = 400), mientras que una de +1.5 corresponde a 650 (500 + 1.5X 100 = 650). Lo único que se requiere para convertir una calificación estándar origi#nal en la nue,va escala es multiplicarla por la DE deseada (100) Ysumar o restar el re#

. ,.., sultado de ~~amedia deseada (500). Es posible elegir arbitrariamente cyalquier otraconstante conveniente para las nuevas media y DE; por ejemplo, las puntuaciones ob#

.0 ~ tenidas en lOssubtests separados de las Escalas de Inteligencia de Wechsler se convier~" ten en una-é:listribución con una media de la y una DE de 3. Todas esas medidas son

--,{' ejemplos de-calificaciones estándares transformadas en forma lineal.: .~,:~ Recordarl. que una de las razones para tran.sformar las puntuaciones crudas en cual#-- - quier escal~,gerivada es la necesidad de hacer comparables los resultados de diferentes...... pruebas. L.aS'punruaciones estándares derivadas linealmente sólo son comparables cuan#

do provien~h de distribuciones de más o menos la misma fórma; por ejemplo, en talescondicion~~.una calificación que corresponda a lUlaDE por encima de la media signifi~ca que el intli\'iduo ocupa la misma fOSici6n en los dos grupos. En ambas distribuciones,la calificación supera aproximadamente al mismo porcentaje de sujetos, y este porcenta-je pu~de ser determinado si se conoce la forma de la distribución¡ sin embargo, si unadistribuci6n es muy asimérrica y la otra es normal, lUlacalificación z de +1.00 podría ex#ceder Sólo al 50 por ciento de los casos en un grupo y a más del 84 por ciento en el otro.

Cuando Ja forma de las distribuciones es distinta, las calificaciones pueden hacersecomparableS. empleando tranSformaciones no lineales que las ajuste a cualquier curva. de distribuc1.ón. La edad mental y las puntuaciones percentilares representan transfor#maciones nO. lineales, pero tienen otras limitaciones que ya vimos. Aunque en ciertascircunstancias puede ser más apropiada otra distribución, la curva normal suele em#

.. "".. plearse con.este propósito. Una de las razones para esta elecci6n es que la mayor parte, -'. de las distribuciones de puntuaciones crudas se aproxima a la curva normal más que a

cualquier ofra. Además, las medidas físicas, como la estatura y el peso, que utilizan es#.calas de unraades iguales derivadas por operaciones f(sicas, en genéral producen distri~budones normales. Otra ventaja de la curva normal es que tiene muchas propiedadesmatemáticas útiles que facilitan los cálculos posreriores. ",.

Las calificacione, estándare.snonnali,ada.s son calificaciones estándares expreSadas entérminos de una distribución que ha sido transformada para ajustarse a una curvanormal. Dichas calificaciones pueden calcularse recurriendo a tablas que muestran elporcenraje de casos que cae a diferentes disran¿as DE de la media de una c~rva nor~mal. Para ello, primero se encuentra el porcenraje de individuos de la muestra de es-tandari:ación que cae en o por encima de cada punMlci6n cruda, esre porcentaje selocali:a luego en la tabla de frecuencia de la curva normal y se obtiene la correspon~dienre calificaci6n estándar normali:3da. Las calincaciones esrándares normalizadas!leexpr~an de la misma forma que las calificaciones estándares derivadaS linealmente,es decir, con una medi:J igual a cero y una DE igual a 1. Asr, una calificación normali.zada de cero indica que el individuo cae en la media de la curva norm;l, que supera al

Porcentajes de la curva normal para su uso en la conversióneda~na .. .. .

SO por ciento del grupo. Una calificación de -Lsignifica que sobrepasa aproximada~mente a 16 por dento del grupo y una calificación de +1 que aventaja al 84 pOr ciento.Corno puede verse en la lrnea inferior de la figura 3.4, esos porcentajes corres~ndenrespectivamente a una distancia de una DE por debajo y una DE por.encima de la me#dia de una curva normaL

Igual que las calificaciones esrándares derivadas linealmenre, las calificaciones ~s# :tándares normalizadas pueden adoptar cualquier forma éonveniente. Si la calific"adórt': --o

estándar normaliz:ada se multiplica por.lO y se suma o resta de SOse convierte en una.'calificación T, una puntuaci6n que propuso primero W. A. McCaIl (1922) yen la que,una puntuación de 50 corresponde a la media, una de 60 a una DE por encima de lamedia, etc. Otra transformación conocida es la de la escala estanina, elaborada porla aviación estadounidense durante la Segunda Guerra Mundial, que proporciona unsistema de calificaciones de un solo dígito con una media de 5 y una DE aproximada-mente igual a 2.4 El nombre, que en inglés (scanine) es una contracción de uscandardnine" O Uestándar nuevell¡ se basa en el hecho de que las calificaciones van de 1a 9. Larestricción de las calificaciones a números de un solo dígito tiene ciertas ventajas parael cálculo, ,ya que cada calificación requiere una sola columna en la computadora. .

Las puntuaciones crudas pueden convertirse fácilmente en esraninas si se disponenlos resultados originales en orden de tamaño y se les asignan luego estaninas de acuer#do con los porcentajes de la curva normal reproducidos en la tabla 3.4¡ por ejemplo,'siel grupo consta exactamente de 100 personas, las cuatro ám la calificación más bajareciben una calificación estaninade 1, las siguienl:"és-sie.te-una 'Calificación"de"2, lis "si~-'guientes 12 una calificaci6~ de 3,etc. Cuando el grupo contiene más O menos 100 ca-sos, primero se calcula el número correspondiente a cada porcentaje designado y luegorecibe las esraninas apropiadas. Así, si son 200 casos, a ocho les sería asignada una es#ranina de 1 (4 por ciento de 200 = 8), con 150 casos seis recibirran una esranina de 1(4 por cientode 150 = 6), Para cualquier grupo que conrenga de 10 a 100 casos, Bar-dett y Edgerton (1966) prepararon una tabla que pennite convertir direcramente losrangos en estaninas. Debido a sus venrajas prácricas y te6ricas, las esraninas han sidoempleadas ampliamenre, en especial con las pruebas de aprirud y de aprovechamienro.

Aunque las calificaciones estándares normalizadas son el ripo de puntuaci6n másadecuado para la mayor parte de los propósiros, hay ciertas objeciones récnicas a la

• K3~r (1958) propwo utu moJifie:tci6n dl: la e1oC3U~uniru qUl: lucl: lil,ocrO\omb¡~l:n b porCl:nujC1 '1 pro.dua uru DE CUCUffil:nte ifilUl a 2.loqu.o:bciliu sununejocwnciutivo. Ou:u vwntes son b escau e (Guil.(oro '1 FJ\ldHer, 1978. pp, -48+-187). que CON? de 11 unld:u1d '1 pmbi~ngenen U.n3DE dl: 2. y b e1oC3U lun dl:10unid.lJ(;j con cinco unubdo p:l' encirru.'1cinco por ~ebajo de b medi.1(Dnfidd. 1951).

64 Pn"ndpios técnicosy metodológicos

normalización rutinaria de todas las distribuciones. Dicha transformación sólo deberíallevarse a cabo cuando la muestra es grande y representativa y cuando existen razonespara creer que [a desviación de la normalidad resulta de defectos en b prueba más quede las características de la muestra y otros factores que afecte~ la conducta co~iderada.También debe observarse que cuando la distribución original de puntuaciones crudasse aproxima a la normalidad, las calificaciones estándares derivadas linealmente y lascalificaciones estándares normalizadas resultan muy similares a p'esar de las diferen~cias entre los métodos empleados para derivarlas. Como es obvio. -el proceso de nor~malizar una distribución que de hecho es prácticamente normal prod~cirá poco oningún cambio. Siempre que sea factible suele ser más deseable obtener uha distribu~ción normal de puntuaciones crudas por el ajuste adecuado del nivel de dificultad c;lelos reactivos de la prueba más que por la normalización subsecuente de una distribu~dón marcadamente no normal. Con una distribución más o menos normal de pun~tuadones crudas, las calificaciones estándares linealmente derivadas cumplirán elmismo propósito que las calificaciones estándares normalizadas.

El Cl de desviación. El el (cociente de inteligencia) se introdujo en los primerostests de intelig~ncia en un esfuerzo por convenir las calificaciones de EM en un indica~dor uniforme de la posición relativa del individuo. El Cl era simplemente la razón de laedad mental y la edad cronológica multiplicada por 100 para eliminar los decimales(CI = 100 X EMjEC). Por supuesto, si la EM de una niña es igual a su EC su CI seríaexactament~ igual a 100.Un Cl de 100 representa entonces la ejecución normal o pro~medio, en tanto que uno por debajo indica llretardo" y otro por encima "aceleración".

Sin embargo, la aparente simplicidad l6gica del el tradicional pronto decepcionó.Un problema técnico imponante es que, a menos que la DE de la distribución de CI per~rnanezca aproximadamente constante con la edad, los el correspondientes a diferentesniveles de edad no resultan comparables; por ejemplo, un CI de 115 a los 10 años puedeindicar el mi,mo grndo de superioridad que uno de IZS a los IZ, porque ambos puedencaer a una DE de la media de su re:~jpectivadistribución de edad. En la práctica, ha resul~rado muy difícil establecer pruebas que satisfagan los requisitos psicométricos para hacereomparabl~ a los CI en todo el rango de edad. Es principalmente por eso que la razón deCI ha sido reemplazado por el llamado CI de desviación, que es otra variante de las cali.ficaciones estándares. El el de desviación es una calificación estándar con una media de100 y una DE similar a la utilizada en la distribución de CI del Stanford.Binet. Aunquela DE de lirazón de CI del Stanford.Binet (utilizada por última ve, en la edición de1937) no permanece exactamente constante en [Odas las edades, fluctúa alrededorde una media ligeramente ma}'or a 16, de ahr que si se elige una DE de 16 al informarlas calificaciones estándares de una prueba de desarrollo reciente, las puntuaciones pue.den ser interpretadas de la mi,ma manera que la ra=ón de CI derStaNord.Binet. Comoel CI dd Stanford.Binet ha estado en uso durante mucho [iempo, examinadores y c1íni.cos s~ ron acosrumbr.Jdo a interpretar y clasificar las ejecuciones en dicha prueba en tér~minos de los niveles de el. H:ln aprendido lo que pueden esperar de individuos conCl de 40, 70, 90, UO, etc., por lo que hay ciertas ventajas prácticas en el uso de unaescala que corresponda a las conocidas dIstribuciones de el dd Stanford.Binet, Dichacorrespondencia de unidades de calificación se consigue en la selección de las cifrasde la media ¥ lJ DE que concuerden con los dt: la distribución de St3nford.Biner.

>

Normas y signijicudo d~ lu:;puntuaciones de los tests 6S

Debe agregarse que el uso del término "el" para designar a esas califi.ca6Qnes-~s!tándares puede resultar engañosa. Estos Cl no se ,?btienen a partir de los mismos m'é.[Odos que se emplean para encontrar las razones el tf3d\.donales; no :::un razones deedades mentales y edades cronológicas. La justificación para su uso estriba en la fami~Haridad general del término "el" y en el hecho de que estas cali&caciones pueden ¡n~terpretarse como el en tanto que su DE sea aproximadamente igual a la de los Cl yaconocidos. Entre las primeras pruebas en expresar las calificaciones en términos de Clde desviación están las Escalas de Inteligencia de Wechsler, cuya media es de 100 y laDEes igual a 15. El CI de desviación también se emplea en varias pruebas colectivasde inteligencia y en la tercera revisión del Stanford~B¡net (1960).

Con el uso creciente del Cl de desviación se hace importante recordar que los CI dedesviación de diferentes pruebas sólo son comparables si emplean valores iguales o muysimilares para la DE, que además tienen que aparecer siempre en el manual y el usuariode la prueba debe considerarlas con atención. Si el autor elige valores difetentes para laDE al elaborar la escala del CI de desviación, el significado de cualquier CI en tal prue.ba será muy diferente del que tenga en otras; Esas discrepancias se ilustran en la tabla "3.5,que muestra el porcentaje de casos que obtendrían diferentes niveles de el en dis..tribuciones normales con DE que varían enrre 12 y 18, valores que por cierto han sidorealmente utilizados en las escalas el de pruebas_publicadas; por ejemplo, la tabla 3.5muestra que un Cl de 70 corta e13.1 por ciento inferior cuando la DE es igual a 16 (co~mo el Stanford.Binet), pero que puede separar apenas el 0.7 por ciento (DE = 12) o has.ta el 5.1 (DE = lB). Por lo común, se ha empleado el CI de 70 como punto de eort<;.paraidentificar el retardo mental clrnicamente significativo, Por supuesto, las mismas discre~pancias se aplican a los Cl de 130 y superiores, que pueden usarse al seleccionar a niñospara progrnmas especiales para sobredotados. Dependiendo de la prueba elegida, el CIentre 90 y 110, descrito como el normal, puede incluir tan poco como el 42 o tamo

Porcentaje de casos de cada intervalo de CIen las distribucionesnonuales con media'del00 y diferentes desviacionesestándares

Intc:rvalo elPorcent:J.je de frecuenci:u

DE= 12 DE= 14 DE=16 DE= 18

130 V por' c:ncilTlJ l. .. 0.7 ,,', . " 1.6 .,.3.1 ,.. . .•. 5.1.. . ' ,120-129 . 43 63 7,5 8.5 .110-ll9 15.2 16,0 i5,8 15.4100-109

i~:~¡596 it!l522 ¡i~¡4i.2 n,g¡42,090- 99 .-80- 89 . 15.2: .' 16,0, 15,8., .. 15.4 . ,

70- 19.

43 63 7.5 8.5. '

D.:b,lo de 70 0.7 1.6 3,1 5,1Tocal .. 100,0

. . 100.0 100,0 100.0

(Corte1u de Th, PI)'chok'¡:IUI Clrporxion.)

-:-~'-"

F t 9 u r a 3. 6. Relaciones entre diferentes calificaciones en una distribución normal.

.-;

2.14%

70'0"

13.59% 134.13% 134.13% 113.59%

N~'rmQSy significado de las puntuadones de [os tests

i.~.

"

f- : ';

M

:< g..5~

":'.~' '..! •.• : •• ~:.~ •.

... . el,'.' E:~-. '.,~

.!.," .;"

:!:.~-.4<r. ",::.,:r30": -2(] ...:> ,:,"1(]Media.de i~s.+1(] . :.. ~+20' .; +30" .: +4cr:

::'; ;.,: .:: ~ ••.•:~ ' .•. ~.<.••J ;l,~!'"!•. ' ..•.•, ..• ~-;;: /i::aJifi~ciones de !a'prueb'a; ...-:-~~~:'h.:iwd~!:.i' .....'; .' ',;:;'Sf1'0' 't<:':'20'::: :-.30:'. " 40 ; .'. 50. '. t:.....;',.'/l".\ ..tJ\._; .• :: ;"1" .f 1"'" 1, 1' I ' 1 1 '1 "1

mayor información. Las posiciones de esos dos estudiantes pedrCa invertirse al carbi::u las pruebas que cada uno presentó en su respectiva escuela.

Del mismo modo, la posición relativa de un individuo en diferentes funciones pI.;de ser muy mal representada. por la falta de comparabilidad de las normas de una pn:baoSupongJffiOS que a una estudiante se le aplica una prueba de comprensión verbaun test de aptitud espacial para determinar su ubicación relativa en ambos campos.la prueba de habilidad verbal se estandarizó con una muestra aleatoria de estudianlde secundaria mientras que la prueba espacial se estandarizó ~n un grupo selectoasistentes a curSOspara elección de carrera, el examinador ~rfa llegar a b conc:sión errónea de que la capacidad verbal de la chica es mucho mayor qu~ la espaclcuando podrCaser el caso contrario. .

••• .0

,:'., ,;:; .~.. - . . . ..) ::;;~::

. ', ','.(.'.CI tlera, t "'/' ..' l' ,o", '1", '.' 1 .: 1 I . ,. ':'1 1 .;. :'i '1 "'.J!.1d~~r.~:;.<..j:'~f~:;'.:'-:70.. "-' 85 ;'100 .._:}~5::':.130" .~.~~:;.,:~.::..r.~:,.:. ',: .. '- 1 ... : :'4% : 171111211¡17'kI201\ 117%112"17" 1 4%

..~~'<:i,b;~~:i:';ii,'.~:!,\\:/:.~';~'~:"~I:;4::~I.:',~:1.61.:,':17",I. BI .:"',' 9 ' •.... :.:~.:~:.••• -•..•~ld:" ••.,.,.J.~_.I:~."\lJ•.....•.1 .,.:.1:5 '1020'30 405060 70 80.90 95 '991.. ,.~ •.:-~ ••. :,.';¡.::.: ..•.. .,.-: :..~,',:r,,'i.;~:...'.:: ..... >. :.~ ;'.': .' ' •••• ;,¡

.' .' ': :: ••• :. p'~ ' •• :.-.(:: , •• :# .~:,<•..

•

Interrelaciones de las calificaciones int~agrupo. En esta etapa de la revisión delas calificaciones derivadas, el lector puede haber advertido la similitud entre las distin#ras calificaciones. Los percemiles han ido adquiriendo gradu~lmente al menos un pareci#do gráfico con las calificaciones estándares normalizadas. Si la distribución original de laspun'tuaciones no procesadas se aproxima a la curva normal resulta difícil distinguir alas calificaciones estándares lineales de las calificaciones estándares normalizadas. Porúlti~o, las calificaciones estándares se han convertido en CI y viceversa ..En relacióncon ese último punto, un nuevo examen del significado original del CI en tests como elStanford#~inet demostrará que es posible interpretarlo como calificaciones estándares.Si sabemos que la distribución de los CI del Stanford.Binet tiene una media de 100 yuna"DE aproximadamente igual a 16, podernos concluir que un el de 116 cae a unadis#tari~í? de una DE por encima de la media y representa una calificación estándar de+1.00. De modo similar, un Cl de 132 corresponde a una calificación estándar de +2.00,un el de 76 a una calificación estándar de -150, etc. Más aún, una razón de Cl delStan(ord.Binet igual a 116 corresponde a un percentil de aproximadamente 84 porqueen una curva norrnal84 por ciento de los casos cae por debajo de +1.00 DE (figura 3.4).

La figura 3.6 resume las relaciones en una distribución normal entre las calificacio#nes que hemos estudiado hasta ahora. Entre ellas se incluyen las calificaciones z, lascalificaciones del Examen de Admisión a la Universidad (College Enrrance Examina.tion Board, CEEB), el Cl de desviación de Wechsler (DE = 15), calificaciones T, esta.ninaS y percemiles. Los el de cualquier prueba han de coincidir con la escala dada delel de desviación siempre que se distribuyan normalmente y tengan una DE igual a 15.Cualquier OtrOel normalmente distribuido puede agregarse a la tabla si conocernos suDE; por ejemplo, si la DE es de 20, entonces un Cl de 120 corresponde a + 1 DE, unCl de 80 a -1 DE, etcéte",.

En conclusión, la forma exacta en que se informan los resultados se determina sobre[Odopor la conveniencia, familiaridad o facilidad para establecer las normas. Las eal¡fi#caciones estándares de cualquier forma (incluyendo el Cl de desviación) han llegado areempta:ar a otras calificaciones por las ventajas que ofrecen en relación con la elabo#ración d~ la prueba y el tratamiento estad£Sticode [os datos¡ no obstante, la mayor par#te de las calificaciones derivadas inrragrupo son en esencia similares si se transformancon cuidado y se interpretan adecuadamente. Cuando se satisfacen ciertas condicionesestadísticas, todas pueden ser traducidas con facilidad a cualquiera de las otras.

RELATIVIDAD DE LAS NORMASCompJ.r3cion~s entre prueba':L El el, o cualquier otra calificación, debe acom#pañ.1r1asiempre el nombre dd cest dd que se obtuvo. Los resultados de las pruebas no .pueden incerpremrse en absrrac[Q, tienen que ser referidos a pruebas particulares. Silos registros ~o1ares muestran que P~dro Gómez obtuvo un CI de 94 y Teresa Olivoun CI de 110, est:::lScalific:::lcionesno pued~n aceptarse porque aparecen sin conrar con

como el 59.6 por ciento de la población. Para estar seguros, los editores de las pruebas se.esfuerzan por adoptar de manera uniforme una DE de 16 tanto en las nuevas pruebas ca-rno en las nuevas ediciones de las anteriores; sin embargo, las variaciones aún son sufi#dentes como para hacer que la supervisión de la DE resulte imperativa.

66 Prindpios técnicos y metodológicos

,.

-: ..

c:---.

68 Pn"ndpios técnicos y metodológicos

Otro ejemplo tiene que ver con las comparaciones longirudinales de la ejecución deun único individuo en una prueba a lo largo del tiempo. Si el registro acumulativode un niño muestl3 un el de 118, 115 y 101 en cuarto, quinto y sexto grados, la prime-ra pregunta que debe hacerse antes de interpretar los datos es: ¡¡¿Qué test se aplicó alniño en cada ocasión?" La aparente disminuci6n puede ser un simple reflejo de las di~ferencias entre los instrumentos, en cuyo caso el niño habría obtenido las mismas ca~lificaciones aunque se le hubieran aplicado con una semana de diferencia.

Hay tres razones principales para explicar las variaciones sistemáticas entre las cali-ficaciones obtenidas por los mismos individu9S en pruebas distintas. Primero, a pesarde la.similitud en el nombre, el contenido de las pruebas puede diferir, como sucede conmuchos de los llamados tests de inteligencia. Aunque lleven el mismo nombre, una delas pruebas puede abarcar únicamente contenido verbal, otra ante todo aptitudes espa~_ciales y la tercera puede cubrir contenido verbal, numérico y espacial en proporcionesiguales. SegUndo, las unidades de la escala pueden no ser comparables. Como ya expli~camos, si en una prueba el CI tiene una DE de 12 y en otra de 18, entonces es más pro~bable que un individuo que en la primera prueba obruvo un C[ de 112 en la segundareciba uno £le 118. Terceto, puede haber diferencias en la composición de [as muestrasde e5tandari~"a.ci6nempleadas para establecer las normas de las diferentes pruebas. Esobvio que p'arecerá que los mismos individuos tuvieron un mejor rendimiento al com~par.lr1os con un grupo menos capaz, que cuando se hace con uno de mayor capacidad.

La falta de eomparabilidad del contenido de la prueba o de las unidades de la esca-la puede ser detectado al remitirse a la propia prueba o a su manual. Sin embargo, esmás probable que se pasen por alto las diferencias en las respectivas muestras normati~

. vas, diferencias que pueden ser la explicación de muchas otras discrepancias en los re~sultados que no pueden eptenderse de otra manera.

La muestra normativa. Independientemente de como se exprese, cualquier nor-ma se restringe a la poblaci6n normativa particular de la que se tomó la muestra. Elusuario no debe perder de vista la forma en que se establecen las normas, pues no son,de manera alguna, absolutas, universales o permanentes, sino que simplemente repre~sentan la ejecuci6n en la prueba de las personas que formaron parte de.la muestra deestandarizaci6n. Al elegir dicha muestra, suelen hacerse esfuerzos por obtener una quesea represen.tativa de la población a la que va dirigida la prueba.

En la terminologra estadística se distingue .entre muestra y poblaci6n:La primera se re~fiere al grupo de individuos realmente examinado, mientras que la población designa ¡Ilgrupo mayor, pero de similar constituci6n, de donde se extrajo la muestra; por ejemplo,si desea establecer las normas de ejecución en una prueba para la población. de niños va-rones de 10 años que asisten a escuelas públicas urbanas, puede aplicar el instrumento auro muestra cuidadosamente elegida de 500 muchachos de 10 años que asisten a escue-las públicas en varias ciudades del pars. Hay que verificar la muestra en lo que atañe a ladl.mibución geográfica, el nivel socioecon6mico, la composici6n étnica y otras caracte-rísticas r<=rtinentes para asegurar que representa de verdad a Lapoblaci6n definida.

En el desarrollo y la aplicación de las normas debe dedical3e mucha arención a lamuestr3 de est"mdarizaci6n. Es evidente que la muestra en la que se basan las normasdebe ser lo suficientemente grandt: como para proporcionar valores e.stable.s, lo que

Normos y Slgniftcado de los puntuociones de los tests ,'\

quiere decir que no se deben obtener normas muy diferentes al aplicar la~~~.~cualquier otra muestra cuidadosamente elegida de la misma población. Las normascon un error de muestreo grande tendrán desde luego poco valor en la interpreraéiónde los resultados de la prueba.

De igual importancia es el requisito de que la muestra sea representativa de la po~blación considerada, por lo que es necesario investigar con cuidado factores selectivossutiles que pudieran haber disminuido la representatividad de la muestra. Algunos deestGS factores se encuentran en las muestras institucionales que, debido a su tamañorelativamente grande y a su fácil acceso para propósitos de examinación, resultan uncampo tentador para la acumulación de datos normativos. De cualquier forma, es ne~cesado analizar con cuidado las limitaciones especiales de las muestras; por ejemplo,'al examinar a estudiantes se observará que conforme se avanza en los grados escolareshay una selección superior de casos debido a la deserción progresiva de los esrudiantesmenos aptos, eliminación que no afecta de, igual manera a los diferentes subgrupos.Asr, la tasa de, eliminación selectiva en la escuela es mayor para los hombres que paralas mujeres, y es mayor en los niveles socioecon6micos bajos que en los altos.

Factores selectivos similares operan en' otras muestras institucionales, como es elcaso de los prisioneros, los pacientes de hospitales mentales o las personas con retardomental que viven en internados. Debido a los muchos factores especiales que determi~na [a propia internación, esos grupos no son representativos de la población entera delos infractores, los trastornados o los que padecen retardo; por ejemplo, es más proba~ble que se interne a los individuos retardados que sufren discapacidades físicas que aquienes son aptos. De modo similar, la proporción relativa de personas con retardoprofundo será mayor en las muestras tomadas en instituciones de asistencia que en, elconjunto de la población.

Relacionada con la cuestión de la representatividad de la muestra, está la necesidadde definir la poblaci6n específica a la que pueden generalizarse las normas. Como es evi~deme, una forma de asegurar que una muestra es representativa consiste en restringir lapoblación para que se ajuste a las especificaciones de la muestra disponiblej por ejemplo,si la población se define para incluir únicamente. a escolares de 14 años en lugar de atodos los niños"¿e 14 años; entonces una muestra escolar seda representativa. Por su~puesto, lo ideal es que la población deseada se defina de antemano en función de losobjetivos de la prueba, para formar luego una muestra adecuada. No obstante; los o~~táculos prácticos para obtener participantes puede hacer que esta meta resulte inalcan~zable, En dicho caso, es mucho mejor redefinir la población de manera más reducida queseñalar nonnas sobre una población ideal que no está adecuadamente representada en lamuestra de estandarización. En la práctica real, son muy pocas laspruebas que se estan-darizan sobre poblaciones tan amplias como suele suponerse, y ¡ninguna prueba ofrecenonnas pa~ la especie humana! Además, es dudoso que muchas pruebas brinden nor-mas verdaderamente adecuadas para poblaciones tan amplias como "los europeos adul-tos", "los niños mexicanos de 10 años", etc. En consecuencia, las muestras obtenidas pordiferentes autores de prut;bas pueden no ser representarivas de las poblaciones alegadas ypresentar diversos sesgos, de ahr que las normas resultantes no sean compambles.

Al interpretar los resultados de la prueba, el usuario debe tomar en considemci6nlas influencias específicas que pueden haber actuado sobre la muestra norm3tíva utili.

",""O', ~ '::,?~'':;-';'':-;~t'~,£g~;:'/i:;~~,,:~;¡,::',2::¿.~0:~,\::::'~~;:~'''''-~",:,.,"'.;;._s~~~'~"';;.S'I'>"":""'r.:::~..:.-:."--~-,-~-.-..~

'j'

-

Normas y significado de las puntuadones de los tests 71

Grupú fijo dt: referenda. Aunque la forma en que se calcula b mayor parce,,-!t:las calincaciones derivadas permite una interpretación normativa inmediJ,ta de b eje.cución en una prueba, hay algunas' excepciones notables. Una escala no normativ:lurili!a un grupo njo de referenci3 para asegurar la comparabilidad "1continuiLL.ul de b:calincaciones sin brindar una evalu3ción normativa dd desempeño. Con dicha eSC:l'la, la interpretación normativa riene que referirse 3 normaS obren idaS de manera indi:pendiente de una población adecuada. Con este propósito suelen emplearse norm:)

locales u arras normas espedncas.

y se reneran a una sola muestra normativa. Emeero, debe observarse que existen-dife~renres grados y clases de comparabilidad de las calincaciones. La comparabi\idad enuna situación particular depende"de la similitud de las pruebas en cuamo al comeni-do, a propiedades psicomécric.as como la connabilidad y el grado de dincultad y a losprocedimientos estadísticos utilizados para lograr la comparabilida9 (Angoff, 1984;Angoff YCoweil, 1986; P_W_Holland YRubin, 1982)_ Las pruebas no deben conside-rarse igualadas o equivalentes a menos que sean verdaderamente intercambiables. Noobstante, diferentes claSes y grados de comparabilidad pueden facilitar la interprera-ción de los resultados siempre que las puntuaciones comparables se usen de modoapropiado Ycon pleno conocimiento de la forma en que Se der~varon.

Normas específicas. Otro acercamiento a la no equivalencia de las normas exis-tentes --que quizá sea el más realista para la mayor parte de los instrumentos- consis-te en estandarizarlas sobre poblaciones dennidas de manera más restringida y elegidaspara adaptarse a los propósiros espedncos de cada prueba. En esos casos. los límites ,dela población normativa debe informarse claram~nte con las :no~as. Así, puede decirse-

. que las normas se aplican a 1I10sempleados administtativos de las grandes -empresas" oa "los estudiantes de primer año de ingeniería". Para muchos propósitos de examina-ción resulta deseable contar con normas muy espe,cíncas. Aunque pueda disponerse denormas representativas de una población más amplia, siempre que subgrupos identi/\~cables obtengan punruaciones apreciablemente diferentes en una prueba parricular re-sulta útil informar por separado las nonna.s del suhgrnpo. Los subgrupos pueden,ormarsede acuerdo con la ~dad, el grado escolar, el programa de estudios, el sexo, la región geo.gránca. el ambiente urbano o rural, el nivel socioeconómico Ymuchas otras variables.El uso que vaya a hacerse de la prueba determina la diferenciación que resulte más per-tinente, as( como la conveniencia de contar con normas generales o específicas.

Debemos mencionar también el caso de las nonnas locales, que con frecuencia sonestablecidas por los propios usuarios en ambientes particulares. Los grupos empleadospara derivar dichas normas se definen de manera aún más limitada que los subgruposconsiderados antes. Así, un empleador puede acumular normas de los solicitantes pa-ra un determinado trabajo en una empresa en particular,' o'la oficina de admisión deuna universidad puede evaluar el rendimiento d~ los alumnos en términos de su pro-pia distribución de calificaciones. Esas normas locales son más apropiadas que las nor-mas nacionales para muchos .propósitos de examinación, como la predicción dddesempeño en el empleo o académico. la comparación del aprovechamiento rdativode un niño en diferentes materias o bien la medición del progreso de un individuo a 10

iargo del tiempo-

rada al estandarizarla .'ciones sociales prevai: ~ue incluyen factores selectivos especiales así como las condi~mativos (Anastasi, 198~b)tes en el momento en que fu~ton obtenidos los datos nor-

Normas fijas nacional . " 'consiste en usar una p es. Una solución a la falta de comparabilidad de las normastados de distintaS Pf\lebe.ba anda para desarrollar tablas de equivalencia para los resul~a cada punruaci6n de 1 as (para mostrar qué puntuación de la prueba A es equivalente

., .. que las puntuaciones sa Prueba B)_ Esto puede lograrse con el método equipercentil, en elun determinado grupo: cons~deran equiva'lentes cu~ndo tienen percentiles iguales ena un Cl de.IIS en la p' POhejemplo, si en el mismo grupo el petcentilBO correspondede la p~eba A se cons~: a A y a un el de 120 en la prueba B, entonces el CI de liSto ha sldo'adoptado de ra eqUivalente al Cl de 120 de la prueba B. Este procedlm¡en-bias de equivalencias p manera restringida por algunos editores en la preparación de ta-

Ocasionalmente Se hta algunos de sus instrumentOS (por ejemplo. Lennon, 1966a).ba contra una soJa Pru bcen propuestas más ambiciosas para calibrar cada nueva prue~representativa a nivel e a .anda que haya sido administrada a una m,,!-estra normativase encuentra en el!:ot ~aclOnal (Lennon, 1966b)- Un ejemplo de este procedimientovicio de Prueba> Ed

ucu la de Prueba Ancla (Anchor Test Study) conducido por el Ser-

na de Educación de l~t'vas (Educa."onal Testing Service) bajo los auspicios de la Olici-esfuerzo sistemático p s Estados Unidos (Jaeger, 1973). Dicho estudio representa unsentativas de la pobl

a~r proporcionar normas comparables y verdaderamente repre~

1Clónd d h-te e~ ect~ra. aplicadas esta. ~unidense para siete de las pruebas e.aprovec a~le~~

experimental blt~n COn a mnas de educación elemental. GraCias a un dIsenoescolares de cuarto q ~rolado. en SO estados d~ ese pars se eXaminó a más de 300 000

• Ulntpruebas de lectura de o y sexro grado_ La prueba ancla estaba formada por las sub-to Metr0P9litana (Me~~mp:ensión y de vocabulario de la Prueba de Aptovechamien-normas en una fase del Po[¡tan Achievement Tese), pa~ ~a cual se esta~leciero~~uevass:ntó las SU,bpruebas de r:oyecto. En la fase de calibraCIón ~e1 estudIO cada nmo pre-nas, y cada una se ap ctura.de comprensión y vocabulano de dos de las Slere bate-formas ~a;¡¡lelas de la:~eó a la vez con todas la,demás.' Algunos grupos recibieronpareamlentos fueron d os subptuebas de la misma barerra; en otrOS grupos todos losadministraCión. A Par ~phcados en una secuencia inversa para controlar el orden de latodo equiptrcentil Pa ttr de l~s análisis estadísticos de todos esoS datOS se utilizó el mé ..pruebas. También se ;a preparar rabias de equivalencia de puntuaciones para las sietelos sistemas escolares reparó un manual de interpretación de los resultados para uSO de

Los datos de la fas~ ~rros i~reresados (Loret, Seder, Bianchini YVale, 1974).pués pora formar una 1e cahbración del Estudio de prueba Ancla se unll!aron des-Referencia (Narional R a escala de' punruación, conocida como la Escala Nacional depermite la transformo ef~ence Scale Ren" y Bashaw, 1977)- La rabla de conversión

. 'IC16 d ' .en cualqUIera d~ los n' n e una puntuación de.cualquier forma de las sIete pruebascab uniforme y conti lveles escolares en una calincación de rres lugares sobre una es-y los .métodos de esca~~a- .!:ota escala fue elaborada empleando el análisis de reactivosreactivOS más sencillos dm,ento del modelo Rasch, uno de los modelos de análiSIS de

Para muchos propó . el que veremos más aqu[ y en el cap(tulo 7-p::uables de diferentes Sltos de examinación resulta úril conúu con pUf;ltUaciones como

Pru.ebas que se expresen 'sobre una escala uniforme de medición

70 Pn"ncip.iostecnicos y metodológicos/----~

Normasy sigf1ijicado de las puntuaciones de los tests~

72 Pn'nópios té!nicosy metodológicos

Uno de los primeros ejemplos de escalamiento en términos de un grupo fijo de refe-rencia se encuerura en la escala de calificación del Test de Aptitud Académica de lajunta Univeroitam' (Ccl1ege Board Scho!astic Aptitude Tese, Dol'lon, 1984). Entre 1926(cumdo se aplicó la prueba por primera vez) y 1941, las calificaciones del SAT se expre-saban sobre una escala normativa en términos de la media y la DE de los candidatos quepresentaban la prueba en cada aplicación. Dado el incremento en el número y la varie-dad de las univers3iades participantes en la Junta Universitaria y los cambios en la-com-po.sici6n de la ¡:clJlación de aspirantes, se concluyó que era necesario mantener la

> continuidad de la escala. De otra manera, el resultado de un individuo dependería de lascaracterísticas del grupo examinado en un año particular. Un moti ••..o a(m más urgentepara mantener lacontiruidad de la escala proviene de la observación de que, debido a la"operación diferencial de factores selectivos, los estudiantes que presentaban el SAT encierta época del a.i.oobtentan un resultado inferior al obtenido por quienes lo presenta-ban en otros mamemos. Por ende, después de 1941 todas las calificaciones del SAT seexpresaron en t~nninos de la media y la DE de los aproxirn?-damente 11' 000 candidatosque presentarº~ la prueba en,1941. Esos aspirantes constituyeron el grupo fijo de re#. ferencia empleádo en el escalamiento de las formas subsecuentes del instrumento.Así, una puntuaci6n de 500 en cualquiet forma del SAT corresponde a la m~dia de lamuestra de 1941,una calificación de 600 cae a una DE por encima de la media,"etcétera.

Para permitir la transformación de puntuacioneS crudas de cualquier forma del SAT aesas calificaciones de un grupo fijo de referencia en cada forma se incluyó una pequeñaprueba ancla (o amjunto de reactivos comunes). En consecuencia, cada nueva forma seligaba a una o dos pruebas anteriores, las que a su vez estaban ligadas a otras formas poruoJ. cadena de rea:rivos que se extendran hasta la forma de 1941. Estas calificaciones delS.-\.Tno normativas podían entonces interpretarse al compararlas con cualquier distri.tución apropi:::ldadepuntuaciones, como las de una universidad panicular, una clase deuniversidJd, una regi6n, etc. Esas normas espedficas son más útiles al tomar decisionesde admisi6n a b univeroidad que las normas anuales basodas en toda la poblaci6n decandidatos, Más aún, cualquier cambio en la población de aspirantes puede ser detecta-da con una únicaesca.la fija de calificaciones. Más recientemente, la escala SAT ha vuel._ro a centrarse ep el desempeño de más de un millón de estudiantes estadounidenses quese gr.lduaron de secundaria en 1990 y presentaron el test en su penúltimo o último añoescolar. Los tes"hados para los estudiantes que ptesentaron el SAT después del ptimetOde abril de 199~ se informaron de acuerdo con la eScala "reciente" derivada del grupo dereferencia de 199:'. Se han elaborado materiales auxiliares e interpretativos para ayudara (os usuarios a convertir las calificaciones individuales y agregadas de la escala anteriory viceversa (véase el capfrulo 17), lo que permite una interpretación completa y diversi-ficad3 d~ la ej~cución individual para propósitos espedt1cos de examinación.6

. Las escalas formad3s a pílrrir de un grupo fiÜ)de referencia son análogas en un as.~ctO a las escalas empleadas en la medici6~ física. A este re'pecto, Angoff ( 1962, pp.32-33) comentaba:

, Su ~Mb rCClblóI~~o ti nombre de Tae de EV31uJción EJ.cobt (&Mlillric AJ-UJlm.:nt Tw. SATl pJr.1r:.ut{:Jf el c3mb,;) de 11Of~entJc;¿n tuCl3 U rucul'Jle::l de lu ohfiQciones de lu prud::3j que sutji6 ¡ firules cltl11~!!J:O:( ••.~.uc ~pec.~lmente el oplrulo 12 pJn uru revblón ¿ti e{oXto de tu direrencw de wexpcriencwf'::"ICrub ~Cre b. cJecuciJn en b prueb:a).t Re,,;on.xem.::s u 1~ de Wlync DtnJ.t1 de l1 Junu Univenil,lnJ P-,l~ lt oblenc:lón de b 1~0fTn3dón.

,'~73 , I

~C\/Difícilmenre exisre una pe~ona que conozca la definición original precisa de fa IU,I-~-"'gitud del pie u$3do en la medición de est<lntra o dispncia, o que sepa quién fue el rey .cuyo pie se Eicordóoriginalmente que fuera la nom~a; por otco lado, no hay ni.~dieagur que no sepa. cómo evaluar longitudes y distancias en términos de esta unidad.Nuestra ignorancia del significado original de pie de manera alguna disminuye lautilidad que tiene para nosotros. Su utilidad procede del hecho de que se manÚeneconstante y nos permire familiarizamos con él. No es necesario decir que las:mismasconsideraciones se aplican precisamente a otras unidades de medición -la pulgada.la rrtilla, los grados Fahrenhcit-. Del mismo modo, en el campo de la medición psi-cológica es razonable decir que la definición original de la escala no debe ser de im#ponancia. Lo que es importante es mantener una escala constante -la cual, en elcaso de un programa de examinación de formas múltiples, se consigue mediante unarigurosa igualación eorre formas- y la disposición de los datos normativos comp1e.mentarios para ayudar en la interpretación y la toma de decisiones. dams que debenrevisarse de vez en cuando según lo justifiq"uen las circunstancias.

Teoda de las respuestas a los iternes. Desde los setenta se observa un resurgi#miento del interés en una clase de procedimientos de gran complejidad matemáticapara escalar la dificultad de los reactivos o iremes de una prueba (Hambleton, 1989;Hambleton. Swaminathan y Rogers, 1991; jaeger, 1977). Debido a la gran cantidadde cálculos que requieren, sólo fueron viables cuando aumentó la disponibilidad decomputadoras de alta velocidad. Aunque su complejidad y.sus procedimientos mate~máticos difieren'; estas aproximaciones se agruparon or!8!nalmente con: el dtulo ge;eralde modelos de rasgos larenees.La medida básica que utilizan es la ptObabilidad de que unsujeto con determinada habilidad (el llamado rasgo latente) acierte en un reactivo dedificultad conocida; sin embargo, ello no implica que existan rasgos latentes o habili-dades subyacentes en un sentido frsico o fisiológico, ni tampoco que originen unaconducta. Los rasgos latentes son cOOStruCtOSestadísticos derivados matemáticamen-te de relaciones empíricas observadas entre las respuestas a la prueba. Una estimacióninicial del rasgo latente de un examinado es la calificación .total que obtiene en laprueba, Para evitar la falsa impresión creada por el término Urasgo latente", algunos delos principales exponentes de estos modelos lo han sustituido por el término más des.c,iprivo y preciso de "Teotra de Respuesta al Ítem" OTRI (Lord, 1980, D. J. Weiss yDavison, 1981). Esta designación ha alcaruado un uso general dentto de la psícologb.

En esencia, los modelos TRI se han usado para establecer una escala de: mediciónuniforme y ulibre de muestra" que pueda aplicarse a individuos y grupos de muy diver#"sos niveles de habilidad y que permira probar contenidos de distintos niveles de difi.cultad. Como en el caso del grupo fijo de referencia que explicamos en la secci6nanterior, los modelos TRI requieren de reactivos ancla o una prueba común comopuence entre las muestras examinad3s y las pruebas o conjuntos de reactivos; sin em-bingo, en lugar de USJrla media y DE de un grupo especrfico de referencia para definirel origen y tamaño de las unidades de la escala, los moddos TRI los establecen eo tér#minos de los d3tos qu~ representan una amplia gama de h3bilidad~s y dificulmdes delos reactivos, que puedw provenir d~ varias muestras. Por lo general, el origen se esra-blece cerca del cenuo de este [dogo. La unidad común de la escala se deriva matem:1-ticamente de los d3ros de los reacrivos, lo que tiene varbs ventajas teóricas y práccic3s

"-:;;\'P:~~'::;':~":"~h:';t\~\O~'.;~~-;c?'c'~_:;':o"".~l:i~~-;"!\-~<:::"",.~o:<'"",<.O.";',,-o_-:.,"_, •.," ••=:,";":.,\~,.~~",,.~ __, 0'-'-<0" =-- .. -, -O-. ~'?f pO 0'0_

74 Principios técnicos y metodológjcos"'~,

sobre los anteriores procedimientos de análisis de reactivos. Revisaremos después lametodología específica, en el capítulo 7, cuando tratemos las técnicas de análisis dereactivos. La TRI se ha ido incorporando en los programas qe exa"minación a gran es~cala; por ejemplo, desde 1982 el procedimiento se emplea para igualar las calificacio.nes cotales de las nuevas formas del SAT y expresarlas en una escala continuauniforme (Camara, Freeman y Everson, 1996; Donlon, 1984).

Aunque ha crecido la atención dirigida al problema general de igualaci6n de la prue~ba, que permite expresar los resultados de diferentes formas de la misma prueba en

:~una escala de' calificación uniforme, las dificultades técnicas de los diversos plantea~~:mientos explorados con este propósito escapaonal 'alcance de este libro, por lo que re~.Uerimo; alleF~or a P.W. Holland y Rubin (l98?) y a Perersen, Kolen y Hoover (1989)~~-para una re.v~ión completa y una evaluación crítica de dicha metodología.

.LAS COMPUTADORAS Y LA INTERPRETACIÓNDE" LAS CALIFICACIONES DE LAS PRUEBAS

., .:;'0'.

o~Desarrollos)écnicos. Las computadoras han tenido un impacto importante en cada._:..fase de b ex~"minación, d~sde la elaboración de la prueba hasta la aplicación, califi~..'caci6n, inrerpreraci6n y elaboraci6n de! reporre (F. B. Baker, 1989; Butcher, 1987;Gutkin yWise, 1991; Roid', 1986). Los usos evidentes de las computadoras -y los

. ; encontrados antes- representaron un incremento sin precedenOtesen la rapidez con" oque pueden realizarse los procesos de calificación y análisis de datos. El uso de laso computadoras en la aplicación automatizada de las pruebas convencionales tambiéno

.'puede considerarse en esta categoría, en la medida en que proporciona fonnas más sen~o::~cillas de aptiglción. Empero, mucho más significati~a es la contribución de las compu~~"ootadoras a la e~ploración de nuevos procedimientos y acercamientos a las pruebas psico~.... lógicas que h~brran sido imposibles sin la flexibilidad y capacidad de procesamienro de, : datos que proporcionan. Este efecto de las computadoras lo ilustra la adopción crecien~'0' te de los medoelosTRI para el escalamiento libre de muestra. Veremos otras innovacio~.' nes del uso d~.las computadoras al rev~ar 1", remas perrinentes a lo.largo del libro... Asr, examJnaremos algunas aplicaciones de las coomputadoras a la evaluación deldesempeño e1\ las pruebas (F. B, Baker, 1989; Gurkin y W~e, 1991; Roid y Gorsuch,1984). Al ni.ve! más simple, casi rodas las pruebas acruales, especialmente las d~eñada.spara aplicaci6n colectiva, ahora están adaptadas para su caUficaci6n computan,ada.Varias editoriales y organizaciones independientes de calificación de pruebas estánequipadas para brindar esos servicios a los usuarios. Ademásl también se observa unaumento en el aCceso a discos de computadora que los usuarios pueden emplear paracalificar las pruebas en su¡ propia.s computadoras (por ejemplo, lo; progran¡as ASSISTdesarrollados por el Servicio Emdouniden.se de Asesorfa). A un nivel mis complejo,para algunas prueb:ls se dispone de inurpreraciones computaritada.s de los resultados, enlas que el program:l asocia infonnes verbales preparados con ciertos patrones de res~puestJ. Este siscemJ se ha empleado en test de aptitud y de personalidad; por ejemplo.en el Inventario Multifásico de Personalidad de Minnesota (Minnesota Multiph<uieP<TlOnali'JIn",nrOT), MMPll. que estudiaremos en el capítulo 13, los usuario; puedenobcener junco con las puntuaciones numéricas impresiones del diagnóstico y el infor-me interpretacivo acerca de las tendencias de peMnalidad y b condición emocional

o:.' ....Normasy significada de los puntuaciones de los tests 75

del examinado. Los usuarios que tienen acceso a sus propias computadoras pueden ad.quirir programas que además de las calificacioné"s numéricas también proporcionaninformes interpretativos para ciertos tests, como las Escalas de Imeliget:tcia para niñosde Wechsler, Revisadas (WI5C-R) y para adulros (WAIS-R).

Los siseema.sinteractivos de cómpuw ilustran un nivel más complejo de in.rerpreta.ciónindividualiz.ada de las punruaciones de los tests. oEn éstos. el individuo está encontacto directo con la computadora por medio de estaciones de respuesta y emablade hecho un diálogo con la computadora (j, A. Harris, 1973; Holrzman, 1970; M. R.Katz, 1974; 'Super ee al., 1970). Esta técnica ha sido investigada en relación con laplaneaci6n educativa y profesional y en la toma de decisiones. En estas situaciones,los resultados suele~ incorporarse a la base de datos de la computadora junto con lainformación proporcionada por el esrudiante o el cliente. En esencia, la computadoracombina toda la informaci6n disponible sobre el individuo con los datos almacenadosacerca de los programas educativos y ocupacionales, y utiliza todos los hechos y rela~ciones pertinentes para responder a las preguntas del individuo yoayudarlo a tomaruna decisión. Un ejemplo de esos programas es el Sistema Interactivo de Guta"e In_::"ooformaci6n (Sysrem far Interactive Gu¡dance Infonnation, "5101", 1974-1975). El s~te- .ma, en uso por más de una d~cada en universidades, se ha actualizado y revisado paraayudar no s610 a los estudiantes y a los adultos a prepararse para ingresar o regresar ai"mercado de trabajo, o para sopesar ascensos o cambios de carrera (M. R. Karz, 1993.Norris, 5chott; 5hatkin y Bennett, 1986). '

Riesgos y directrices. Aunque es indudable que las computadoras han abie~~~elcamino a mejoras sin precedentes en todos los aspectos de las pruebas psicológicasl al~gunas de sus aplicaciones .pueden conducir a abusos e interpretaCiones erróneas de lascalificaciones de las pruebas (Butcher, 1985a; J. J. Kramer y Mirchell, 1985; Mata-ralZO, 1983, 1986a, 1986b). En un esfuerzo por prevenir esos riesgos se ha prestadoconsiderable atención al desarrollo de directrices para la examinaci6n basada encompuradoras. Los Estándares de Evaluaci6n (Testing Standard.s: AERA, APA, NC.ME, 1985) incluyen varios criterios vinculados con la evaluación basada en compu~tadoras. Se ha elaborado un conjunto más amplio y de callado de normas que se refierenen especial al usOde la computadora en los diversos aspectos de la examinación (véa.se, por ejemplo, Butcher, 1987, pp. 413-431). Véase Moreland (1985, 1992), parauna revisión cuidadosa del uso de computadoras en la evaluación, particularmente enrelaci6n con la interpretación computarizada de.los resultados. "

Dos de las preocupaciones principales respecto al uso de computadoras atañen a lacomparabilidad de los resuhados y a las interpretaciqnes narradas de los mismos. Cuan-do la misma prueba se aplica por medio de una computadora y de la manoera in;¡presatradicional es necesario investigar la comparabilidJd de los resultados (Maneo,Drue;ne, Raffeld, Check",s yMuhlstein, 1991). A menos que se demuestre que ambosmodos de aplicación producen formas completamente iguJladas de la prueba, el mis-mo conjunto de norma.s puede no ser aplicable a ambos; ademis, la confiabilidad y lavalide! del instrumento también pueden variar. Es especialmente impo~tante re\'isar!:l comp3I3bilidad de individuos o grupos d¡(erences cuya experiencia con el uso de lascomputadoras, sobre todo en la evaluación, puede diferir de manera notable.

El rápido crecimiento de los se:rvicios computJri:ados que proporcionJn informesinterpretacivos narrados de los 'resultados ha generado particular preocupación. I),)s

76 Prinapios técnicos y metodológicos

principios básicos fundamentan muchos de los criterios. Primero, debe proporcionarseinformación adecuada que permita al usuario evaluar la confiabilidad, la validez. yotras propiedades técnicas del sistema interpretativo empleado al preparar el progra~ma de cómputo. ¿Cómo se obtuvieron los informes interpretativos de los resultados?¿Cuál es la base teórica y de investigación del sistema? ¿Los análisis proceden deanálisis cuantitativos o del juicio clínico de expertos? Si se trata del último caso, debeproporcionarse la información relativa a las calificaciones de estos expertos.

El segundo principio indica que siempre que se empleen informes interpretativos delos resultados (sea con propósitos clínicos o de orientación o bien cuando se utilicen al[Ornar decisiones importantes sobre los individuos), ~s indispensable considerar otraSfuentes de datos disponibles sobre los examinados. Es por ello que s610 los profesiona~les calificados deben usar reportes de los resultados. Los reportes deben considerarsecomo un instrUmento auxiliar y no como un sustituto del especialista profesional.

INTERPRETACIÓN DE LOS TESTS REFERIDOS A DOMINIONaturale:~ y usos. Un acercamiento a las pruebas que gener6 gran actividad enlos setenta, en particular en el campo de la educación, se conoci6 al principio como"teses referidos a criterio". Propuesto por Glaser (1963), el término se ha empleadode manera vaga y su definición vada entre diversos autores. Más aún, es común el uso d.esinónimos. por ejemplo tests referidos a contenido, a un dominio o a un objetivo, aun-que en ocashmes tienen connotaciones ligeramente distintas. La designación inicialde "referencLl. a criterio" ha sido reemplazada gradualmente por términos con mayorpredsió~ de.5criptiva, por la cual en lo sucesivo emplearemos el término "tests refe.ri~dos a dominio o tests de dominio".

En genet31, las pruebas de este tipo utilizan su marco interpretativo como referen~da a un dominio específico de contenido más que a una población específica de perso~nas. A este respecto, la aproximación ha sido comparada con la examinadón usualreferid3 a n~rmas, que para interpretar la calificación del individuo la compara con losresultados d.~otros en la misma myestra¡ por ejemplo, en los tests referidos a un domi-

. nio la ejecución del examinado puede ser informada en términos de .las operacionesaritméticas~~ue ha dominado, el tamaño estimado de su vocabulario, el nivel de difi-culrad del «ma de lecrura que ha comprendido (desde revistas de ,tras cómicas hasrala literatura' clásica) o sus oportunidades de lograr un nivel determinado de ejecuciónsobre un criterio externo (educativo u ocupacional).

Hasta ahora, la examinación referida a dominio ha encontrado su principal aplica-ción en varias innovaciones educativas. Entre ellas destacan los sistemas educativosasistidos por computadoras, administrados por computadoras y otros sistemas educati-vos individualizados. En todos esos sistemas, la examinación e.stá muy integrada a lainstrucción y se aplica antes, durante y después de cada unidad para supervisar las ha-bilidJdes que son requisitos, di3gnosticar las posibles dificultades de aprendizaje yprescribir los procedimientos educativos subsecuentes (Nitko, 1989).

Des..:leouo ángulo, los tests referidos a dominio han sido utilizados en estudios derendimiento educativo, como la Evalu3ci6n Nacional del Progreso Educativo (NarionalAHwmenr of Edw:otioMl Progrw, E. G. Johruon, 1992; Messick, Bearon y Lord, 1983;F.B. Womer, 1970), y al hacer frente a las demandas de responsabilid,d educativa. To.

",Normas y significado de las puntuodones de los tests 77

..-.- -davía desde otrO puma de vista. otra muestra de los tests referidos a domini~':'--;L1.1str-aen los exámenes para el cumplimiento de las c04ndiciones mínimas requeridas, p'arejemplo para obtener una licencia de conducción o de piloto. Una aplicación relacio-nada es el examen de la pericia para el trabajo, que evalúa la maesrría de un pequeñonúmero de habilidades bien definidas, como en las ocupaciones milieares especializa-das (Maier y Hi"hfeld, 1978; Swezey y Pear!srein, 1975).

Por último, la familiaridad con los conceptos de los tests referidos a dominio puedecontribuir a la mejora de los exámenes tradicionales informales preparados por losmaestros para su uso en el aula. Lino y Gronlund (1995) ofrecen una guía detalladapar.a este propósito, as.í como un tratamiento sencillo y equilibrado de tales pruebas.Una reseña breve y excelente de las principales limitaciones de esa forma de examina-ción se encuentra en Ebel (1972); y Berk (1984a) proporciona una amplia revisión demuchos de los problemas técnicos de su elaboración y evaluación.

Significado del contenido. El rasgo distintivo principal de la examinadón referi~da a dominio (como quiera que se le defina y sea que se le designe con este término ocon alguno de sus sinónimos) es su interpretación del desempeño en la prueba en tér~minos del significado del contenido. Desde luego, el punto de atención está en lo quelos examinados pueden hacer.y lo que conocen, y no en cómo se comparan con otros.Al elaborar estos instrumentos, un requisito fundamental es contar con un dominiodefinido con claridad de los conocimientos o las habilidades que la prueba debe eva~luar. Para que los resultados tengan un significado que pueda comunicarse, el contenidodel dominio por muestrearse debe ser reconocido como importante. El dominio selec~cionado debe subdividirse luego en unidades pequeñas definidas en términos de eje~cución. En el contexto educativo, las unidades corresponden a los objetivos educativosdefinidos conductualmente, como "multiplicar números de tfes dígitos por otro de dosdígitos" o Ilidentificar las faltas ortográficas que consisten en escribir s en lugar de e". Enlos programas preparados para la instrucción individualizada, pueden prepararse cieo-tos de esos objetivos para una sola materia. Después de que se han formulado los objeti~vos educativos, se preparan los reactivos para muestrear cada uno, un procedimientodifícil y tardado; sin embargo, si no se cuenta con una especificación cuidadosa y con ..trolada del contenido, los. resultados de esta examinaci6n pueden degenerar en unamescolanza idiosincrásica e ininterpretable. Un compromiso práctico consiste en queun experto identifique y defina los principales conceptos, principios, metodologfas uobjetivos educativos; cada uno de los dOl)linios significativos definidos puede entoncesmuestrearse concienzudamente con los reactivos de prueba apropiados. Es indudableque el grado de especificidad con que se requiere evaluar los dominios de conductavatía según la naturaleza y propósito de la ptueba (Popham, 1984; Roid, 1984).

Cuando se aplica estrictamente, la examinadón referida a dominio se adapta me-jor al examen de habilidades básicas (como lectura y aritmética) a nivel elemental.En esas áreas los objetivos educativos suelen disponerse en orden jerárquico, y Ia"ad-quisición de las habilidades más element3le.s es un requisito para la Jd~uisición deotras de mayor nivel;? sin embargo, no es práctico -y quizá tampoco deseable- for-mubr objetivos muy específicos para los niveles anmados de conocimiento en mate-

71..!cJlmenre, e1t~ ¡:rueb;u lii'JW el mo.:!elo tim¡:leJ: de b (X3b de Guturon (v~ POph3ffi y Hu~á, (969),«lmo es el 05Q de bJ esc:¡[.u ordirub Je p¡;¡get q« t::ItudlJfemúll en el CJplrulu 9.

~~~~~~~t~.~;\;.;t~-=;,j~S;,&\'.'~.;;:¡.¡,,~'.,-..:.;.,:;~.;;O,:<'~~l~":'->O>',!'*£""'-"""'~""'"Ul-=.-~~ •..:..=.>.",~~-_.-.-.--a:;~:--._-------

78 Principios técnicos y metodológicosNormasy significado de Laspuntuaciones de los tests 79

- :~~':,

rias menos estructuradas. A estos niveles, es probable que tanto el contenido como lasecuencia de aprendizaje sean mucho más flexibles.

Por orro lado. al subrayar el significado del contenido',t:;'n la interpretación de los re~sultados, la examinación referida a dominio puede ejercer un efecto saludable sobre laaplicación general de pruebas, por ~jemplo para la interpretación de los resultados deun test de inteligencia. Describir la ejecución de un niño en un test de inteligencia enténnmos de las habilidades intelectuales específicas y del conocimiento que representapuede ayudar a contrarrestar las confusiones y los errores que han quedado vinculadosal CI tra~lcionali de todas formas, cuand9 se plantea en esos términos generales, laaproximadón referida a dominio equivale a interp~etar las calificaciones de las prue~bas a la l~:.de la 'validez demostrada de la prueba particular, más que en términos devagas enti~dades subyacentes. Por supuesto, dicha interpretaciór puede combinarsecon calificaciones referidas a normas.

Pruebas,:de. destreza. Otro rasgo que suele asociarse con la evaluación referida adominio. es'el procedimiento para examinar la destreza. En esencia, el procedimientoda una calmcación de todo o nada que indica si el individuo ha alcanzado o no el ni~vel establ~ido de habilidad. Cuando se examinan habilidades básicas, en gene",l seespera u~a destreza casi completa (por ejemplo, 80-85 por ciento de respuestas co~rrectas). También puede emplearse una distinción de tres niveles que incluye deSq-eza,no destrc:a y un intervalo intermedio dudoso o de "revisión",

En relación con la instrucción individualizada, algunos educadores han afirmadoque si s~ cuenta con tiempo suficieI1:tey métodos educativos apropiados, casi cualquie-ra puede lograr la completa destreza de los objetivos elegidos. Las diferencias indivi~duales se manifestarían en el tiempo requerido para el aprendizaje más que en elrendimiento fmal, como sucede en los exámenes tradicionales (Carroll, 1963, 1970¡Cooley'¡ Glaset, 1969; Gagné, 1965). De todo esto se dice que en las pruebas de des-treza las 4iferencias individuales son de poco o ningún interés. En consecuencia, seacostumbra elaborar los tests referidos a dominio de modo que,'luego de la capacita-ción apro'píada, minimicen las diferencias individuales en'la ejecución. La evaluaciónd~ la desrre:a se emplea regularmente en los programas de instrucción personalizada; ytambién és caracterrstica de los tests referidos a dominio para habilidades básicas, adc~cuadas para la instrucción elemental.

... En la elabotación de esas pruebas hay dos preguntas importantes: (l) ¿cuántos. reactivos deben usarse para la evaluación confiable de cada objetivo educativo cubier-to por la prueba!, y (2) ¡qué ptoporción de reactivos hay que responder correctamen.te para determinar en forma confiable la destreza? En buena parte de los primeros testsrderidos a dominio, decisiones de criterio daban las respuestas¡ no obstante, el progre-so sustancial alcanzado en el desarrollo de técnicas estadfsticas puede proporcionarrespuestas objetivas empíricas (&:tk, 1984a; R. L Fetguson y Novick, 1973: Hamble.ron, 1984a, 1989: Hambleton y Novick, 1973). Bas",rá con algunos ejemplos parailu)trár la naturaleza y el alcance de esos esfuenos.

8tas dos preguntas pueden plantearse en una sola hipótesis que se prueba en el mar-co de la teoría de la toma de decisiones y el de un análisis secuencial (Hambleton,1984a: WaIJ, 1947). En concretO, deseamos ptobar la hipótesis de que el exami""do haalcanudo el nivel requerido de destreza en el contenido del dominio u objetivo educa.ti .•.o muestreado por los reactivos de la prueba, El análisis secuencial cor:siste en hacer

observaciones, una tras otra, y decidir después ~e cada una si (1) se acepta la hipÓtesis,(2) se rechaza, o (3) hay que hacer otras observaciones. Así, el número de observaciones(en este caso, el número de reactivos) necesario para llegar a una conclusión confiablese determina durante el proceso de evaluación. En lugar de presentar un número fijo ypredeterminado de reactivos, el examinado continúa resolviendo la prueba hasta quese alcance una decisión de destreza o no destreza, En este momento se interrumpe elexamen y el estudiante es dirigido al siguiente nivel de instrucción o se le regresa a estu~diar el nivel no dominado. Con las fadlidades de las computadoras, los procedimientosde decisión secuencial son factibles y pueden reducir el tiempo total de exammación ala vez que producen estimaciones confiables de la destreza.

Algunos investigadores han explo[9.do los métodos bayesianos de estimación queincorporan datos colaterales y son adecuados para las decisiones que requieren las,pruebas de destreza. Debido al gran número de objetivos educativos que hay que pro~bar, en general los tests referidos a dominio incluyen un pequeño número de reactivospor cada objetivó. Para completar e'sta limitada información se han establecido proce9i, '...miemos que comprenden datos colaterales de la historia del desempeño del estudianteaSí como los resultados de otros alumnos (R. L. FerguSon y Novick, 1973; Hán;bleton, '1984a; Hambleton y Novick, 1973),

Cuando los procedimientos confeccionados individualmente no r~ultan prácti-cos, es posible establecer de manera empfrica puntuaciones de corte al analizar los re~sultados de grupos apropiados antes y después de la instrucción. Lu~go se seleccionala puntuación de corce que haga una mejor discriminación entre los que han recibido laeducación adecuada y los que no lo han hecho (Panel! y Laabs, 1979; L. A. Shepard,1984). En ciertas siqtaciones se requiere de juicio para evaluar la relativa gravedad deuaprobar" a una persona no calificada contra ureprobar" a alguien que s( lo está. En~tonces, se elevarfa o disminuiría el puntO de corte para responder a las consecuenciasde la mala clasificación.

Tests refetidos a normas. Más allá de las habilidades básicas, las pruebaS de destrezason inaplicables o insuficientes, ya que en las materiaS más avanzadas y me\los estructu-radas el rendimiento es abierto. El individuo puede progresar' casi ilimitadamente enfunciones como la comprensión, el pensamiento crítico, la apreciación y la originali.dad. 'Más aún, la cobertura del contenido puede seguir muchas direcciones diferentesdependiendo de las habilidades, los intereses y las metas del individuo, asf como de lasfacilidades locales de educación. En esas condiciones, la destreza toral es poco realista einnecesaria, por lo que en tales casos suele utilizarse la evaluación referida a nonnas pa-ra determinar el grado de re~~im¡ento, Se han elaborado algunos instrumentos para¡xrmitir tanto las aplicaciones referidas a normas como las referidas a dominio, Unejemplo se encuentra en las pruebaS Stanford de diagnóstico para lectura y matemáti,cas, que ademis de proporcionar nomlas apropiadas para cada nivet permiten un aná,lisis cuantitativo del aprovechamiento del niño en objetivos educativos detallados:

Observe que la evaluación rt::feridaa dominio no es tan nueva ni tan distinta de 10$

exámenes referidos a norm3S como implican algunos de sus exponentes. Evalu3r bejecución del individuo en una prueba en términos absolutos, como una letra o elporcentaje de acienos, desde luego es mis antiguo que las interpretaciones normati.vas. Tentativas mis precisas por d~cribir el desempeño en u~a prueba en términos

;

.:c,' ...•.

Normas y significado de las puntuadones de los tests 81

80 Principios técnicos y metodológicos

del signincado del comenido [ambién son anteriores a la introducción del término"test referido a crirerio" (Ebel, 1962; J. C. Flanagan, 1962; Nitko, 1984, pp. 14--16).Otros ejemplos se hallan en las primeras escalas formadas para e....aluar la calidad de laescritura, la redacción o el dibujo al igualar la muestra de trabajo del individuo contraun espécimen estándar. Ebel (1972) observó además que el concepto de destreza o ha-bilidad en educación -en el sentido del aprendizaje de todo o nada de unidades espe#cUlcas-- fue muy popular en los veinte y los treinta, antes de ser abandonado.

En todas las formas de evaluación está implícito un marCOnormativo, independien-temente d<cómo se expresen los resultados (Angoff, 1974; Nitko, 1984). La mera elec-ción del contenido o bien las habilidades por medir está influida por el conocimientodel examinador de lo que puede esperarse de seres humanos en determinada etapaeducativa o de desarrollo. Dicha elección presupone que se cuenta con informaciónacerca de 10que otraS personas han hecho en situaciones similares. Más aún, al impo-ner puntuaCiones de corte uniformes sobre un continuo de habilidad, las pruebas dedestreza na 'eliminan las diferencias individuales. Describir el nivel de lecÑra de com-=prensión de:un individuo como "la habilidad de comprender el contenido del diarioThe New York l1mes" deja espacio para una amplia gama de diferencias individualesen grado y comprensión. Aplicar un punto de corte para establecer una ¿icotom(a enla ejecución simplemente ignora las diferencias individuales que permanecen dentrode las dos ca~egorías y descarta información potencialmente útil.

CALIFICACIONES MÍNIMAS Y PUNTUACIONES DE CORTENecesidades prácticas y peligros latentes. El concepto de destreza en la exa#

, minación referida a dominio es sólo un ejemplo del uso práctico de los puntos de cor-te en la toma de decisiones. En la vida cotidiana deben especincarse Yadoptarse cali-ncaciones mínimas para una gran variedad de propósitos. En muchas situacion.es, lascondiciones de seguridad requieren el establecimiento de puntOS de corte en el de-sempeño, c'omo p<lraconceder licencias de conductor, la selección de pilotos para unaaeroHnea o' de trabajadores para una planta nuclear. En la escuela, aprobar un cursa ograduarse (epresentan otras situaciones que exigen una clasificación de todo o nada(Jaeger, 1989). En la práctica clínica y de consejetía, las decisiones concernientes altratamiento o las recomendaciones pueden requerir de juicios similares.

Un argumento particularmente sólido para el uso de los puntos d~ corte atañe a lapresencia d~ variables críticas requeridas para el desempeño de ciertas funciones, setrata de vari::tbles en las que una deli.ciencia no puede compensarla una habilidad so#bres::lliente en Otras variables. En tales casos, un::l calincación alta en una batería deselección podría ocultar una deficiencia en una habilidad crucial. Con todo, los indi.viduos que caen debajo del m£nimo (equerido en la habilidad esencial fallarán, inM-pendientemente de sus Otras habilidades; por cjempio, los operadores dd equipO desonar deben tener una buena discriminación auditiva. Durante la Segunda GuerrJ.Mundial, los reclutas de b. marina estadounidense fueron seleccionados para el entre-namiento como operadores de sonar sobre la base de la combinación de sUScalinea-ciones en prueb:lS de discriminación audiúva y de comprensión mecánica. Comoresultado, algunos hombres con formación universitaria que obruvieron excelentes re.sultados en comprensión mecánica pero que resultaron deficientes en l:ti habilidadesauditivas esenciales fueron asignados a dicho entrenamiento con el fracaso subse.cuente. El proc~dlmiento estándar de la marina requería que quienes fracasaran en su

primera asignación de entrenamiento fueran transferidos a tareas generales como f

aprendices de marinero, lo que suponía la pérdida ..de sus servicios especializados. Unanálisis posterior de la situación llevó a la sustitución de un procedimiento de Cortepara este propósito de selección; sin embargo, para la mayor parte de las variables rela-cionadas con el trabajo, la relación con la ejecución del trabajo tiende a ser lineal, demodo que entre mayor sea el resultado obtenido en la prueba mejor suele ser el desem#peño (Coward y Sackett, 1990). En tales casos, la calificación real del sujeto predicemejor.,su rendimiento que su posición relativa en un punto de cOtte.

En la medida en que no es posible evitar el uso de los puntos de corte en muchas. decisiones prácticas, es esencial estar al (anto de los riesgos de dichas e ....aluaciones yutilizar procedimientos para reducir los errores de juicio; por ejemplo, deben hacerseesfuerzos para mitigar las limitaciones del, resultado de una sola prueba. Cuando seafactible. eIcorte debe ser una banda de puntuaciones más que una sola puntuaciónobtenida en una aplicación de la prueba. Más aún. las decisiones sobre los individuosdeben depender de múltiples fuentes de información. de modo que los resultados de laprueba los completen otros datos relevantes a su desempeño, pasado y actual. Si ungrupo de jueces establece los puntos de corte,'éste debe incluir la representación ade# .-cuada de expertos tanto en el área relativa al desempeño de la tarea como en los prin#cipios de construcción y uso de las pruebas. Por encima de todo, siempre que seaposible, los puntos de corte deben establecerse o verificarse sobre la base de datos effi#píricos. En concreto, esto implica que deben obtenerse los resultados conseguidos enla prueba por ~pos que dineren claramente en la conducta de criterio importante,como el desempeño real en cierto trabajo. Por supuesto, esta es la ejecución qúe laprueba pretende predecir y en que se establece un puntO de corte para asegurar un mí~. nimo seguro. aceptable o deseable. Un ejemplo claro de la aplicación del método em#pírico para establecer puntuaciones de cOtte en una prueba de selección de personal se 'encuentra en las tablas de expectabilidad que veremoS en la siguiente sección.

Tablas de expectabilidad. Una de las formas de inrerpretar el significado del re-sultado de una prueba es la ejecución criterio esperada del sujeto, como en el progra-ma de capacitación o en el empleo. Este uso del término ucriterio" sigue la prácticapsicométrica habitual. como cuando se dice que una prueba es validada contra un crÍ#terio particular (véase el cap(tulo 1). Hablando estrictamente, el termino "test referi#do al criterio" debe aludir a esta interpretación del desempeño, mientras que los otrosplanteamientos que revisamos en la sección anterior se describen mejor corno referi.

dos a contenido o a dominio.La tabla de expectabilidad muestra la probabilidad de diferentes (esultados de cri-

terio para quienes obtien~n cnda re~ultado de la prueba; por ejemplo, si un estudian#te obtuvo un~ cali~cación de 530 en la Prueba de Evaluación Académica (Schola.sticAssessmdlt Test, SAT) de la Junta Universitaria, ¿cuáles son las posibilidades de quesu calincación promedio en determinada universidad caiga en la categoría A. B, C, DoFr Esta inform:lCión se puede obte.ner si se examina la distribución bivarbda de las cali-ncaciones predietoras (del SAT) contr.! el criterio establecido (el promedio de califica#clones). Si el númerO de casos en cada celda de dicha distribución bivariada se cambiapor un porcentaje, el resultado es una tabla de expectabilidad, como la que ilustra la ra.bla 3.6. Los datos par.! esta tabla fueron obt~nidos de 211 esrudiantes de séptimo gradolnscrit05 en cursos de matemáticas. El predictor fue la prueba de Razonamiento Numé.(i¡oode los TestSde Aptitud Diferencial (Diffcrenáal Aprinuú TeStS,DAT) administrados

¡- _=:2:ít' •• "'''y--O,~~S'..'ü.: ~,-"""'~,~_".""_.r~."_,''',_''"__'.,~_,,-O"' > '- '.' ''-':''~''''';''''': '=--''~~''''''"~'''''~.~'''''"''--='''''''''==-''''''-__

82 Prindpios técnicos y metodológicos Normasy stg~ifitado de' las p~ntuácianes de los. tests 83

.,

,.Porcentaje eJimin~do~Q,ele~lr~,ri~~~~:!~-~;J9.t;~rim~ri9"

r'\:

-904

23699,

'.34975

:. ,11209,

.2139'

.19444

Número ..de hombres

214?4

','.7., .32129..6" ..... ,.. 39398

"":" .. ,.. 8

Eslaninadel pi!OIO

9

;"c',

'5 .

43.

2

,~-., '. .

,

ABeD y rryeTWj

Porcentaje que recibe cada ca1l6ca~ión o grado por letraNúmerode casos

Tabla de expectabilidad que muestra la relación entre la Pruebade razonamiento numérico (DAT)y las calificaciones en uncurso de matemáticas para 211 estudiantes de séptimo grado

I I

Puntuaciónde la prueba.

F f 9 u r a 3. 7. Gráfica de Expectabilidad que muestra la relación entre la ejecución enuna batería para la selección de pilotos y la eliminación de un vuelo de entrenamiemoprimario.(Tomado de J. C. Aanag::m, 1947,'p. '58.)

vuelo. Puede verse que el 77 por ciento de los cadetes que recibieron una estanina de 1fue eliminado del curso de entrenamiento, mientras que sólo cuatro por ciento de losque obtuvieron una estanina 9 n~ logró completar el entrenamiento satis(actoriamen#te. Entre esos extremos, el porcentaje de fracasos disminuyó en (arma constante a lolargo de las esraninas sucesivas. Sobre la base de esta gráfica de expectabilidades pue.de predecirse, por ejemplo, que alteded9t del 40 por ciemo de los cadetes que obtie.nen una calificación esta ni na de 4 fracasará y que cerca del 60 por ciento completarásatisfactoriamente el entrenamiento de vuelo, Pueden hacerse afirmaciones similaresacerca de la probabilidad de éxito o fracaso' de los individuos que reciben cada estani.na. Asr, la probabilidad de que complete el emtenamiemo un individuo con una eali.ficación estanina de 4 es de 60:40 o 3:2. Además de brindar una imerpreraciónreferida al criterio de los resultados de la prueba, puede observarse que tanto las tablascomo las gráficas de expectabilidad dan üna idea generol de la validez de una pruebapara predecir un criterio determinado. Es por ello que al final del capítulo 6, en unasección sobre los modelos de decisión para el u,sojusto de las pruebas, haremos una re-visión más detalbda de los procedimientos emprricos empleados para establecer pun-tuaciones de corte. En dicha sección también nos referimos a los procedimientosmatemáticos para d establecimiento de calificaciones de corte óptimas en diversascondiciones. Las aplicaciones espedficas de las puntuaciones de corte en las principa.les áreas de.la práctica p_sicol6gica también pueden encontrarse en el cap (rulo 17.

;'."

VJ C'tl ¡ce:,=I!P.\'" o ,o' '••• '\ C';l .8t!!1;l. •••••~.,v:~.'Í'oi•..V¡;."""" ...••••.~_••.. , bO c::

" ~",J'F'S~¡'..V'. .. ;,-'o -""','" ~~~~,~~"". , ••¡~,?rc""" .

iJ~\.J~<t,}..\.j:::t\~:1fl~';¡,,~'?):,~'f',;'.-;'.;~~. l,'¡,)'(.~'o -y'¡f,:J¡;;~~...~,a;-.'I."\"/.:,,,,T)J;:,. ••, ,•••. -." ;' ~-

" ..••~"""-::l'I~~:.:t!.Jt::~~~i'.~ll:''':'~oC/)~¡¡~::~:;.~: .

~ c:...c ";Q,) c:::) :::Jt-o...

;,

,.-~

'"¡¡:OOOl5..gOOz:5OuJa:uJ:>

"Oa:m:J-'uJ

'. "';~".l. ",-1,.

u, .,.•. P-s.,~mef;.,~~s TestsPsicológicos - bibliopsi.org · ANNE ANASTASI Department of...

Documents

Transcript of u, .,.•. P-s.,~mef;.,~~s TestsPsicológicos - bibliopsi.org · ANNE ANASTASI Department of...