ESTUDIO DE LA CONSISTENCIA INTERNA DE LA PRUEBA DE …

13
REVISTA CUBANA DE PSICOLOGÍA Suplemento No. 1,2003 ESTUDIO DE LA CONSISTENCIA INTERNA DE LA PRUEBA DE TACHADO DE LETRAS DE LA BATERÍA DE DIAGNÓSTICO NEUROPSICOLÓGICO DE LA UNIVERSIDAD DE LA HABANA. (DNUH) Eduardo Cairo Valcárcel,' Rosalba Gómez Lozano, Lida Carmenza Devia Collazos y Elizabeth Ijalbo Peláez. RESUMEN En el trabajo se presenta un estudio de la consistencia interna de la prueba a partir del cálculo de los índices de dificultad y discriminación y cuyos resultados avalan la confiabilidad de la versión 2002 de la prueba de Tachado de Letras de la Batería de Diagnóstico Neuropsicológico de la Universidad de La Habana (DNUH). Palabras clave: Análisis de ítems, índice de dificultad del ítem, índice de discriminación del ítem, correlación biserial ABSTRACT We present an analysis of the content validity of the Letter Cancellation subtest from the Diagnostic Neuropsychological Battery from Havana University (DNUH) by determining the difficulty and discrimination of each item. Results confirm the reliability of the 2002 version of this subtest. Key words: Item analysis, item difficulty, item discrimination, biserial correlation INTRODUCCIÓN Sin duda, una de las virtudes de la Prueba de Tachado de Letras de la Batería de Diagnóstico Neuropsicológico de la Universidad de La Habana (DNUH) es ser una batería dinámica, que pretende o tiene entre sus propósitos ajustarse a las condiciones y a los requerimientos de cada caso, por lo que es importante conocer y estudiar por diferentes vías el comportamiento de la misma ante distintas situaciones. Por ello, es recomendable, entre otros procedimientos, emplear la técnica de análisis de los ítems para enriquecer el test e ir modificando en la dirección apropiada (ganar en confiabilidad, validez, dinamismo, eficiencia predictiva, simplicidad, aumentar la comprensión del test, etc.) los ítems que resulten menos efectivos, que es precisamente el análisis que abordaremos en este artículo. Como se sabe, el análisis de los ítems de una prueba se lleva a cabo, generalmente, con los objetivos de: - "Revisión del test con respecto a una confiabilidad y a una validez superiores, mediante la eliminación y mejoramiento de los ítems no adecuados - Comprobación de la distribución de los puntajes del test con respecto a una confiabilidad superior y con una mejor normalidad." (Lienert 1990, Pág. 117). Y para estudiar la condición de considerar a un ítem como bueno Lienert (1990), instituye tres criterios, ellos son: dificultad, selectividad y validez. Sin embargo, otros autores emplean otra terminología pero, en esencia, casi todos concuerdan en que el análisis de la dificultad y el índice de discriminación calculados mediante distintos procedimientos es una práctica habitualmente aceptable. El índice de dificultad de un ítem se define mediante la frecuencia, en por ciento, con la que es respondido por una muestra representativa de sujetos y para ello se usa la siguiente fórmula: índice de dificultad para el ítem i • Número de personas que contestaro n adecuadame nte el ítem Número de personas que tomaron el test ' Facultad de Psicología, Universidad de La Habana, San Rafael 1168. Habana. Cuba email: cairo(%[>s¡co.uh.cu

Transcript of ESTUDIO DE LA CONSISTENCIA INTERNA DE LA PRUEBA DE …

Page 1: ESTUDIO DE LA CONSISTENCIA INTERNA DE LA PRUEBA DE …

REVISTA CUBANA DE PSICOLOGÍA Suplemento No. 1,2003

ESTUDIO DE LA CONSISTENCIA INTERNA DE LA PRUEBA DE TACHADO DE LETRAS DE LA BATERÍA DE DIAGNÓSTICO NEUROPSICOLÓGICO DE LA UNIVERSIDAD DE LA HABANA. (DNUH) Eduardo Cairo Valcárcel,' Rosalba Gómez Lozano, Lida Carmenza Devia Collazos y Elizabeth Ijalbo Peláez.

RESUMEN En el trabajo se presenta un estudio de la consistencia interna de la prueba a partir del cálculo de los índices de dificultad y discriminación y cuyos resultados avalan la confiabilidad de la versión 2002 de la prueba de Tachado de Letras de la Batería de Diagnóstico Neuropsicológico de la Universidad de La Habana (DNUH).

Palabras clave: Análisis de ítems, índice de dificultad del ítem, índice de discriminación del ítem, correlación biserial

ABSTRACT W e present an analysis of the content validity of the Letter Cancellation subtest from the Diagnostic Neuropsychological Battery from Havana University (DNUH) by determining the difficulty and discrimination of each item. Results confirm the reliability of the 2002 version of this subtest.

Key words: Item analysis, item difficulty, item discrimination, biserial correlation

INTRODUCCIÓN Sin duda, una de las virtudes de la Prueba de

Tachado de Letras de la Batería de Diagnóstico Neuropsicológico de la Universidad de La Habana (DNUH) es ser una batería dinámica, que pretende o tiene entre sus propósitos ajustarse a las condiciones y a los requerimientos de cada caso, por lo que es importante conocer y estudiar por diferentes vías el comportamiento de la misma ante distintas situaciones. Por ello, es recomendable, entre otros procedimientos, emplear la técnica de análisis de los ítems para enriquecer el test e ir modificando en la dirección apropiada (ganar en confiabilidad, validez, dinamismo, eficiencia predictiva, simplicidad, aumentar la comprensión del test, etc.) los ítems que resulten menos efectivos, que es precisamente el análisis que abordaremos en este artículo.

Como se sabe, el análisis de los ítems de una prueba se lleva a cabo, generalmente, con los objetivos de:

- "Revisión del test con respecto a una confiabilidad y a una validez superiores, mediante la eliminación y mejoramiento de los ítems no adecuados

- Comprobación de la distribución de los puntajes del test con respecto a una confiabilidad superior y con una mejor normalidad." (Lienert 1990, Pág. 117).

Y para estudiar la condición de considerar a un ítem como bueno Lienert (1990), instituye tres criterios, ellos son: dificultad, selectividad y validez. Sin embargo, otros autores emplean otra terminología pero, en esencia, casi todos concuerdan en que el análisis de la dificultad y el índice de discriminación calculados mediante distintos procedimientos es una práctica habitualmente aceptable.

El índice de dificultad de un ítem se define mediante la frecuencia, en por ciento, con la que es respondido por una muestra representativa de sujetos y para ello se usa la siguiente fórmula:

índice de dificultad para el ítem i ••

Número de personas

que contestaro n

adecuadame nte el ítem

Número de personas

que tomaron el test

' Facultad de Psicología, Universidad de La Habana, San Rafael 1168. Habana. Cuba email: cairo(%[>s¡co.uh.cu

Page 2: ESTUDIO DE LA CONSISTENCIA INTERNA DE LA PRUEBA DE …

Justo, quizás, sería llamar a este indicador "índice o indicador de aciertos, o éxitos" pues en realidad por la definición que del mismo se brinda lo que mide es el número de sujetos que contestaron correctamente al mismo y, en ese sentido, Barbero García y García-Cueto (1987, Pág. 83) señalan: "Tal vez a esta proporción hubiera que denominarla "índice de facilidad" del ítem, pero tradicionalmente ha sido denominada como índice de dificultad del elemento y así la continuaremos denominando nosotros".

También es válido subrayar que la definición ofrecida por Lienert (1990), y anteriormente referida, no es compartida textualmente por otros autores ya que éstos no reflejan, es decir, excluyen de sus definiciones operacionales, denotar de manera precisa, lo relacionado con la "representatividad de la muestra de los sujetos".

El índice de selectividad se define mediante el coeficiente de correlación (punto) biserial, esto es: El coeficiente de selectividad es igual al coeficiente entre la respuesta al ítem —correcta o incorrecta— y el valor bruto (Lienert 1990, Págs. 117 y 154). Aquí, es importante subrayar que ésta no es exactamente la única forma de concebir el índice de discriminación y, menos aún, de determinarlo como veremos más adelante. También, en ocasiones, este índice se designa llamándolo índice de homogeneidad del ítem y "esta denominación está sustentada en el hecho de que una de las interpretaciones que se puede dar a este índice es la de ser un indicador de un cierto tipo de coherencia interna entre ese ítem y el resto de los ítems que componen la totalidad de la prueba" (Santiesteban Requena 1990, Pág. 335).

Y el coeficiente de validez se define mediante el coeficiente de correlación (punto) biserial o el tetracórico entre la respuesta y el grado de expresión de la característica —medido con un criterio externo.

Teniendo en cuenta estos elementos básicos y pensando, especialmente, que: un buen test tiene siempre buenos ítems, aunque sean difíciles de crear, nos planteamos acorde con la concepción con que elaboramos el DNUH, llevar adelante un análisis de ítems de la prueba de tachado de letras aspecto éste que continuamente abordamos en las investigaciones que efectuamos con el DNUH y, sobre todo, cuando las condiciones de la muestra (cierta uniformidad entre las características de los sujetos estudiados en cuanto a sexo, escolaridad, edad, nivel socioeconómico de la región donde está emplazada la escuela y una cantidad vasta de sujetos: 413), nos lo facilitan.

OBJETIVOS Entonces, nos propusimos llevar a cabo el

siguiente estudio con los objetivos de:

- Determinar el índice de dificultad de cada ítem concorde con las características básicas de la muestra: Edad, sexo, escolaridad.

-Determinar el índice de discriminación de cada ítem de la prueba.

-Comparar los resultados obtenidos al calcular el índice de discriminación a partir de distintos procedimientos y/o puntos de vista.

CARACTERÍSTICAS DE LA MUESTRA Como se aprecia, en la Tabla # 1 (ver anexo) la

edad media de todo el grupo es de 9.726 años, con una desviación estándar de 1.149 y un error estándar de la media de 0.057. Presentan un rango de 4 años, comprendido entre los 8 y los 12 añps, con una varianza de 1.321. La Asimetría fue de 0.00 con un error estándar de 0.120, y la Curtosis de -1.084, con error estándar de 0.240. La mediana para todo el grupo es de 10 años, siendo igual para ambos sexos, y la moda es de 11 años. Asimismo, se distingue en la Tabla # 1 (ver anexo) esos mismos indicadores de acuerdo con el grado y el género de los alumnos.

ANÁLISIS DE LOS RESULTADOS I- EL ÍNDICE DE DIFICULTAD

El índice de dificultad, como ya habíamos subrayado, es la proporción de las respuestas correctas ofrecidas por cada sujeto a cada pregunta y, generalmente, parte de los valores de 0 y 1 dados a la respuesta de los ítems. En la Tabla # 2 (ver Anexo) se ilustra el nivel de dificultad de los ítems en la muestra general, considerando como ítems fáciles aquellos que son resueltos por el 60% o más de los sujetos; moderados, entre el 40 y el 59% de los mismos y difíciles por menos del 40% de los indagados.

Como se puede apreciar, en la tabla referida, el 47.22% de los ítems son fáciles (17); el 41.66% moderados (15) y el 11.11% difíciles (4). Estos porcentajes quizás hacen evidente la necesidad de acomodar la prueba, por el pequeño número de ítems difíciles, lo que pudiera valorarse ya sea aumentando el número de estímulos, disminuyendo el tiempo de aplicación, cambiando la ubicación de los mismos y, también, aceptando esta realidad y/o fijando normas específicas para cada grado, edad y sexo aunque siempre es conveniente tener en cuenta el contexto y el propósito de la evaluación.

De esta manera, encontramos que los ítems más difíciles son el q16, con un porcentaje de solamente el 31.48% de aciertos en la muestra total, y el s18 (32.20%), ambos situados en el cuadrante inferior derecho. Los ítems más fáciles son el a2 (87.89%), que, por cierto, es el primer ítem de la prueba, estando ubicado en el cuadrante superior izquierdo y el c8 (82.81%) también situado en el mismo cuadrante. Aquí, podríamos decir que no precisamente el ítem primero es el más fácil porque se haya concebido desde el inicio o principio la idea, usualmente empleada, de que los primeros deben ser fáciles para motivar al examinado sino que simplemente el hábito lector, en nuestra lengua, así lo determina (leemos de izquierda a derecha y de

Page 3: ESTUDIO DE LA CONSISTENCIA INTERNA DE LA PRUEBA DE …

arriba abajo y, además, todos los ítems son idénticos y lo que cambia, dificulta o favorece su cancelación, es: su ubicación espacial).

Sobre este punto hemos tenido la oportunidad de conocer mediante la opinión de diferentes especialistas, entre otros aspectos, la duda de cuan válido es determinar el índice de dificultad y de discriminación en una prueba como ésta donde lo que se está midiendo es la capacidad de atención sostenida durante un minuto y todos los ítems son, como se refiere, idénticos, variando sólo la ubicación del mismo dentro de la prueba.

Como este aspecto fue una cuestión de extensa polémica donde no logramos llegar a un acuerdo total, nos permitimos recalcarle al lector que, en resumen, la discusión "parece" centrarse en estas aristas:

1. Los que plantean que el tachado de letras o de figuras en una práctica usualmente establecida y reconocida por todos los especialistas y que la literatura recoge ampliamente desde hace mucho tiempo en libros, revistas, eventos científicos de todo tipo y que no es necesario avalar mediante citas en estos momentos.

2. Que estos tests tienen características muy similares aunque hay variantes donde lo que se le exige al sujeto son formas alternativas, mas la tarea esencial "tachar la letra o letras y/o las figuras que se indiquen", constituyen la esencia del propósito del test y no altera en nada, prácticamente, la razón del debate sobre el tema que estamos hablando.

3. Que la ubicación de las letras a tachar ocupan en estos tests diferentes posiciones no teniendo, en la mayoría de las ocasiones, un significado particular. Es decir, sólo se cuenta en el puntaje del sujeto si se tachan o no, y no se analiza el lugar que ocupan en la prueba las tachadas y las no tachadas. Pongamos por ejemplo, no se cuestiona si las canceladas y las omitidas y/o las tachadas indebidamente ocupan espacialmente, la parte superior o inferior, el lado izquierdo o derecho, en fin las características de locación de cada estímulo, y sin embargo, esto afecta, sin dudas, la posibilidad de éxito o fracaso del examinado y, además, está también vinculado con algunas características sociales del sujeto y de su estilo perceptual.

4. Entonces, "si, al menos, estas razones son válidas ¿por qué no plantearnos el estudio de estas peculiaridades con el fin de tener razones experimentales, y no simplemente opiniones, sobre la validez o no de la investigación efectuada?. ¿Significa lo anterior que los que defienden la validez del objetivo del trabajo ejecutado subestimen el valor de las opiniones, juicios o criterios no experimentales de algunos especialistas?, No en lo absoluto, mas los que estiman válido el estudio efectuado han tenido a bien dejar que la ejecución de un experimento "permita ver" la posibilidad de que "sean reales o no" las diferentes "alternativas de los criterios u opiniones de los colegas. En dos

palabras, nos dicen, los que creen oportuno y justo el trabajo:

"Dejemos que la práctica sea el criterio de la verdad".

"Aguardemos hasta experimentar unas y otras las múltiples alternativas esbozadas pues, al menos, con este trabajo práctico pudiéramos tener la evidencia de lo que es o quizás de lo que no es".

"Esperemos por los resultados experimentales que obtengan otros colegas al replicar la investigación, con estos u otros procedimientos investigativos diferentes, y veremos si ratifican o rechazan estos resultados y las interpretaciones que se ofrecen".

El promedio de dificultad total de los ítems es de 60,16% lo cual puede considerarse como plausible. Recuerde el lector que para la mayoría de los tests un rango de dificultad comprendido entre el 30 y el 70% tiende a maximizar la información que se obtiene acerca de los individuos pesquisados aunque el 50% es considerado el óptimo. No obstante, es fundamental lo señalado por Anastasi (1968, Pág. 171) cuando señala: "....para obtener una máxima diferenciación, parecería que se deberían escoger todos los elementos con un nivel de dificultad de 0.50. La decisión se complica, sin embargo, por el hecho que todos los elementos en un test tiendan a estar intercorrelacionados. Cuánto más homogéneo sea el test, más altas serán las intercorrelaciones. En un caso extremo, si todos los elementos estuvieran perfectamente correlacionados y todos tuvieran un nivel de dificultad de 0.50, las mismas 50 personas de cada 100, pasarían cada elemento. Consiguientemente, la mitad de los examinados obtendrían puntuaciones perfectas y la otra mitad puntuaciones de cero".

Y más adelante subraya: "...aunque haya que preferir, en general, los elementos que se agrupan alrededor de una dificultad de 0.50 para establecer una diferenciación máxima entre los individuos, los tests destinados a una finalidad especial de selección deberían utilizar elementos cuyos valores de dificultad se aproximarán más al índice de selección deseado".(Anastasi, 1968, Pág.172)

En la Tabla # 3 (ver anexo) se observa el nivel de dificultad de los ítems de conformidad al grado, la edad y el sexo, pudiéndose apreciar, entonces, que éste disminuye, en términos generales, con el aumento de la edad: a los 8 años sólo el 27.78% (10 de 36) resultan fáciles mientras que a los doce años llega a la cifra de 88.89% (32 de 36) y la escolaridad. En tercer grado el 30.56% (11 de 36) son clasificados como fáciles mientras que en sexto logran el 61 .11% (22 de 35). También se muestra que la dificultad, en general, de la prueba, es menor para las hembras pues tienen el 58.33% de los ítems clasificados como fáciles (21) que para los varones que sólo alcanzan el 47.22% (17).

Page 4: ESTUDIO DE LA CONSISTENCIA INTERNA DE LA PRUEBA DE …

Válido es señalar, ahora, que diferentes autores recalcan distintas maneras para determinar el índice de dificultad y entre ellos: Garrett, (1974, Pág. 400 ) quien refiere tres formas diferentes:

1. Por el juicio de gentes competentes que clasifican los ítem por orden de dificultad,

2. Por la rapidez con que el ítem puede resolverse y

3. Por el número de examinados en el grupo que lo resuelven bien.

El procedimiento inmediato anterior referido (3) es el que adoptamos en esta ocasión ya que habíamos utilizado el primero de ellos cuando comenzamos estas labores.

La diferencia esencial que distingue este momento o situación actual del comienzo o inicio de la investigación podemos resumirla planteando que en la primera el examen se efectuó por medio de jueces (profesionales con una larga experiencia laboral en el campo de la psicometría) quienes expresaron sus opiniones técnicas mediante criterios, más o menos subjetivos, y, ahora, estamos empleando criterios estadísticos para la interpretación de los resultados.

También es justo llamar la atención hacia el tercer procedimiento: Calcular el número de examinados en el grupo que resuelven bien el ítem, constituye acorde con Garrett (1974, Pág 400) " e l método típico para determinar la dificultad de las pruebas objetivas" aunque también vale subrayar lo apuntado por Hopkins et al (1990, Pág. 269) cuando afirma: "Note than an item analysis is not substitute for meticulous care in planning, constructing, criticizing, and editing items"

II. EL ÍNDICE DE DISCRIMINACIÓN El índice de discriminación constituye un aspecto

fundamental en el estudio de la consistencia interna de la prueba y existen diferentes formas de concebirlo y/o llevarlo a cabo, una de las cuales indicábamos en la introducción (ver a Lienert, 1990). Nosotros utilizamos varios procedimientos y entre ellos los siguientes: El de los grupos extremos (Anastasi, 1968), el del número de discriminaciones, la correlación inter-ítems y la correlación ítems-total, con este fin.

A. Procedimiento de los grupos extremos En el procedimiento de los grupos extremos se

compara la proporción de los casos que aciertan un elemento por contraste con los grupos del criterio, para lo cual se seleccionan un grupo superior y uno inferior (los extremos de la distribución), que abarque del 25 al 33% de la muestra, conformando tres grupos: uno inferior, uno superior y uno medio. Se determina, entonces, el índice de discriminación (ID) el cual como se sabe puede asumir cualquier valor entre +1 y - 1 .

Por ejemplo, si todos los miembros del grupo superior y ninguno del inferior aciertan un ítem, entonces D será igual a 1; si todos los miembros del

grupo inferior lo aciertan y ninguno del superior, entonces será - 1 ; y si la proporción es igual en ambos grupos, entonces será igual a 0.

En general, según Anastasi (1968) para la mayor parte de los objetivos de los test son preferibles los elementos más cercanos a un nivel de dificultad de 0,50.

En la Tabla # 4 (ver anexo) encontraremos los siguientes valores:

1. Superior, medio e inferior, que recoge, como ya dijimos, los puntajes de éxitos conseguidos en cada' ítem por los sujetos de los grupos superior (27%), medio (46%) e inferior (27%).

2. Dificultad, que es la suma de los valores (número de aciertos) en los grupos: superior, medio e inferior.

3. Discriminación, que es el resultado de la resta de los valores (número de aciertos) en los grupos superior e inferior.

4. Proporción Superior (Prop. S), que es la multiplicación del valor superior, por 1/n (0.009009), siendo n el valor de la muestra seleccionada para cada grupo (es decir, en nuestro caso, el 27% de la muestra total, estoes 111 sujetos).

5. Proporción Inferior (Prop. I), donde se multiplica el valor inferior por 1/n.

6. índice de discriminación, (ID) que es la consecuencia o producto de la resta: Proporción Superior (Prop. S) menos Proporción Inferior (Prop. I).

Este procedimiento aplicado a nuestra muestra tuvo los efectos que pueden apreciarse en la Tabla # 4 antes mencionada.

En general, teniendo en cuenta el criterio de Anastasi (1968) de que los ítems más apropiados son aquellos que se encuentran más cercanos a 0.50, vemos, como se esclarece en la Tabla # 5 (ver anexo), que hay 11 ítems, de los 36 (30.56%) de los cuales se compone el test, que serían los idóneos, teniendo un índice de discriminación que se halla entre el 0.40 y el 0.60.

Si ordenáramos estos once ítems con relación al criterio de Anastasi (1968) tendríamos la siguiente disposición: En primer lugar el k2 con 0.54, empatados en 2do., 3ro. y cuarto lugar: el ¡2 con 0.45 y el q16 y s18 con 0.55; unidos ocupando el 5to. y 6to. lugar: g8 con 0.44 y el j5 con 0.56; unidos en 7mo., 8vo. y 9no. lugar: el g16 q4 y el s10 con 0.58 y finalmente ocupando los lugares 10 y 11, unidos, el s2 y el e10, ambos con 0.40.

En la Tabla # 6 (ver anexo) puede apreciarse la localización de los ítems que resultan óptimos conforme con el criterio utilizado (Anastasi, 1968) para determinar el índice de discriminación. Asimismo, el lector debe percatarse también que en el reparto espacial de estos índices el primer cuadrante, que había resultado el más fácil de acuerdo con el nivel de dificultad, así como el cuarto que había resultado el más difícil en el mismo indicador, tienen ambos igual número de ítems

Page 5: ESTUDIO DE LA CONSISTENCIA INTERNA DE LA PRUEBA DE …

óptimos según el índice de discriminación concorde con Anastasi (1968). Esto nos dilucida la necesidad de considerar en todo momento la consecuencia conjunta de ambos indicadores.

B. Número de discriminaciones El número de discriminaciones que el ítem es

capaz de obrar en una muestra determinada, en la que es aplicado, en función de su índice de dificultad, es otra medida del poder de discriminación (Barbero García y García-Cueto, 1987, Pág. 84).

En la Tabla # 7 (ver anexo) se aprecia este indicador para cada grado, y en la muestra total. En ella los ítems que logran un mayor nivel de discriminación son: El j15 (42642), q4 (42640), s2 (42612), 0 6 (42600) y k18 (42586); el m12 (42570) en el 6to lugar; el o10 (42532) en el 7mo; el q8 con 42510 en octavo lugar, el m16 (42042) en 9no.: y finalmente el m4 y el i18 ocupando unidos los lugares 10 y 11.

C. La correlación inter-ítems Utilizamos también el procedimiento de la

correlación inter-ítems, que permite conocer el vínculo asociativo que existe entre los diferentes elementos de la prueba.

La correlación inter-ítems, como puede distinguirse en la Tabla # 8 (ver anexo), es significativa en un grupo elevado de ítems. Sin embargo, los que mayor número tuvieron fueron los siguientes: El i10 con 33; el j15 con 30; el q4 con 29 y, finalmente, el k18, m12, g16, k10, g12, o14 y g8, todos con 28 asociaciones significativas.

D. La correlación ítem-total En el estudio de la correlación ítems-total como

parte integrante del estudio de la consistencia interna descubrimos, como se ilustra en la Tabla # 9 (ver anexo), que todos los ítems son significativos a un nivel de significación de 0.01. Es válido recalcar que con este procedimiento todas las intercorrelaciones fueron positivas, indicándonos que todos los ítems miden lo que la prueba persigue y que todos los ítems discriminan tanto entre los sujetos que tienen bajas como en los que poseen altas calificaciones. No obstante, los ítems que tienen una mayor correlación son: m12 (.6537), k10 (.6454), m16 (.6348), o14 (.6181), o10 (.6161), k18 (.6025), j15 (.5984), ¡10 (.5644), m8 (.5380), q12 (.5361) y, finalmente, ocupando el lugar decimoprimero el 0 6 con .5270.

Resumiendo esta parte vinculada con las diferentes formas en que hemos calculado el índice de discriminación, vemos que no hay un resultado único, idéntico para todos ellos, lo cual matiza o diferenciaría, sin dudas, las conclusiones a las que pudiéramos llegar si sólo abrazamos uno de ellos

Quizás, sea justo subrayar que una alternativa válida es la que hemos presentado dando a conocer los resultados utilizando cada uno de los diferentes

procedimientos y calculando el promedio alcanzado por todos ellos. Esta decisión fácilmente pudiera considerarse la menos adecuada para arribar a una respuesta determinada más la brindamos una "alternativa más" Ciertamente, consideramos que el mejor procedimiento debe ser aquel que se ajuste al propósito del investigador y reúna, en sí mismo, el aval científico adecuado.

También el lector puede apreciar, en las tablas referidas, aquellos ítems que menos valor asumen o discriminan, concorde al procedimiento usado.

E. El coeficiente de determinación En esta tabla (Tabla # 9) también puede

apreciarse el coeficiente de determinación (coeficiente de correlación al cuadrado) y el índice de indeterminación (1.000 — coeficiente de correlación).

Como puede verse los ítems con un mayor coeficiente de determinación son por tanto los mismos que los referidos con anterioridad como los de más alta correlación. Ellos son: El m12 (.4273), k10 (.4165) y m16 (.4030) y los de menor correlación. Ellos son: e6 (.0368), c4 (.0524) y a2 (.0543).

El coeficiente de indeterminación resulta pues lo contrario y es fácilmente apreciable en la Tabla # 9 comentada.

CONFIABILIDAD Son diversas las formas en que se puede indicar

con precisión la confiabilidad; por ejemplo, test y retest, formas alternas, las dos mitades y los de consistencia interna, casi todas ellas basadas, esto es asentadas, en la correlación. Nosotros optamos por utilizar el Realiability Analysis Scale (Alpha) que nos permite obtener las escalas para la media, la varianza, la correlación ítem-total y alpha para cada uno de los ítems, en caso de ser eliminados y el Coeficiente Alfa de Cronbach.

El Coeficiente Alfa de Cronbach resultó ser de 0.881, lo cual es aceptable. Asimismo, probando con la eliminación de un grupo numerosos de ellos apreciamos que el coeficiente Alfa mejora hasta 0.889 lo cual nos parece irrelevante teniendo en cuenta la magnitud del mismo.

Por otra parte, obtuvimos la calificación media para la escala, la cual ascendió a 21.6562, con una varianza de 57.0029 y una desviación estándar de 7.55 y, al aplicar el Análisis de Varianza, Anova, al conjunto de la escala, encontramos que no es significativa.

DISCUSIÓN La discusión de la consecuencia o resultados de

una prueba de cancelación de letras, tal y como ha sido concebida ésta, se distingue de los logros conseguidos en el análisis de la dificultad de los ítems en otras pruebas, en que en la prueba que estamos analizando no es, exactamente, la complejidad de la operación mental que se requiere

Page 6: ESTUDIO DE LA CONSISTENCIA INTERNA DE LA PRUEBA DE …

para contestar uno u otro ítems, sino más bien ia dificultad subjetiva u objetiva que conlleva la ubicación espacial del mismo, ya que el estímulo no cambia de forma sino de locación.

Si le pidiéramos al lector que nos diera la respuesta a cada uno de los ítems más abajo relacionados y nos señalara: ¿Cuál de ellos es el más fácil y cuál el más difícil?, probablemente, la inmensa mayoría nos indique que el primero es el más sencillo y que el 4to. el más difícil. Y si le preguntáramos: ¿Por qué?, nos respondería, muy probablemente, porque incluye procesos de razonamiento matemático mucho más complejos.

Ejercicio:

Complete la sucesión alfabética o numérica iniciada con la respuesta correspondiente:

1.A, D, G, J, 2 . 1 , 3, 6, 10, 3. 1, 0, - 1 , 0, 4 .3968, 63, 8, 3, Sin embargo, el explicar la diferencia entre uno u

otro de los ítems por nosotros empleado estaría bastante circunscrito, al menos, en un primer estudio, a la ubicación que ocupa el estímulo en la matriz que le hemos ofrecido y al estilo de respuesta

que adopte el sujeto conforme con su cultura y habilidades personales. Por esas razones, pensamos que el proceso de atención y ia capacidad y habilidad perceptual desenvuelven un papel muy importante y para lo cual se requieren otros tipos de distinciones que nos conduzcan con mayor certeza a poner de manifiesto estos elementos y que ya nosotros hemos elaborado y presentado en publicaciones anteriores y que estarán resumidas en un próximo número de esta propia revista.

La Tabla # 10 (ver anexo) ilustra la ubicación de cada uno de los estímulos que deben ser cancelados en el test.

CONCLUSIONES A. Evidentemente, el índice de dificultad nos

muestra con claridad la necesidad de emplear para la evaluación de la prueba normas propias para cada grado, edad e incluso sexo lo que tolerará una clasificación más adecuada de ios sujetos.

B. El índice de discriminación ejecutado a partir de diferentes criterios nos ratificó la confiabilidad de la prueba lo cual nos garantiza la base necesaria, indispensable para la interpretación de los resultados.

A N E X O S

T a b l a 1. D i s tr ibuc ión de la pob lac ión según la edad , el g r a d o y el sexo

Grado Tercero Cuarto Quinto Sexto Total

Sexo F M Total F M Total F M Total F M Total F M Total

8 años 36 36 72 36 36 72

9 años 12 15 27 35 51 86 47 66 113

10 años 5 9 14 52 33 85 57 42 99

11 años 12 9 21 48 45 93 60 54 114

12 años 7 8 15 7 8 15

Total 48 51 99 40 60 100 64 42 106 55 53 108 207 206 413

N 48 51 99 40 60 100 64 42 106 55 53 108 207 206 413

Media 8.250 8.294 8.273 9.125 9.150 9.140 10.188 10.214 10.198 11.127 11.151 11.139 9.783 9.670 9.726

Error Estándar Media 0.063 0.064 0.045 0.053 0.046 0.035 0.049 0.064 0.039 0.045 0.050 0.033 0.079 0.080 0.057

Desviación Estándar 0.438 0.460 0.448 0.335 0.360 0.349 0.393 0.415 0.400 0.336 0.361 0.347 1.143 1.155 1.149

Varianza 0.191 0.212 0 200 0.112 0.130 0.122 0.155 0.172 0.160 0.113 0.131 0.121 1.307 1.334 1.321

Curtosis -0.605 -1.181 -0.945 3.741 2.114 2.488 0.711 0.089 0.368 3.413 2.108 2.532 -1.048 -1.074 -1.084

Error Estándar Curtosis 0.674 0.656 0.481 0.733 0.608 0.478 0.590 0.717 0.465 0.634 0.644 0.461 0.337 0.337 0.240

Asimetría 1.192 0.931 1.036 2.357 2.011 2.107 1.640 1.445 1.537 2.300 2.007 2.118 -0.135 0.135 0.000

Error Estándar Asimetría 0.343 0.333 0.243 0.374 0.309 0 2 4 1 0.299 0.365 0.235 0.322 0.327 0.233 0.169 0.169 0.120

Mediana 8 8 8 9 9 9 10 10 10 11 11 11 10 10 10

Mínimo 8 8 8 9 9 9 10 10 10 11 11 11 8 8 8

Máximo 9 9 9 10 10 10 11 11 11 12 12 12 12 12 12

Rango 1 1 1 1 1 1 1 1 1 1 1 1 4 4 4

Page 7: ESTUDIO DE LA CONSISTENCIA INTERNA DE LA PRUEBA DE …

T a b l a 2. O r d e n a m i e n t o de los í tems s e g ú n su nivel d e dif icultad *

ítem Aciertos (1) % Nivel

a2 363 87.89

c8 342 82.81

a10 340 82.32

g4 340 82.32

e6 325 78.69

98 324 78.45

c12 320 77.48

e14 309 74.82

e10 308 74.58 Fáciles (17)

c4 303 73.37

¡2 298 72.15

c16 293 70.94

a18 290 70.22

921 267 64.65

k2 265 64.16

¡10 261 63.20

J5 261 63.20

C o n t i n u a c i ó n , Tab la 2 . O rdenamien to de

los ítems según su n ive l de d i f i cu l t ad *

Item Aciertos (1) % Nivel

g16 247 59.81

k10 241 58.35

m8 237 57.38

¡18 232 56.17

m4 232 56.17

k18 214 51.82

06 213 51.57

q4 208 50.36 Moderado

s (15)

J15 206 49.88

Moderado s (15)

s2 201 48.67

m12 198 47.94

010 196 47.46

q8 195 47.22

m16 182 44.07

S10 170 41.16

o14 154 37.29

q12 146 35.35 Difíciles

s18 133 32.20 (4)

q16 130 31.48

*De menor a mayor dificultad

Tabla 3 . Nivel de d ¡ficultad de cada ítem acorde con el g rado, sexo y edad Loca ción

Item 3ro 4to 5to 6to Total Varones Hembras 8 años

9 años

10 años

11 años

12 años

1 a2 f f f f f f f f f f f f 2 a10 f f f f f f f f f f f f 3 a18 f f f f f f f f f f f f 4 c4 m f f f f f f m f f f f

5 c8 f f f f f f f f f f f f 6 C12 f f f f f f f f f f. f f 7 c16 f f f f f f f f f f f f 8 e6 f f f f f f f f f f f f

9 e10 f f f f f f f f f f f 10 e14 f f f f f f f f f f f f 11 94 f f f f f f f f f f f f

12 ga f f f f f f f m f f f f 13 912 m m f f f m f m m f f f 14 g l 6 m m f f m f m m f f f 15 ¡2 m f f f f f f m f f f f 16 no m m f f f m f m m f f f 17 ¡18 m m f f m f m m f f f 18 Í5 m m f f f m f m m f f f 19 115 m d f m m d 20 k2 m m f f f m f m m f f f 21 k10 m m f f m m f m d f f f 22 k18 m m f m m m m m f f 23 m4 d m f f m m m d m f f f 24 m8 d m f f m m f d m f f f 25 m12 d d f m m m m d d f m f 26 m16 d d m m m d m d d m m f 27 06 d m f m m m m d m f m f

Page 8: ESTUDIO DE LA CONSISTENCIA INTERNA DE LA PRUEBA DE …

C o n t i n u a c i ó n Tabla 3. Nivel de d i f icu l tad de cada í tem acorde con el g rado, sexo y edad

28 010 d m f m m d m d d f m f

29 o14 d d m m d d m d d m d f

30 q4 d m f m m m m d m f m f

31 q8 d m m m m m m d m f m f

32 q12 d d m d d d d d d m d m

33 q16 d d d d d d d d d d d m

34 s2 d m m m m m m d m m m f

35 s10 d m m m m d m d d m d f

36 s18 d d m d d d d d d m d d

Item fáciles (f) 11 13 28 22 17 13 21 10 12 28 22 32

Item moderados (m)

11 16 7 11 15 16 12 12 14 7 9 3

Item difíciles (d) 14 7 1 3 4 7 3 14 10 1 5 1

Total general 36 36 36 36 36 36 36 36 36 36 36 36

T a b l a 4. í n d i c e de D i s c r i m i n a c i ó n (D) en la mues tra total de a c u e r d o

al m é t o d o de los g r u p o s e x t r e m o s

ítem Superior Medio Inferior Dificultad Discriminación PropS Propl ID

a2 108 92 89 289 19 0.97 0.80 0.17

a10 101 98 71 270 30 0.91 0.64 0.27

a18 98 76 59 233 39 0.88 0.53 0.35

c4 100 76 71 247 29 0.90 0.64 0.26

c8 102 92 76 270 26 0.92 0.68 0.23

c12 105 80 62 247 43 0.95 0.56 0.39

c16 96 69 65 230 31 0.86 0.59 0.28

e6 101 87 76 264 25 0.91 0.68 0.23

e10 99 83 55 237 44 0.89 0.50 0.40

e14 99 76 69 244 30 0.89 0.62 0.27

94 105 95 71 271 34 0.95 0.64 0.31

98 106 92 57 255 49 0.95 0.51 0.44

921 103 70 35 208 68 0.93 0.32 0.61

g16 96 63 32 191 64 0.86 0.29 0.58

i2 101 80 51 232 50 0.91 0.46 0.45

¡10 102 74 22 198 80 0.92 0.20 0.72

¡18 93 59 21 173 72 0.84 0.19 0.65

¡5 96 71 34 201 62 0.86 0.31 0.56

¡15 93 44 12 149 81 0.84 0.11 0.73

k2 96 62 36 194 60 0.86 0.32 0.54

k10 103 51 18 172 85 0.93 0.16 0.77

k18 95 38 18 151 77 0.86 0.16 0.69

m4 102 42 31 175 71 0.92 0.28 0.64

m8 102 49 28 179 74 0.92 0.25 0.67

m12 35 9 54 98 -19 0.32 0.49 -0.17

m16 97 23 12 132 85 0.87 0.11 0.77

06 100 44 25 169 75 0.90 0.23 0.68

o10 99 42 11 152 88 0.89 0.10 0.79

o14 94 20 10 124 84 0.85 0.09 0.76

q4 97 42 33 172 64 0.87 0.30 0.58

q8 94 39 25 158 69 0.85 0.23 0.62

q12 82 21 11 114 71 0.74 0.10 0.64

q16 73 23 12 108 61 0.66 0.11 0.55

s2 83 40 39 162 44 0.75 0.35 0.40

s10 80 36 16 132 64 0.72 0.14 0.58

S18 76 19 15 110 61 0.68 0.14 0.55

PropS = Proporción superior; Propl = Proporción inferior; I D = Índice de discriminación

Page 9: ESTUDIO DE LA CONSISTENCIA INTERNA DE LA PRUEBA DE …

T a b l a # 5. Nivel de d i s c r i m i n a c i ó n de los í tems , de a c u e r d o al m é t o d o de los g r u p o s e x t r e m o s

Entre -1 y 0.40* Entre 0.40 y 0 . 6 0 " Entre 0.61 y 1.00*

ID Item ID Item ID Item

-0.17 m12 0.40 e10 0.61 921

0.17 a2 0.40 s2 0.62 q8

0.23 e6 0.44 98 0.64 m4

0.23 c8 0.45 ¡2 0.64 q12

0.26 c4 0.54 k2 0.65 118

0.27 a10 0.55 q16 0.67 m8

0.27 e14 0.55 s18 0.68 06

0.28 c16 0.56 J5 0.69 k18

0.31 94 0.58 q4 0.72 M0

0.35 a18 0.58 S10 0.73 J15

0.39 c12 0.58 g l 6 0.76 o14

ID = índice de Discriminación Nivel de discriminación: *Bajo ** Alto

0.77 k10 ID = índice de Discriminación Nivel de discriminación: *Bajo ** Alto 0.77 m16 ID = índice de Discriminación Nivel de discriminación: *Bajo ** Alto

0.79 o10

T a b l a 6. í t e m s ó p t i m o s según el índice de d i s c r i m i n a c i ó n a c o r d e con A n a s t a s i , 1968 .

1 2 3 4 5 6 7 8 '9 10. 11 12 13 14 15 16 17 18 19

A

B

C

D

E e10

F

G 98 g16

H

1 i2

1 5 .

K k2

L

M

N

O

P

Q q4 q16

R

S s2 s10 s18

T a b l a 7. N ú m e r o total de d i s c r i m i n a c i o n e s y su o r d e n a c o r d e con el g r a d o

Locación Item nd(3ro) ond(3ro) nd(4to) ond4 nd(5to) ond5 nd(6to) ond6 nd(total) ondt

1 a2 1694 36 1344 36 600 36 612 36 18150 36

2 a10 1800 33.5 1771 34.5 960 33 1472 30 24820 3 3 5

3 a18 2108 20.5 2331 21 2233 16.5 2132 25 35670 24

Page 10: ESTUDIO DE LA CONSISTENCIA INTERNA DE LA PRUEBA DE …

Continuación Tab la 7. N ú m e r o to ta l de d iscr iminac iones y su orden acorde con el g rado

4 C4 2378 10 2176 25.5 1848 25 1395 31.5 33330 27

5 c8 1748 35 1824 32.5 1045 31.5 1235 33.5 24282 35

6 c12 1800 33.5 2275 22.5 1209 30 1827 26 29760 30

7 c16 1944 30.5 2379 18.5 2080 20 2240 23.5 35160 25

8 e6 2240 17 1924 30.5 1288 29 1235 33.5 28600 32

9 e10 2108 20.5 2400 16 1440 28 1620 29 32340 28

10 e14 1944 30.5 2275 22 5 1848 25 1760 27 32136 29

11 g4 2030 24.5 1771 34.5 873 34 1152 35 24820 33.5

12 98 2294 14.5 2100 27.5 693 35 1395 31.5 28836 31

13 912 2420 7 2475 8.5 1909 23 2516 18 38982 20.5

14 g i 6 2430 6 2499 1.5 2448 12.5 2291 22 41002 15

15 i2 2438 4 2379 18.5 1045 31.5 1691 28 34270 26

16 i10 2430 5 2491 4.5 2080 20 2240 23.5 39672 17.5

17 ¡18 2444 3 2400 16 2325 15 2660 15 41992 10.5

18 ¡5 2448 2 2499 1.5 1968 22 2387 20 39672 17.5

19 ¡15 2408 8.5 2176 25.5 2448 12.5 2891 7 42642 1

20 k2 2408 8.5 2436 12.5 1720 27 2340 21 39220 19

21 k10 2450 1 2436 12.5 2184 18 2627 17 41452 13

22 k18 2360 11 2400 16 2233 16.5 2907 4 42586 5

23 m4 2294 14.5 2475 8.5 2080 20 2660 15 41992 10.5

24 m8 2294 14.5 2496 3 1848 25 2720 13 41712 12

Locación Item nd(3ro) ond(3ro) nd(4to) ond4 nd(5to) ond5 nd(6to) ond6 nd(total) ondt

25 m12 2070 22.5 2356 20 2485 11 2891 7 42570 6

26 m16 1988 27 2244 24 2709 6.5 2907 4 42042 9

27 06 2294 14.5 2451 11 2520 10 2835 10 42600 4

28 o10 2030 24.5 2419 14 2409 14 2915 1.5 42532 7

29 o14 1988 27 1924 30.5 2800 1 2816 11 39886 16

30 q4 2318 12 2484 6 2688 8 2880 9 42640 2

31 q8 2210 18 2475 8.5 2745 5 2915 1.5 42510 8

32 q12 2070 22.5 2016 29 2760 4 2772 12 38982 20.5

33 q16 1988 27 1824 32.5 2640 9 2660 15 36790 23

34 s2 2144 19 2491 4.5 2773 3 2907 4 42612 3

35 s10 1944 30.5 2475 8.5 2793 2 2891 7 41310 14

36 s18 1944 30.5 2100 27.5 2709 6.5 2475 19 37240 22

I Leyenda: nd=Número de discriminaciones ond=Orden descendente del número de discriminaciones

Tabla 8, al final del Articulo, por ajustes en la edición

T a b l a 9 . C o r r e l a c i ó n í tem-tota l , nivel de s igni f icac ión , coef ic iente de d e t e r m i n a c i ó n e índice

de i n d e t e r m i n a c i ó n

ítems Orden* Correlación ítem-total

Nivel de significación

Coeficiente de determinación

índice de indeterminación

a2 1 0.2331 ** 0.01 0.0543 0.9457 a10 3 0.2516 ** 0.01 0.0633 0.9367

a18 13 0.3024 ** 0.01 0.0915 0.9085 c4 10 0.2289 ** 0.01 0.0524 0.9476

c8 2 0.2456 ** 0.01 0.0603 0.9397 c12 7 0.3728 ** 0.01 0.1390 0.8610 c16 12 0.2664 ** 0.01 0.0710 0.9290 e6 5 0.1919 ** 0.01 0.0368 0.9632

e10 9 0.3524 ** 0.01 0.1242 0.8758

Page 11: ESTUDIO DE LA CONSISTENCIA INTERNA DE LA PRUEBA DE …

Continuación Tabla 9. Corre lac ión í tem-tota l , nivel de s ign i f i cac ión , coef ic iente

de d e t e r m i n a c i ó n e índice de i n d e t e r m i n a c i ó n

e14 8 0.2672 ** 0.01 0.0714 0.9286 4 4 0.3038 ** 0.01 0.0923 0.9077

98 6 0.3978 ** 0.01 0.1582 0.8418 g21 14 0.4935 ** 0.01 0.2436 0.7564 g16 18 0.4564 ** 0.01 0.2083 0.7917 ¡2 11 0.3771 ** 0.01 0.1422 0.8578

¡10 16 0.5644 ** 0.01 0.3186 0.6814 ¡18 21 0.5176 ** 0.01 0.2679 0.7321

¡5 17 0.4566 ** 0.01 0.2084 0.7916 ¡15 2.6 0.5984 ** 0.01 0.3581 0.6419 k2 15 0.4862 ** 0.01 0.2364 0.7636 k10 19 0.6454 ** 0.01 0.4165 0.5835 k18 23 0.6025 ** 0.01 0.3630 0.6370 m4 22 0.5266 ** 0.01 0.2773 0.7227 m8 20 0.5438 ** 0.01 0.2957 0.7043 m12 28 0.6537 ** 0.01 0.4273 0.5727 m16 31 0.6348 ** 0.01 0.4030 0.5970 06 24 0.5270 ** 0.01 0.2777 0.7223

o10 29 0.6169 " 0.01 0.3806 0.6194 o14 33 0.6181 ** 0.01 0.3821 0.6179

q4 25 0.4518 ** 0.01 0.2041 0.7959

q8 30 0.4753 ** 0.01 0.2259 0.7741 q12 34 0.5361 " 0.01 0.2874 0.7126 q16 36 0.4879 ** 0.01 0.2380 0.7620 s2 27 0.3232 ** 0.01 0.1045 0.8955 s10 32 0.4746 ** 0.01 0.2253 0.7747 s18 35 0.4698 ** 0.01 0.2208 0.7792

*De menor a mayor dificultad

T a b l a 10. D i s t r ibuc ión y n o m i n a c i ó n de las letras " P " por c u a d r a n t e s

1 2 3 4 5 6 7 8 9 11 12 13 14 15 16 17 18 19

A a2 a10 a18

B

C c4 c8 c12 c16

D

E e6 e10 e14

F

G 94 98 912 g i 6

H

1 ¡2 ¡10 ¡18

J J15

K k2 k18

L

M m4 m8 m12 m16

N

O 06 010 o14

P

Q q4 q8 q12 q16

R

S s2 s lO s18

Page 12: ESTUDIO DE LA CONSISTENCIA INTERNA DE LA PRUEBA DE …
Page 13: ESTUDIO DE LA CONSISTENCIA INTERNA DE LA PRUEBA DE …

REFERENCIAS

Anastasi, A. (1968): Tests Ps ico lóg icos . Aguilar, México.

Barbero García, M.l. y García-Cueto E. (1987): Psicometr ía

prob lemas. Universidad Nacional de Educación a distancia.

Madrid. Garrett, H E . (1974): Estadíst ica en Ps ico logía y Educac ión .

Editorial Paidos. Buenos Aires.

Hopkins, K.D., Stanley J.C. and Hopkins B R . (1990): Educat iona l and psycho log ica l measurement and evaluation.Prentice Hall, Englewood Cliffs, New Jersey

Lienert, S.A. (1990) : Cons t rucc ión y Aná l i s i s de los Test. Tomo IV. MES; Cuba.

Santiesteban Requena, C.(1990): Ps icometr ía . Teoría y práct ica en la cons t rucc ión de tests. Ediciones Norma S.A Madrid.