DISEÑO DE CUESTIONARIOS DE CONTEXTO PARA LA EVALUACIÓN DE ... · Componentes para el diseño de...

Introducción

Las evaluaciones de sistemas educativos, sean lasque se realizan en cada país o las que se desarro-llan a nivel internacional (como, por ejemplo, los

proyectos PISA, TIMSS, PIRLS…) se han conver-tido en una línea de investigación y análisis degran relieve, con amplia repercusión social y concapacidad de influencia en las políticas educati-vas a nivel local, nacional e internacional.

DISEÑO DE CUESTIONARIOS DE CONTEXTO PARA LA EVALUACIÓN DE SISTEMAS EDUCATIVOS:OPTIMIZACIÓN DE LA MEDIDA DE CONSTRUCTOSCOMPLEJOSContext questionnaire design for the evaluation of educationalsystems: optimization of complex constructs measurement

JESÚS M. JORNET, JOSÉ GONZÁLEZ SUCH Y Mª JESÚS PERALESUniversitat de València

En este artículo se realiza una revisión acerca de un posible modelo de diseño y desarrollo decuestionarios de contexto para la evaluación de sistemas educativos. Se revisan las fases genera-les, a la par que se identifica la posible composición de indicadores (simples y complejos) dedichos instrumentos. En el diseño de cuestionarios de contexto hay que considerar diversosaspectos, entre ellos son clave: a) la selección de variables e indicadores que se deben incluircomo parte del modelo y b) el modo en que se evalúan los indicadores complejos, es decir, aque-llos que son resultado de una escala o de la combinación de indicadores simples (representadospor un solo ítem). Para evaluar indicadores complejos (por ejemplo, clima social del aula) exis-ten escalas con buena validez de constructo; sin embargo, no pueden utilizarse completamente,al estar compuestas por un elevado número de ítems. En este último caso, incluimos un proce-dimiento que hemos desarrollado para diseñar micro-instrumentos que estén compuestos por losmejores ítems de la escala (es decir, los que mejor predicen la puntuación total, manteniendo laestructura dimensional de la escala). Estos micro-instrumentos deben ser capaces de representarindicadores complejos para que puedan ser incluidos en los cuestionarios de contexto. Se tratade un procedimiento de reducción de escalas, dirigido a identificar los elementos o ítems quemejor predicen la puntuación global de una escala, pero manteniendo su estructura teórica.

Palabras clave: Evaluación de sistemas educativos, Cuestionarios de contexto, Metodología dediseño y construcción de instrumentos, Indicadores educativos.

Bordón 64 (2), 2012, 89-110, ISSN: 0210-5934 • 89Fecha de recepción: 8-2-2012 • Fecha de aceptación: 7-3-2012

17149 Bordón 64-2 (F).qxd 19/6/12 13:04 Página 89

Los elementos considerados clave en estas eva-luaciones, sobre los que se han centrado los es-fuerzos técnicos y las discusiones políticas, hansido las pruebas estandarizadas de rendimien-to. Estas pruebas son las que permiten ofrecerinformación sobre los niveles de rendimientoen cada una de las áreas fundamentales de con-tenido para cada una de los países o regionesque participan en las evaluaciones.

La aplicación de estas pruebas de rendimientose acompaña de los llamados cuestionarios de con-texto. Son procedimientos de recogida de informa-ción sobre los sujetos, grupos y centros a los que seaplican las pruebas y en algunos casos sobre el pro-pio proceso de enseñanza aprendizaje. La informa-ción que aportan, analizada en paralelo con laspruebas de rendimiento, puede resultar de granutilidad para explicar los resultados obtenidos, y,por tanto, para sustentar las decisiones sobre polí-ticas educativas. Sin embargo, como señalábamosen De la Orden y Jornet (2012), existe un proble-ma fundamental que está en la base de la limitadautilidad de estos análisis: el diseño deficiente de losdenominados cuestionarios de contexto.

En los últimos años, los institutos y agencias deevaluación que realizan evaluaciones de sistemaseducativos han incrementado su interés y aten-ción por ajustar mejor este tipo de instrumentos.Sin embargo, dichos esfuerzos generalmente sehan basado en la identificación de los reactivosque mostraban asociaciones significativas paraexplicar el desempeño (Willms, 2006; Backhoffet al., 2008; Miranda, 2008; Murillo, 2009), apor-tando, sin duda, informaciones de gran valor. Noobstante, se ha priorizado el análisis empírico dela utilidad de los reactivos como indicadores defactores asociados al desempeño, sin realizar unaincidencia especial en las bases teóricas o racio-nalidad de elaboración de los cuestionarios comoinstrumento de medida.

En consecuencia, se han producido innovacio-nes, en ocasiones escasas y en cualquier casoparciales, que han mejorado el rol de este tipo deinstrumentos en el conjunto de la investigación

educativa en general y de los planes de evalua-ción en particular, pero que no han llegado asatisfacer las expectativas acerca de su utilidadglobal en las evaluaciones de sistemas. De estemodo, las mejoras han sido menores que losesfuerzos realizados. El hecho de apoyar lamejora principalmente sobre análisis estadísti-cos más potentes de la información disponible,normalmente de carácter causal y multinivel,aunque haya proporcionado indudables avan-ces probablemente no sea el único camino paramejorar el uso de la información evaluativa.

Desde nuestra perspectiva, y tal como se indicaen De la Orden y Jornet (2012), el incrementode la utilidad de este tipo de informacionesdebe apoyarse en un mejor diseño de los instru-mentos y elaborarlos con la atención que mere-cen: desde la descripción del modelo explicati-vo de referencia para dar respuesta al conceptode calidad que pretende evaluarse, pasando porla definición de los constructos implicados,hasta la selección de los indicadores que loshacen operativos en forma de medida.

En este trabajo presentamos una propuesta dediseño y desarrollo de cuestionarios de contex-to. El origen de esta línea de investigación sesitúa en el Proyecto Análisis de Variables deContexto: Diseño de cuestionarios de contextopara la evaluación de sistemas educativos (Pro-yecto AVACO, I+D+I, 2006-2008. Código SEJ2005-05 923 —financiado por el MICINN—),y que ha sido comprobado y validado en el Pro-yecto Modelos de Análisis de Variables de Con-texto (Proyecto M-AVACO, I+D+I. 2009-2012.Código EDU 2009-13485 —asimismo financia-do por el MICINN—)1. La propuesta incluyedos grandes conjuntos de acciones:

a) Proceso general de diseño y desarrollode los cuestionarios de contexto para laevaluación de sistemas educativos.

b) Optimización de la medida de construc-tos complejos para el diseño de micro-instrumentos que integrar en dichoscuestionarios.

Jesús M. Jornet, José González Such y Mª Jesús Perales

90 • Bordón 64 (2), 2012, 89-110


La presentación de la propuesta se estructuraen los dos ámbitos de trabajo señalados, con elfin de ofrecer una muestra global y a ser posi-ble coherente del tipo de procesos que puedendesarrollarse.

Componentes para el diseño decuestionarios de contexto para laevaluación de sistemas educativos

Cuando nos referimos a cuestionarios de con-texto, lo estamos haciendo en relación a un sis-tema de instrumentos que pueden ir dirigidosa diferentes fuentes. Es decir, no se trata de uninstrumento aislado, sino de varios que se diri-gen de forma integrada a recabar informacióna partir de diferentes audiencias o partes intere-sadas y/o implicadas en la evaluación y que solopuede ser recogida a partir de ellas.

Los cuestionarios de contexto tienen sentido enel marco de las evaluaciones de sistema, porquea partir de ellos se supone que puede abordar-se la explicación del rendimiento. Por tanto, enprimer lugar es necesario definir los elementosque definen la evaluación de sistema (fases 1 y 2)para después, de una forma coherente con estasdecisiones, diseñar los mencionados cuestiona-rios de contexto.

Fase 1. Definir el concepto de calidad por evaluar

El diseño de los cuestionarios de contexto estácondicionado por el sentido global de la evalua-ción de sistemas en que se enmarca. Así, el ele-mento inicial que debe orientar todo el procesoes la definición del concepto de calidad que sedesea comprobar. La calidad, como tal, es unconstructo teórico que debe ser definido comoorigen del diseño del plan de evaluación. En estesentido, en De la Orden y Jornet (2012) hacía-mos referencia a diferentes enfoques de este con-cepto. Cada enfoque orientará a seleccionar —opriorizar— diferentes tipos de información. Por

este motivo, es necesario basarse en un modelode referencia, de carácter sistémico —como,por ejemplo, el descrito por De la Orden (1997,2007)—, para identificar de manera adecuadaqué efectos se desean evaluar, el tipo de infor-maciones que se requieren y orientar de mane-ra precisa la planificación de la evaluación.

Asimismo, hay que tener en cuenta la utilidadque se persigue en la evaluación: a) si se tratade poder coadyuvar a la orientación de políticaseducativas o socio-educativas, a nivel de ma-cro-sistema, o b) si se trata de extraer informa-ción que sea útil para otros niveles de interven-ción, como por ejemplo, el diseño curricular,las instituciones escolares o la organizaciónescolar (Lukas y Santiago, 2004), los procesosde enseñanza-aprendizaje que hay que desarro-llar en las aulas o el papel de la comunidad y/o lasfamilias en el proceso educativo (Cardona, Pera-les y Gómez-Costa, 2009). Una evaluación quepueda dar información útil para todos los propó-sitos, con toda seguridad es un desiderátum si semantienen los modos de hacer evaluación de sis-temas que se dan en la actualidad. Los niveles deanálisis y de intervención, necesariamente dife-renciales, requieren de información asimismodiferencial2. Ello debe contemplarse inicialmenteen la definición del concepto de calidad a eva-luar, y el nivel de intervención en el que se debeimpactar con la evaluación. En definitiva se tratade responder a una doble cuestión: ¿para quéy a quién debe servir la información evaluativa?

De este modo, y en síntesis, entendemos que nopueden diseñarse de igual manera evaluacionesque pretendan comprobar un tipo de calidad uotro, ni que pretendan extraer información útilpara diferentes niveles de intervención (na-cionales o transnacionales; macro-analíticoso micro-analíticos; internos al sistema —institu-ciones educativas y/o aulas—, o externos al mis-mo —por ejemplo, el papel de las familias en elacompañamiento del proceso de aprendizaje desus hijos/as—). Por ello es muy importante con-siderar las necesidades de información que pue-dan tener, según el plan de evaluación diseñado,

Diseño de cuestionarios de contexto para la evaluación de sistemas educativos

Bordón 64 (2), 2012, 89-110 • 91


las diferentes partes involucradas en la evalua-ción. Ello ayuda a especificar las preguntas deevaluación a que debe responderse y orienta deforma más concreta la fase siguiente. La defini-ción precisa del plan de evaluación está en labase de la validez última que pueda exigirse almismo.

Fase 2. Definir los elementos del plan de evaluación

Definido el concepto de calidad que se deseaevaluar y los efectos en que se concreta3, enesta segunda fase se trata de hacerlos operativoscomo elementos susceptibles de medición/eva-luación. En este caso, nos referimos a determi-nar variables e indicadores que formarán partedel plan de evaluación y, en concreto, del siste-ma de cuestionarios de contexto, así como lasfuentes de recogida de información.

En primer lugar hay que tener en cuenta quedeben diferenciarse variables e indicadores. Lasvariables, como es obvio, hacen referencia a uni-dades de información que poseen variabilidad,mientras que consideramos indicadores a aque-llas variables cuya variación es concomitante demanera sistemática con el fenómeno global sobreel que se pretende informar, bien de manera indi-vidual, bien por su relación con otros indicado-res. Entre los indicadores, tal como puede obser-varse en la figura 1, diferenciamos entre:

- Indicadores simples: aquellos que estánrepresentados por un único reactivo.

- Indicadores complejos: aquellos que provie-nen de alguna combinación de varias infor-maciones, sean ratios o síntesis numéricasde un conjunto de variables y/o indicado-res, o resultados de una escala que mide unconstructo teórico complejo (como porejemplo, clima social del aula, auto-con-cepto, o metodología docente).

Para la selección de variables e indicadores, esnecesario tener cuenta los siguientes criterios:

a) Sobre la adecuación y el rol de la informa-ción en el plan de evaluación:

- Pertinencia y relevancia de la infor-mación respecto al objeto y finalidadde la evaluación

- Rol de la información dentro delplan de evaluación. Pueden identifi-carse dos vectores de clasificación:- Información descriptiva/explicati-

va, en función del uso final que sevaya a realizar de la información

- Tipología de información: contexto,entrada, proceso y producto (ver figu-ra 2 y De la Orden y Jornet, 2012).

b) Sobre la calidad de la información:

- La evaluabilidad hace referencia algrado en que la información que seva a recoger puede ser entendida entérminos de elementos observables—o inferibles a partir de comunica-ciones verbales— (al menos extraí-ble a partir de percepciones, opinio-nes, actitudes, intereses…).

- La interpretabilidad se refiere al gra-do en que pueda ser interpretada demanera clara, sea por procedimien-tos cuantitativos o cualitativos.

- Los criterios de bondad, que se refie-ren a la calidad métrica (o fáctica,relativa a su representatividad) conque los instrumentos o técnicas utili-zadas para recabar la informaciónofrecen garantías, como la fiabilidady la validez.

En segundo lugar, se trata de identificar cuálesson los mejores informantes —o las mejoresfuentes de información— para recabar la infor-mación requerida. En la figura 3 se presenta unposible esquema de decisión para la selecciónde fuentes o agentes de información. En la ta-bla 1 se muestra un resumen que estructura lainformación, según las fuentes desde las que seva a recoger.


92 • Bordón 64 (2), 2012, 89-110



Bordón 64 (2), 2012, 89-110 • 93

FIGURA 1. Esquematización del proceso general de diseño de cuestionarios de contexto

Investigaciónpedagogíadiferencial

Modelos de explicacióndel rendimiento

académico

Selección de variables e indicadores

Indicadores simples Un reactivo

Una escala

Necesidades/expectativasde información

de las audiencias

Informa InformaInforma

Estructura

Condiciones enque se

da la E/A

Entrada

¿quién? ¿quién? ¿quién? ¿quién?

Proceso

Seleccionar fuentes de información(mejor informante)

Contexto Producto

Sistema decuestionariosde contexto

Modo en quese da la E/A

Nivelesmediato

inmediato

Percepcionesresultadosde logro

Incluye Representados por

Indicadores complejos

Asignar rol a variables e indicadoresComponer

cuestionarios

Componercuestionarios

FIGURA 2. Rol de la información e instrumentos para recogerla

Cuestionarios de contexto

Pruebas estandarizadas de rendimiento

Información de producto:Rendimiento

Info

rmac

ión

de

con

text

o Información de entrada

Información de proceso


Los criterios que se pueden considerar para laselección de la fuente de información se sinte-tizan en los siguientes:

a) Objetividad. Es necesario asegurar que lainformación recogida proviene de lafuente o agente que tiene una mejorposición para aportarla. Las informacio-nes de entrada, proceso y contexto sonmás susceptibles de subjetividad, por loque cabe extremar las precaucionescuando seleccionamos la fuente o agen-te más adecuado. En muchas evaluacio-nes de sistemas educativos se incluyenen los cuestionarios de contexto infor-maciones que, cada vez con más fre-cuencia, pueden formar parte de bancosde información (por ejemplo, estudios osituación laboral de padres/madres, pue-den formar parte de los registros escola-res). Es posible, por tanto, extraerlas delos cuestionarios de contexto y no hace

falta preguntarles a los alumnos que enmuchos casos no disponen de la certezasuficiente acerca de los estudios queposeen sus progenitores o de su situa-ción laboral. Otro ejemplo que puedeaportarse en esta misma línea es el modoen que diseña la programación el profe-sorado. Normalmente se incluyen cues-tiones al respecto en los cuestionariosdirigidos a docentes, cuando sería másobjetiva la información que puede apor-tar un observador externo (por ejemplo,la inspección educativa), tras la observa-ción de las evidencias documentales quepueda aportar el profesorado acerca dela programación. Ejemplos como estospueden aportarse muchos. Por ello,entendemos que es necesario un esfuer-zo previo para orientar los sistemas decuestionarios estrictamente hacia lasinformaciones en las que cada agente seala mejor opción.


94 • Bordón 64 (2), 2012, 89-110

FIGURA 3. Esquema de decisión para la selección de fuentes y/o agentes de información

¿Quién puede aportar la información requerida de una manera másfiable y válida?

- Alumnos- Profesores- Equipos directivos- Inspección educativa- Familias…

¿Existe más de una posibilidad?

¿Es fiable y válida su información?

¿Existen problemas de acceso a los actores para recogerinformación?

¿El banco de datos está actualizado?¿Hacen falta permisos especiales para acceder?

¿Cuál es la más operativa?¿Es posible triangular fuentes?SÍ

Bancos de datos


b) Validación/ triangulación. En cualquiercaso, el proceso de enseñanza-aprendi-zaje —y en general la educación— seproduce en una relación dialéctica entrediversos actores (profesorado, alumna-do, equipos directivos, inspección edu-cativa, familias…). Por ello, es precisoidentificar las informaciones en las que,incluso habiendo un mejor informante,sea conveniente corroborar la informa-ción a partir de la aportada por otrosactores. Como principio general, asumi-mos que siempre que sea posible esnecesario verificar la información delfenómeno evaluado a partir de la concu-rrencia/divergencia de las informacionesaportadas por los diferentes agentesinvolucrados.

c) Nivel de análisis. Un aspecto primordialque no es frecuente considerar es el

nivel de análisis sobre el que se pretendetratar la información recogida (macro-ana-lítico vs. micro-analítico): alumnado y/oprofesorado, aula, escuela o institucióneducativa, zona geo-política o administra-tiva (estado o comunidad autónoma, pro-vincia, nación…). Esta identificación debeser coherente con el plan de evaluaciónglobal (objeto y finalidad) y coadyuva a de-terminar también las características de losinstrumentos de recogida de informaciónque se pretende utilizar, así como los aná-lisis que pueden ser pertinentes para sutratamiento. Las decisiones sobre el nivelde análisis pretendido se traducen en eldiseño (tamaño y estructuración) de lamuestra, pues en función del nivel sobre elque se pretenda dar información habráunos u otros requerimientos para su con-figuración (De la Orden y Jornet, 2012).


Bordón 64 (2), 2012, 89-110 • 95

TABLA 1. Ejemplo de tabla de estructuración de información

Síntesis de variables/indicadores y fuentes Fuentes de información

de información

Tipo de Indicadores Alumnos Profesores Director Observador Familias Otras

indicador externo fuentes

Entrada Características de alumnos X X X

Características de

los profesores X X

Sistema de selección

de alumnos X X

Infraestructura (aulas

teóricas, prácticas…) X X X X

Medios disponibles en

las aulas X X X

Proceso Actuación del profesorado

(aula) X X X

Actuación del profesorado

(tutorías) X X X

Metodología didáctica X X X

… … …

Producto … … …

Contexto … … …


En las evaluaciones de sistemas, por su caráctermuestral y por el tipo de instrumentos utiliza-dos, es difícil que se den las condiciones técni-cas necesarias para poder interpretar la infor-mación a nivel individual, en ocasiones inclusohay razones técnicas suficientes para que no seinterpreten a nivel de aula y escuela, y habitual-mente los niveles asumibles son los que podría-mos denominar macro-analíticos (como porejemplo, basados en variables demográficas: re-gión geo-política, variables de estratificación,como por ejemplo, las demográficas de clasifi-cación de colectivos o grupos —sexo, titulari-dad del centro, etc.—). Es fundamental que losanálisis que se realicen sean respetuosos conesto, y coherentes con el diseño del plan deevaluación y del muestreo, evitando ofreceruna información que, en realidad, el estudio nopermite dar con garantías, o que incluso ni selo haya propuesto como finalidad.

Fase 3. Diseñar los cuestionarios de contexto

En esta fase nos referimos de manera exclusiva aldiseño de los sistemas de cuestionarios de con-texto. Definido y concretado el plan de evalua-ción en las fases 1 y 2, se trata ahora de configu-rar los instrumentos específicos para cada uno delos colectivos implicados o fuentes (por ejemplo,alumnado, profesorado, equipos directivos…).Podemos identificar las siguientes etapas:

a) El punto de partida es la figura de estruc-turación de información para cada audien-cia o colectivo implicado en la evaluación,mostrada en la tabla 1, completándolo encada caso con el tipo de indicador (sim-ple/complejo). Leyendo esta figura porcolumnas, se identifica la síntesis de infor-mación que hay que recoger a partir decada uno de los colectivos o fuentes.

b) La batería de cuestionarios incluirá unopor fuente o colectivo. Cada uno de ellosintegrará, finalmente, los indicadoressimples (representados por un reactivo)y los complejos. Estos últimos estarán

representados por micro-instrumentosdesarrollados por el proceso de reduc-ción —u optimización de la medida—que describiremos en apartado 2 de estetrabajo.

La medida de los indicadores complejos se basaen escalas o instrumentos ya elaborados o quese elaboran ex profeso como escala originaldesde la que posteriormente se debe derivar elmicro-instrumento. Debe tenerse en cuentaque una debilidad importante de la investiga-ción psico-socio-educativa es que en muchasocasiones, bajo una misma denominación deun constructo, se derivan soluciones teóricas ymétricas muy diferenciadas. Por ejemplo, bajoel término clima social del aula, se encierrandiferentes concepciones que, si bien parten deun enfoque de medida común (basado en lapercepción de los sujetos), difieren en los com-ponentes teóricos que integran (por ejemplo:¿clima social y clima de aprendizaje formanparte del mismo constructo? ¿son constructosindependientes?...) (Ramos y Pérez-Carbonell,2008, 2009; Pérez-Carbonell, Ramos y López-González, 2009; López-González, Pérez-Carbo-nell y Ramos, 2011; Murillo y Hernández-Cas-tilla, 2011). Es frecuente encontrar en laliteratura cuestiones de este tipo. Por ello, si sepretende basar la medida en instrumentos yaelaborados (a partir de los cuales se derive elmicro-instrumento) hay que ser muy cautelo-so, extremando el análisis documental y el aná-lisis lógico del constructo que se evalúa (llevadoa cabo por un comité de expertos) y las solucio-nes métricas disponibles. Por otra parte, si seaborda el diseño de un instrumento capaz demedir determinado constructo es convenienterealizarlo con un enfoque diagnóstico, es decir,definiendo el constructo y el instrumento que lorepresente en toda su extensión, sin limitar pre-viamente la longitud del instrumento: hay quepriorizar la representación sustantiva, teórica, olo que es lo mismo la validez de constructo ycontenido (ver como ejemplos, González-Barbe-ra et al., 2009; Chiva y Moral, 2009; Gómez-Cos-ta y Cardona, 2009; Biencinto et al., 2009). En


96 • Bordón 64 (2), 2012, 89-110


cualquier caso, un instrumento que tenga unaadecuada validez de constructo (sea un instru-mento ya existente o creado ex profeso) será sinduda el mejor punto de partida para la identifi-cación de micro-instrumentos que puedan inte-grarse posteriormente como componentes mé-tricos de un cuestionario de contexto.

Fase 4. Validar el modelo

Una vez diseñada la batería de cuestionarios decontexto incluyendo los diferentes constructosy las diferentes fuentes es necesario validar elmodelo. En realidad, los cuestionarios de contex-to se han construido a modo de un plan integradoy coherente, que incluye los indicadores simples yotros más difíciles de conceptualizar —los indica-dores complejos, que miden un constructo conmicro instrumentos que son en realidad escalasreducidas— e integrando versiones diferencialesde los mismos en función del colectivo al que sedirigen (la batería de cuestionarios de contextoincluye, en realidad, tantos cuestionarios comocolectivos o fuentes vayan a ser consultados en laevaluación de sistema de que se trate: alumnado,profesorado, directores/as, familias…).

La validación de este sistema de recogida deinformación encuentra en las ecuaciones estruc-turales una metodología con el potencial de reco-ger la complejidad de niveles y tipos de informa-ción, para esclarecer el peso diferencial con quecontribuye a la explicación del desempeño edu-cativo cada uno de los indicadores pertenecientesal sistema de cuestionarios de contexto (Gonzá-lez-Montesinos y Backhoff, 2010).

Descripción del procedimiento R-AVACO4para la elaboración demicro-instrumentos: optimizaciónde la medida

Tradicionalmente, la identificación de los mejo-res predictores de una escala se ha apoyado en eluso de modelos de regresión, principalmente

de la regresión paso a paso. La dificultad queentraña este tipo de aplicación para el propósi-to que nos ocupa es que la selección de losmejores predictores de la puntuación total de laescala se realiza basándose únicamente en crite-rios de tipo estadístico (como, por ejemplo, la eli-minación de reactivos que por tener una elevadacorrelación con la puntuación total y a su vez conotros reactivos se entienden como informaciónredundante). Este tipo de selección, en múltiplesocasiones, puede conllevar una distorsión encuanto a la definición real del constructo que sepretende evaluar con la escala original y el quequeda representado en el micro-instrumento. Porello, el proceso que se presenta a continuaciónpretende ser una ayuda para la identificación demicro-instrumentos que mantengan su capaci-dad de representar el constructo original.

El objetivo principal de los estudios realizadosen los proyectos mencionados (AVACO yM-AVACO) ha sido identificar una estrategiametodológica que permitiera derivar micro-ins-trumentos de medida a partir de instrumentosdiseñados para medir/evaluar variables deentrada, proceso y contexto, utilizables en laelaboración de cuestionarios de contexto parala evaluación de sistemas educativos.

Como objetivos implicados tuvimos en cuenta:

• Definición de la estrategia metodológicade reducción de instrumentos a partir dela identificación de reactivos clave (losmejores predictores de las puntuacionestotales o dimensionales de instrumentosya desarrollados).

• Validación de la estrategia tomandocomo referencia ensayos piloto con dife-rentes variables usuales en la evaluaciónde sistemas educativos.

Así, el procedimiento que aquí presentamosestá dirigido a la identificación de los ítems oreactivos clave que permitan, para un construc-to dado y que pueda ser medido por una escaladeterminada, aportar información suficiente


Bordón 64 (2), 2012, 89-110 • 97


para orientar, al menos, una clasificación desujetos respecto al constructo, con un elevadogrado de fiabilidad y validez, similar a la que seproduciría con la totalidad de la escala.

Se trata pues, de seleccionar los elementos de laescala objeto de estudio que mejor permitanmantener las características métricas de la misma.Se pretende, de este modo, obtener un micro-ins-trumento que pueda ser considerado como partede un cuestionario de contexto.

Por ello, el procedimiento que hay que seguires básicamente técnico —estadístico/ psicomé-trico— y se aplica sobre la información recaba-da con una escala ya existente, que permitamedir o evaluar un constructo determinado.Por ejemplo, en este mismo número monográ-fico se presentan aplicaciones basadas en estapropuesta: López-González, Tourón y Tejedor(2012) y Joaristi, Lizasoain y Gamboa (2012).

Asumimos que el micro-instrumento obtenidono permitirá el diagnóstico individual —no eslo que se pretende—, aunque la escala origende la que parte evidentemente sí lo permitía.Asumimos esta premisa porque la finalidad dela evaluación en la que se integran estos cues-tionarios de contexto —la evaluación de siste-mas educativos—, no es el diagnóstico indivi-dual, sino el análisis meso o macro, como se haindicado anteriormente

La figura 4 recoge el procedimiento general deelaboración de micro-instrumentos.

Fase 0. Análisis de dimensionalidad de la escala

Para la medición de cada uno de los construc-tos identificados como indicadores complejosen el diseño de los cuestionarios de contextopartimos, como se ha indicado, de una escalaexistente y validada (cuando el análisis de conte-nido garantiza que se trata del mismo constructo)o de una escala diseñada y validada ex profeso.

Pre-existente o diseñada para esa finalidad, esta va aser la que denominamos en lo sucesivo escala origi-nal, o la versión 1, cuyo número de ítems es elnúmero original de la escala (N. orig. en la figura 4).

Para realizar el proceso de reducción de la esca-la original a un micro-instrumento partimos deun ensayo piloto: una aplicación de la escalaoriginal a un grupo similar al que será destina-tario final de la prueba, con cuyos datos se vaa trabajar.

La fase de análisis de dimensionalidad de laescala no forma parte del procedimiento dereducción propiamente dicho sino que se trata,como cuestión previa, de asegurarnos de que laescala original con la que vamos a trabajar fun-ciona de manera similar (unidimensional o mul-tidimensional) con el grupo con el que se hallevado a cabo el ensayo piloto para proceder alestudio de reducción a como funcionaba en losestudios ya realizados por los autores que ladiseñaron.

Como es sabido, el problema de análisis de ladimensionalidad es una cuestión recurrente,dada su complejidad. En el caso de escalas(sean de percepción, o de actitudes), habitual-mente se comprueba mediante análisis factorial—AF— (con diferentes soluciones para laextracción de factores y para la rotación). Sinembargo, generalmente, la métrica de las varia-bles no corresponde a la adecuada para este tipode análisis. Las escalas Likert de instrumentosque miden constructos de percepción (como porejemplo, clima social del aula, auto-conceptoacadémico, etc.) podríamos clasificarlas comoordinales-de intervalo; es decir, al menos se puedeasegurar la ordinalidad en la medida, si bien nopodemos asegurar que las unidades sean iguales,con lo que su identificación como medidas deintervalo queda comprometida.

Por ello, aunque en la tradición investigadora seha utilizado con profusión el AF para este propó-sito, en nuestro caso estimamos más oportunoproceder mediante análisis de conglomerados


98 • Bordón 64 (2), 2012, 89-110


jerárquicos, tomando como medida la distan-cia euclídea, que se ajusta mejor a la métricade las variables a analizar. Como método de

conglomeración, el tradicional método deWard, asumiendo distancia 5 para la identifica-ción de dimensiones. En cualquier caso, la


Bordón 64 (2), 2012, 89-110 • 99

FIGURA 4. Procedimiento R-AVACO para la elaboración de micro-instrumentos

OBJETIVO: MEDIR EL CONSTRUCTO «X» DENTRO DEL CUESTIONARIO DE CONTEXTO

RESULTADO FINAL: MICRO-INSTRUMENTO DEFINITIVO, QUE INTEGRAR EN EL CUESTIONARIO DE CONTEXTO

Seleccionar una escala ya validada

Escala Original (EO) para medir el constructo «x». Versión 1

ESTUDIO PILOTO

2. Decisiones sobre imputación

4. Estimación de la puntuación total de la versión reducida V3

Iteración 1

Iteración 2

Iteración n

Eliminación del ítem con menor información



Resultado: Micro-instrumento definitivo. Versión 4

5. Exploración de calidad de la versión reducida V3Objetivo: ordenar ítems según su calidad métrica

6. Reducción y validación final del micro-instrumento.Objetivo: reducción paulatina del instrumento,

manteniendo la calidad métrica

0. Análisis de dimensionalidad de la escalaObjetivo: comparar la dimensionalidad de la EO en el estudio piloto

Versión 1

Nº ítems = N orig

1. Explorar el comportamiento de los reactivos de la EOObjetivo: eliminar ítems anómalos (IA)Resultado: Escala revisada. Versión 2

Versión 2

Nº ítems = N orig – IA

3. Selección de reactivos por su contribución a la fiabilidad de la escala(según TCT)

Objetivo: eliminar ítems con escasa calidad métricaResultado: escala reducida. Versión 3

Versión 3

Nº ítems = N orig – IA – IsinQ

Versión 4. M.I.

Nº ítems = N orig – IA –

IsinQ – IsinInfo

Diseñar y validar una escala


asunción de distancia 5 es arbitraria, si bien laidea es intentar una clasificación de ítems enconglomerados combinando al mismo tiempoel criterio lógico-sustantivo (o teórico) con elcriterio estadístico (es decir, menor distanciare-escalada). Es probable que en cada construc-to haya que modular esa distancia, pudiendo sermenor o algo mayor. No obstante, lo recomen-dable es que sea menor.

Esta exploración nos permitirá comprobar silas dimensiones que se identifican correspon-den con las teóricas, descritas y comprobadaspara la escala original. En el caso en que se démás de una dimensión, el proceso se realizaríapara cada una de ellas, con el fin de mantenerla estructura sustantiva, teórica, de la escala talcomo fue diseñada.

Existe la alternativa de emplear las técnicasderivadas de la modelización Rasch para esta-blecer las propiedades de métricas de las esca-las identificadas en las fases previas de la reduc-ción (González-Montesinos, 2012). Siguiendoa este autor, se puede señalar que este tipo deprocedimientos es apropiado, particularmentepara escalas con reactivos de respuesta gradua-da (Likert). Disponemos de una serie de proce-dimientos desarrollados como extensiones delmodelo Rasch original. Estos procedimientosalternativos son: el Graded Response Model(GRM) (Samejina, 1969), el Rating Scale Model(RSM) (Andrich, 1978) y el Partial CreditModel (PCM) (Masters, 1982). Estas técnicastienen en común la ventaja de aportar elemen-tos para establecer la dimensionalidad de esca-las compuestas por reactivos politómicos(Likert) y, además, establecen las propiedadesmétricas de las categorías internas de los reacti-vos. Para ello se calibran las dificultades de losumbrales de paso entre cada categoría interna,de manera tal que se asegura que las respuestasa las partes bajas o altas de la estructura delos reactivos representan en efecto un menoro mayor grado de posesión del rasgo que sepretende medir con la escala (Embretson y Rei-se, 2000).

También está vigente la muy potente alternati-va de someter a prueba los modelos de medida delas escalas identificadas en la reducción a travésde procedimientos de análisis factorial confirma-torio (AFC), que forman parte de los modelos deecuaciones estructurales (SEM) (González-Mon-tesinos y Backhoff, 2010; Backhoff y González-Montesinos, 2012). De hecho, una combinaciónde procedimientos de escalamiento Rasch y con-firmación de modelos de medida a través de CFA-SEM es la alternativa ideal para las fases interme-dias y finales de consolidación de las escalas einstrumentos de contexto. Esta combinación detécnicas psicométricas para validación de escalasse ha empleado ya con mucho éxito en evaluacio-nes nacionales e internacionales de gran alcance,tanto para ítems de dominios cognitivos, actitudi-nales y de percepción (Schultz y Sibberns, 2004).

Fase 1. Explorar el comportamiento de los reactivos de la escala original

En la fase 1 se inicia un primer ciclo de reduc-ción de la escala original, basado en la elimina-ción de los ítems con un comportamiento menosadecuado (partiendo de que todos ellos fueronconsiderados adecuados en el estudio de valida-ción de la escala original, y por eso forman partede ella). Dado que el uso final del micro-instru-mento no será el diagnóstico individual, sino elanálisis meso y macro, dentro de instrumentos decontexto integrados en evaluaciones de sistema,el objetivo es ir reduciendo el instrumento, dismi-nuyendo paulatinamente el número de ítems, eli-minando aquellos que tengan un comportamien-to menos claro o aporten menor información.

La exploración debe constituir el primer paso detodo el proceso, de forma que la primera reduc-ción de datos se realice a partir de la misma.

a) El objetivo de esta fase es eliminar aquellosreactivos que tienen comportamientosanómalos (ítems anómalos, IA), tales co-mo, los que presentan:- Ausencia total de varianza.


100 • Bordón 64 (2), 2012, 89-110


- Escasa variabilidad. Tomamos, eneste caso, como criterio de decisiónque se eliminarían aquellos elemen-tos que tengan más del 80% en unextremo de la escala (por ejemplo, sitrabajamos con una escala Likert de4 puntos, en valoraciones 1-2, o bien,3-4), lo que sería concurrente conasimetrías muy marcadas.

- Existencia de un porcentaje excesivode casos extremos (outliers). Comocriterio entendemos que este nodebería exceder del 5%.

b) El procedimiento se basa en una explo-ración de datos (fundamentalmente enprocesos gráficos y la distribución de fre-cuencias de la escala4). Se trata, pues, deanalizar las formas de la distribución, demanera que aquellos elementos que ten-gan una distribución atípica se eliminan.

Con la aplicación de estos criterios, se eliminaun número N de ítems, aquellos consideradosanómalos. Tenemos la versión 2 del instrumen-to, cuyo número de ítems será el N original dela escala menos los considerados ítems anóma-los (Nº ítems = N. orig – IA).

El análisis de datos exploratorio (exploratorydata análisis o EDA) fue originalmente propues-to por J. W. Tukey (1977) y proporciona todoslos elementos necesarios para lograr la primerareducción de reactivos. Los procedimientos EDAcorresponden a una aplicación completa de ele-mentos clave de la estadística descriptiva (fre-cuencias, medias, desviaciones típicas y gráficos)y viene implementado en la mayoría de lospaquetes estadísticos comúnmente disponibles.

Fase 2. Valores perdidos y decisiones sobreimputación

El procedimiento continúa con un análisis devalores perdidos para comprobar la hipótesis dealeatoriedad. En términos generales, se puede

afirmar que a menor número de valores perdi-dos la escala es factible. Se trata de comprobarque la presencia de valores perdidos es aleato-ria y no responde a un patrón sistemático de norespuesta. Por ello, aunque no existe un crite-rio prefijado al que podamos aludir como refe-rencia para la toma de decisiones, estimamosque cualquier ítem con una presencia de valo-res perdidos superior al 30% puede conteneralgún problema de formulación importante,o bien, abordar un contenido no adecuado parael grupo al que se dirige el instrumento, por loque sería conveniente su eliminación. En casode que el número de casos perdidos sea míni-mo y no se mantenga un patrón sistemático, sepueden asumir dichos casos como mortalidadexperimental y eliminarlos del grupo sobre elque se realiza el estudio, o bien pensar en algúnprocedimiento robusto o de recorte como, porejemplo, la media recortada (trimmed mean).

En caso de que exista un número considerablede valores perdidos (pero siempre inferior al30%), se analizan otras opciones, como la im-putación o la interpolación, para recuperar esoscasos.

La imputación es un proceso habitual cuandose trata de trabajar con escalas de opinión,actitudes, etc. El motivo fundamental reside enque en este tipo de instrumentos suelen darsebastantes reactivos omitidos, de forma que lossujetos, cuando no tienen formada una res-puesta, prefieren dejar en blanco, no contestan-do el elemento. El efecto sobre los análisis esmuy negativo, pues en todas aquellas aproxi-maciones en que se requiera que los registrosindividuales estén completos se elimina el re-gistro en su totalidad, aunque sea tan solo unítem el que está en blanco. Obviamente, si setrata de análisis en los que se relacionan varia-bles, la eliminación de casos se incrementa,pues se requiere que todos los casos tengan res-puesta en las variables que se analizan (así, porejemplo, si se trata de una correlación bivaria-da, debe haber respuesta en las dos variables;en caso contrario, todos los registros que no


Bordón 64 (2), 2012, 89-110 • 101


tengan respuesta en ambas variables se elimi-nan). Todo esto puede implicar un grave proce-so de reducción de la muestra.

Respecto a las soluciones de imputación, pasansobre todo por imputar o interpolar. Existendiversos procedimientos que pueden aplicarseen función de la métrica de las variables, lascaracterísticas de la distribución de las mismas,el tipo de muestreo, la cantidad de casos perdi-dos y las relaciones que pueden establecerseentre las variables que se deben imputar conotras variables a partir de las cuales se puedareducir la incertidumbre (Särndal, Swenssony Wretman, 1991; Muñoz y Álvarez, 2009).

En nuestro caso, hemos optado por un procesosimple de imputación: la sustitución del casoperdido por la mediana del ítem —en el caso devariables en las que al menos se pueda asegurarla ordinalidad, pero no más allá—, o por lamoda —en el caso de variables nominales—,considerando todas las respuestas existentes.Así, el proceso de imputación que hemos selec-cionado tiene las siguientes características:

I. El objetivo en este caso es mantener eltamaño de la muestra. Por lo que siem-pre que se haya cumplido el criterioseñalado en la fase anterior, mantendría-mos los sujetos imputando los valoresperdidos.

II. En cuanto al procedimiento, en nuestrocaso, procedemos por la sustitución devalores perdidos por la mediana (consi-derando todas las respuestas al ítem). Sise trata de variables nominales, la op-ción es la moda.

Adicionalmente al proceso de imputación pro-piamente dicho, estimamos que se requiere unavalidación del proceso de imputación, de formaque se estime si esta ha producido diferenciasentre la distribución de los datos originales y laserie ya imputada. El problema metodológicoaquí no es menor; de hecho buena parte de losprocedimientos para analizar la relación entre

ambas series no es aplicable, dado que elimina-ría los sujetos que contuvieran valores perdidosen la variable original. Por ejemplo, una correla-ción entre ambas series, que sería lógicamente unindicador de referencia, no es aplicable. Siemprenos ofrecería como resultado +1 dado que, endefinitiva, se acabarían correlacionando las dosseries únicamente con los sujetos completos.

La prueba T de Wilcoxon, para muestras rela-cionadas puede constituir un apoyo simple decorroboración de la imputación, dirigido a con-trastar si los rangos de ambas series de la varia-ble al menos se mantienen sin distorsionesdebidas la imputación6.

Fase 3. Selección de reactivos a partir de su contribución a la fiabilidad de la escala

La tercera fase del procedimiento se dirige a laselección de reactivos que puedan formar partedel micro-instrumento, según su calidad métri-ca. Así, partimos desde la teoría clásica de cons-trucción de tests (TCT) de un análisis de fiabi-lidad, basado en el modelo alfa de Cronbach(1951). Los objetivos de esta fase son:

• Seleccionar los elementos que mejor serelacionan con el puntaje total del cues-tionario.

• Eliminar elementos redundantes (opti-mizar información).

Para proceder a la selección de ítems, se tomandel análisis los siguientes criterios de formasecuencial:

• En primer lugar, eliminar los elementosque presenten en el indicador «alfa si seelimina el elemento» un incremento de lafiabilidad.

• A continuación, eliminar los elementosutilizando el índice de homogeneidadcorregido: rit-i ≤ 0.30.

• Finalmente, eliminar los elementos que,presentando en la matriz de correlaciones


102 • Bordón 64 (2), 2012, 89-110


entre los ítems (preferiblemente utilizando lamedida de correlación de Spearman, dadoque al menos podemos asegurar la ordina-lidad, pero no más allá) una correlación conotro elemento rxy ≥ 0.50, a su vez, tenganpeor índice de homogeneidad corregido.No obstante, este criterio se aplicará revisan-do el contenido de los ítems, de forma queaquellos que claramente midan aspectosdiferentes del constructo y sean característi-cos de diferentes dimensiones se manten-drán, aunque se cumpla el criterio numérico.

En este caso, se eliminan los ítems que no satis-fagan alguno de los criterios mencionados:aquellos que tengan una menor calidad métrica(IsinQ, en la figura 4). Concluida esta fase, sedispone de la versión 3, que estará compuestapor los reactivos seleccionados como ítems-cla-ve de la escala objeto de estudio. Su número deítems, por tanto, será el N de la escala original,menos los ítems considerados anómalos en lafase 1 (IA) y los ítems considerados con menoscalidad métrica en la fase 3 (IsinQ).

Fase 4. Estimación del puntaje total de la versión reducida

Se estima como la suma total de puntuacionesa los ítems. Si bien no tiene un uso directo parala selección inicial de ítems con la versiónreducida, se utiliza como referente del nuevoinstrumento. Es necesaria para el proceso devalidación final del micro-instrumento.

Fase 5. Exploraciones de la calidad de la versión reducida

Para concluir el proceso de selección de elementosy, en consecuencia, ajustar la versión reducidafinal, se realizan diversas exploraciones a partir delas cuales conformamos la decisión final.

En primer lugar, se analiza la versión 3 del ins-trumento a partir del modelo alfa de Cronbach.

Con ello, disponemos del indicador de fiabili-dad global para poder así corroborar el tamañode la pérdida en fiabilidad desde la escala origi-nal. El criterio en este caso es obvio: a mayorvalor en el coeficiente alfa, mejor. No obstante,hay que tener en cuenta el punto de partida dealfa en la escala original y tomamos como criterioglobal que la pérdida en fiabilidad sea ≤10%,siempre y cuando se mantenga en valores altos.

Tras esta comprobación global de la escala, queofrece además la puntuación alfa de referencia, ini-ciamos la exploración de los ítems de la versión 3.Estas exploraciones, que nos van a permitir unanueva selección de ítems, se realizan sobre la ver-sión ya reducida del instrumento (versión 3), y seapoyan en los siguientes indicadores:

• Se identifican grupos extremos (27% su-perior e inferior) a partir de la puntuacióntotal de la versión reducida (versión 3).Posteriormente, se contrasta la media decada ítem entre ambos grupos, mediantela prueba t de Student. En el caso en quelas pruebas t no fueran significativas(hecho que puede resultar extraño dadoel proceso de reducción anterior), se utili-zarían para seleccionar ítems, de formaque estos serían eliminados. Se trataría,pues, de una segunda depuración. Ello nospermite utilizar la discriminación de cadaítem como criterio de ordenación de losmismos, de forma que constituye el pri-mer indicador para la confirmación de laversión reducida (versión 3).

• Asimismo, se analizan los ítems conside-rando la pérdida en el coeficiente de fia-bilidad si se elimina el ítem. Como encasos anteriores, siempre y cuando se ob-serve un incremento en el coeficiente alfaal eliminar el ítem, este debe ser elimina-do. En cualquier caso, como criterio, nospermite ordenar los ítems en función delas aportaciones a la fiabilidad total de laversión reducida (versión 3).

• El tercer indicador para cada reactivo seránuevamente el índice de homogeneidad


Bordón 64 (2), 2012, 89-110 • 103


corregido, si bien en esta ocasión se estimapara el ítem en el micro-instrumento. Seentiende que a mayor intensidad de rit-i,positivo, el ítem muestra un mejor compor-tamiento como representación del puntajeglobal de la versión reducida (versión 3).

• El cuarto indicador es el valor Tij (suma delas covarianzas de cada ítem con todos losdemás). Se puede entender como un indi-cador complementario al anterior. Así, elTij puede entenderse como la contribuciónque un ítem determinado realiza al conjun-to de la variabilidad de la puntuación totaldel micro-instrumento considerando surelación con el conjunto de reactivos que locomponen. Recuérdese que:

σt2= Σσi

2 + 2σijDonde:

σt2: Varianza de la puntuación total en el mi-

cro-instrumentoΣσi

2: Sumatorio de las varianzas de los ítemsσij: Sumatorio de las covarianzas entre losítems, es decir: σij= Σ Tij

La selección cuantitativa final de ítems se fun-damentará, además de en el proceso de valida-ción que describiremos a continuación, en laordenación de los ítems en función de estoscuatro indicadores. De esta forma, los resulta-dos se trasladan a una hoja de cálculo y en ellase establecen los rangos con cada indicador,así como el rango promedio. Estos resultadosserán un elemento de referencia para el proce-so iterativo de validación posterior. Con todolo anterior, dispondremos de la información decalidad de la versión de instrumento reducidodisponible para el proceso de validación.

Fase 6. Reducción final y validación final del micro instrumento

Se inicia aquí una segunda etapa de reducción.Partiendo de la versión reducida (versión 3)y tomando como criterio la ordenación de ítems

por calidad métrica resultante de la fase 5, en estaetapa se reduce paulatinamente el instrumento enun ítem para proceder paralelamente a su valida-ción en un proceso iterativo en el que se va com-probando la calidad global de la información queofrece el instrumento reducido en tres niveles:

1. Uso de la puntuación total.2. Calidad del instrumento para clasificar

tipologías de centros, aulas o alumnos.3. Mantenimiento de las características

sustantivas (teóricas y de calidad métri-ca) del instrumento.

Así, tenemos:

• Objetivos: comprobar si la puntuaciónglobal de ambas versiones (la versión 3,y con un ítem menos) es equivalente, y sila clasificación de sujetos, aulas y/o, cen-tros que producen ambas versiones delcuestionario son equivalentes.

• Procedimiento de validación: en este caso,se entiende que el proceso de validaciónse dirige a corroborar si el micro-instru-mento permite clasificaciones similaresa las que se pudieran establecer con laescala original. Teniendo como referen-cia la información de la fase 5 acerca dela versión reducida (versión 3), secomienza el proceso de iteraciones, conel número de ítems seleccionado. Paracada iteración, se tiene en cuenta:

- Correlación de Pearson entre lostotales de ambas versiones.

- Clasificación de los sujetos a partirdel puntaje total en tres niveles (alto,medio y bajo) tomando como refe-rencia los grupos extremos (27%superior e inferior).

- Comparación de ambas clasificacio-nes mediante Ji-cuadrado entre esca-la original vs. micro-instrumento.

- Comparación de la clasificación de cen-tros (aulas y/o sujetos) que producenambos instrumentos (escala original vs.


104 • Bordón 64 (2), 2012, 89-110


micro-instrumento). Así, se observamediante Ji-cuadrado si las clasificacio-nes de las diferentes unidades muestra-les (centros o aulas) son equivalentes.Como criterio para representar al ins-trumento reducido tomaremos el por-centaje de unidades en que se produzcauna clasificación concurrente entreambas versiones del instrumento.

- Criterio teórico sustantivo. Asimismo,se tendrá en cuenta si están representa-das en el instrumento reducido todaslas dimensiones identificadas medianteel análisis de dimensionalidad inicial almenos por un ítem. O, cuanto menos,si estos pertenecen mayoritariamente ala dimensión más general y no se pro-duce pérdida de información teóricasustancial que distorsione la cualidaddel constructo que se evalúa.

Las siguientes iteraciones se establecerán dis-minuyendo un ítem en cada una de ellas, utili-zando como referencia la ordenación de ítemsestimada en la fase 5.

El criterio de detención de las iteraciones sevincula con la calidad métrica de la reducción.Se detendrán las iteraciones cuando se produz-ca alguna de las siguientes situaciones en loscriterios mencionados:

a) La disminución de la correlación entrelas versiones por debajo de 0.90.

b) Cuando no se produzca una coherenciaentre las clasificaciones de ambas versio-nes entre las clasificaciones producidasentre los totales de ambas versiones (cri-terio 2 y 3).

c) Cuando se den coincidencias entre lasclasificaciones estimadas por unidadesmuestrales, inferiores al 70% (criterio 5).

d) Cuando no se cumpla el criterio 5, ha-biendo eliminado ítems redundantes.

De esta forma, se replica el procedimiento contodas las variaciones posibles de elementos. La

solución más válida será la que cumpla lossiguientes criterios:

• Eficacia: maximizar la correlación de Pear-son entre puntajes totales de la escalaoriginal y del micro-instrumento y ma-ximizar la coherencia entre las clasifica-ciones derivadas de la escala original y ladel micro-instrumento.

• Eficiencia: minimizar el coste en el núme-ro de ítems necesario para informar conun nivel suficiente de fiabilidad y validezacerca del constructo que se mide con laescala original.

• Funcionalidad: representar las cualida-des sustantivas del constructo evaluable,tal cual fue definido teóricamente para eldiseño de la escala original, es decir, man-teniendo su validez de constructo.

Finalizado el proceso, obtenemos el micro-ins-trumento (MI) definitivo, la versión 4. Sunúmero de ítems será el N de la escala original,menos los ítems anómalos (IA), menos losítems con menos calidad métrica (IsinQ),menos los ítems que paulatinamente se han eli-minado en la última reducción, por ser así cla-sificados según los criterios de la fase 5 comoítems que ofrecen menor información.

A modo de conclusión

La uniformidad y homogeneidad que se obser-va en los planes de evaluación de sistemas pro-bablemente está en la base de la percepcióngeneralizada de falta de utilidad.

Hay una dificultad constatada en la comuni-cación de resultados de las evaluaciones desistemas: de la ingente cantidad de informa-ción que ofrecen, los medios de comunica-ción suelen destacar exclusivamente datoscontrovertidos como los rankings derivadosde las pruebas de rendimiento, que se con-vierte en la única información que finalmentellega a la sociedad.


Bordón 64 (2), 2012, 89-110 • 105


Incluso para los lectores más aventajados, lasevaluaciones de sistemas adolecen de falta deutilidad. Y una de las razones más claras es lafalta de calidad de los llamados cuestionariosde contexto. Es necesario que estos permitanextraer información explicativa de los resulta-dos y, por tanto, indicaciones y argumentacio-nes para las políticas educativas en las distintasregiones. Buscar alternativas metodológicaspara el diseño de cuestionarios de contexto decalidad ha sido el objetivo prioritario de losProyectos AVACO y MAVACO, financiados

por el Ministerio de Educación de España y sin-tetizar ese procedimiento ha sido el objetivo deeste artículo. Confiamos haber iniciado uncamino, desde el punto de vista de la medicióneducativa. El trabajo de diferentes equipos deinvestigación, en distintos territorios, para con-firmar, rebatir y mejorar la utilidad del procedi-miento que hemos presentado será imprescin-dible para contribuir desde el conjunto de lainvestigación educativa a que la evaluación desistemas responda a las finalidades por las quese planteó.


106 • Bordón 64 (2), 2012, 89-110

Notas

1 En ambos casos, ha actuado como investigador principal J. M. Jornet y la Universitat de València ha sido la coor-

dinadora de la red de universidades (Universidad Complutense, Universidad del País Vasco, Universidad de Cádiz,

Universidad de Málaga, Universidad de Navarra, Universidad de Castilla La Mancha, Universitat Jaume I y Universi-

dad Autónoma de Barcelona), que han dado respuesta a ambos proyectos. La línea de investigación iniciada por estos

proyectos además tiene continuidad en el Proyecto EVALEF, “Validación de un instrumento de evaluación de estilos

educativos familiares y establecimiento de lineamientos para el diseño de programas de intervención con familias”

(financiado en el Plan Nacional de I+D+i, Referencia EDU2011-29467, dirigido por M. J. Perales). Tomando como

constructo central los estilos educativos parentales, el proyecto parte de la metodología desarrollada en Avaco y

Mavaco para desarrollar la escala de estilos educativos familiares. Asimismo, los proyectos Evaluación del clima social

del aula en educación secundaria (financiado por la Universitat de València) y Diseño de instrumentos de valoración del

clima de aprendizaje en estudiantes universitarios (financiado por la Generalitat Valenciana), centrados en el clima

social de aula, surgen de los proyectos Avaco y Mavaco y aplican su metodología de diseño de instrumentos de con-

texto. 2 Probablemente con enfoques metodológicos alternativos pueda llegar a establecerse esa continuidad desde lo

micro-analítico hasta lo macro-analítico, pero se requerirá otro tipo de diseños de los planes de evaluación de siste-

mas educativos, que también será necesario explorar.3 En el artículo de De la Orden y Jornet en este mismo número de Bordón se analiza en profundidad el concep-

to de calidad y su concreción en efectos que se van a considerar en la evaluación de sistemas educativos.4 Si bien este trabajo se presenta por los autores del artículo, la definición del procedimiento R-AVACO de opti-

mización de la medida ha sido desarrollado contando además con las aportaciones de diversos investigadores: Eme-

lina López González (UV), Javier Tourón (UNAV), Luis Lizasoain (EHU), Luis Joarísti (EHU) y Javier Tejedor

(USAL), por lo que si se utilizara el procedimiento y se deseara citar, debería referirse al conjunto de investigadores

(autores del artículo y participantes).5 Mediante SPSS, se pueden usar comandos tales como explorar, pedir gráficos de cajas, tallos y hojas y frecuen-

cias, o bien, utilizar procedimientos más potentes, como los disponibles en R.6 Habitualmente trabajaremos con muestras grandes (N� 25), por lo que la T debe transformarse a Z para com-

probar la probabilidad.


Referencias bibliográficas

ANDRICH, D. (1978). A rating formulation for ordered response categories. Psychometrika, 43, 561-573.

BACKHOFF, E. y GONZÁLEZ-MONTESINOS, M. (2012). Evidencias de validez del cuestionario para docentes del Estudio

Internacional sobre Enseñanza y Aprendizaje (TALIS-2009). Bordón, 64 (2), 173-194.

BACKHOFF, E., BOUZAS, A., GONZÁLEZ-MONTESINOS, M., ANDRADE, E., HERNÁNDEZ, E. y CONTRERAS, C. (2008). Factores

asociados al aprendizaje de estudiantes de 3º de primaria en México. México D. F.: Instituto Nacional para la Eva-

luación de la Educación (INEE).

CARDONA, L., PERALES, M. J. y GÓMEZ-COSTA, D. (2009). Conferencia: «Familia y transformación social. Análisis del papel

de las familias en los estudios de evaluación de sistemas educativos. Introducción al estudio de validación de un cues-

tionario», Huelva, XIV Congreso de AIDIPE: Educación, investigación y desarrollo social.

CHIVA, I. y MORAL, A. (2009). Conferencia: «Diseño y revisión lógica de una escala para evaluar la metodología docente

en primaria y secundaria», Huelva, XIV Congreso de AIDIPE: Educación, investigación y desarrollo social.

CRONBACH, L. J. (1951). Coefficient alpha and the internal structure of test. Psychometrika, 16, 297-334.

DE LA ORDEN, A. (2007). Evaluación de la calidad de la educación. Un modelo sistémico como base para la construc-

ción de un sistema de indicadores. En Seminario Internacional de Indicadores Educativos (memoria): Conceptos,

metodologías y experiencias para la construcción de indicadores educativos. México: Instituto Nacional para la Eva-

luación de la Educación (INEE), 6-21.

DE LA ORDEN, A. y JORNET, J. M. (2012). La utilidad de las evaluaciones de sistemas educativos: el valor de la consi-

deración del contexto. Bordón, 64 (2), 69-88.

EMBRETSON, S. E. y REISE, S. P. (2000). Item Response Theory for Psychologists. London, Mohaw, N. J.: Lawrence Erl-

baum Associate Publishers.

GÓMEZ-COSTA, D. y CARDONA, L. (2009). Conferencia: «Diseño y validación de un instrumento para la evaluación del

autoconcepto académico: Ensayo piloto con alumnas y alumnos de sexto de primaria de la provincia de Valencia den-

tro del marco de la evaluación de sistemas educativos», Huelva, XIV Congreso de AIDIPE: Educación, investigación

y desarrollo social.

GONZÁLEZ-BARBERA, C., GARCÍA-GARCÍA, M., GARCÍA-CORONA, D. y BIENCINTO, CH. (2009). Conferencia: «EVADIE. Cues-

tionario para la evaluación de la atención a la diversidad. Diseño y validación», Huelva, XIV Congreso de AIDIPE:

Educación, investigación y desarrollo social.

GONZÁLEZ-MONTESINOS, M. (2012). El modelo métrico de Rasch: Fundamentación, implementación, interpretación.

Madrid: La Muralla (en prensa).

JOARISTI, L., LIZASOAIN, L. y GAMBOA, E. (2012). Construcción y validación de un instrumento de medida del nivel socio-

económico y cultural (NSE) de estudiantes de educación primaria y secundaria. Bordón, 64 (2), 151-172.

LÓPEZ-GONZÁLEZ, E., PÉREZ-CARBONELL, A. y RAMOS-SANTANA, G. (2011). Modelos complementarios al análisis facto-

rial en la construcción de escalas ordinales: un ejemplo aplicado a la medida del clima social aula, Revista de Edu-

cación, 354, 369-397.

LÓPEZ-GONZÁLEZ, E., TOURÓN. J. y TEJEDOR, F. J. (2012). Diseño de un micro-instrumento para medir el clima de

aprendizaje en cuestionarios de contexto. Bordón, 64 (2), 111-126.

MASTERS, G. N. (1982). A Rasch model for Partial credit scoring. Psychometrika, 60, 523-547.

MUÑOZ, J. F. y ÁLVAREZ, E. (2009). Métodos de imputación para el tratamiento de datos faltantes. Revista de métodos

cuantitativos para la economía y la empresa, 7, 3-30.

PÉREZ-CARBONELL, A., RAMOS-SANTANA, G. y LÓPEZ-GONZÁLEZ, E. (2009). Diseño y análisis de una escala para la valo-

ración de la variable clima social aula en alumnos de educación primaria y secundaria, Revista de Educación, 350,

221-252.

RAMOS SANTANA, G. y PÉREZ CARBONELL, A. (2008). Conferencia: «El clima social aula: un reto para la formación inte-

gral de alumnos», Zaragoza, XIV Congreso Nacional y III Iberoamericano de pedagogía, educación, ciudada-

nía y convivencia, diversidad y sentido social de la educación.


Bordón 64 (2), 2012, 89-110 • 107


RAMOS, G. y PÉREZ CARBONELL, A. (2009). Conferencia: «Utilidad del diseño de una escala de valoración de la percepción

clima social aula en los niveles de primaria y secundaria», Huelva, XIV Congreso de AIDIPE: Educación, investiga-

ción y desarrollo social.

SÄRNDAL, C. E., SWENSSON, B. y WRETMAN, J. (1991). Model Assisted Survey Sampling. New York: Springer-Verlag.

SCHULTZ, W. y SIBBERNS, H. (2004). IEA Civic Education Technical Report. Amsterdam: International Association for

the Evaluation of Educational Achievement (IEA).

TUKEY, J. W. (1977). Exploratory Data Analysis. Addison-Wesley, Reading, MA.

WILLMS, J. D. (2006). Learning Divides: Ten Policy Questions About the Performance and Equity of Schools and Schooling

Systems. Montreal: UNESCO.

Fuentes electrónicas

BIENCINTO-LÓPEZ, C., GONZÁLEZ-BARBERA, C., GARCÍA-GARCÍA, M., SÁNCHEZ-DELGADO, P. y MADRID-VIVAR, D. (2009).

Diseño y propiedades psicométricas del AVACO-EVADIE. Cuestionario para la evaluación de la atención a la

diversidad como dimensión educativa en las instituciones escolares. Relieve, 15, 1.

<http://www.uv.es/RELIEVE/v15n1/RELIEVEv15n1_4.htm.> [Fecha de consulta: 15/diciembre/2011]

DE LA ORDEN, A. (dir.) (1997). Desarrollo y validación de un modelo de calidad universitaria como base para su eva-

luación. Relieve, 3, 1 y 2. <http://www.uv.es/RELIEVE/.> [Fecha de consulta: 13/diciembre/2011].

GONZÁLEZ-MONTESINOS, M. J. y BACKHOFF, E. (2010). Validación de un cuestionario de contexto para evaluar sistemas

educativos con Modelos de ecuaciones estructurales. Relieve, 16, 2. <http://www.uv.es/RELIEVE/v16n2/RELIE-

VEv16n2_1.htm> [Fecha de consulta: 13/diciembre/2011].

LIZASOAIN, L. y JOARISTI, L. (2010). Estudio diferencial del rendimiento académico en lengua española de estudiantes

de educación secundaria de Baja California (México). Revista Iberoamericana de Evaluación Educativa, 3 (3), 115-134.

<http://www.rinace.net/riee/numeros/vol3-num3/art6.pdf.> [Fecha de consulta: 13/diciembre/2012].

LUKAS, J. F. y SANTIAGO, K. M. (2004). Evaluación de centros escolares de educación secundaria del País Vasco. Revis-

ta Electrónica de Investigación Educativa, 6 (2). <http://redie.uabc.mx/vol6no2/contenido-lukas.html.> [Fecha de

consulta: 13/diciembre/2012].

MIRANDA, L. (2008). Factores asociados al rendimiento escolar y sus implicancias para la política educativa del Perú.

En BENAVIDES, M. (ed.), Análisis de programas, procesos y resultados educativos en el Perú. Contribuciones empíricas

para el debate. Lima: Grade. <http://www2.minedu.gob.pe/umc/admin/images/publicaciones/artiumc/3.pdf.>

[Fecha de consulta: 13/diciembre/2012].

MURILLO, F. J. y HERNÁNDEZ-CASTILLA, R. (2011). Factores escolares asociados al desarrollo socio-afectivo en Iberoa-

mérica. Relieve, 17, 2, art. 2. <http://www.uv.es/RELIEVE/v17n2/RELIEVEv17n2_2.htm>[Fecha de consulta:

5/diciembre/2012].

MURILLO, J. (2009). Hacia un modelo de eficacia escolar. Estudio multinivel sobre los factores de eficacia en las escue-

las españolas. Revista electrónica Iberoamericana sobre calidad, eficacia y cambio en educación. 6 (1), 4-28.

<http://www.rinace.net/arts/vol6num1/vol6num1.pdf.>

[Fecha de consulta: 13/diciembre/2012].

SAMEJINA, F. (1969). Estimation of latent ability using a response pattern of graded scores. Psychometrika Monograph,

17. Richmond, VA: Psychometric Society. <http://www.psychometrika.org/journal/online/MN17.pdf> [Fecha de

consulta: 18/noviembre/2011].


108 • Bordón 64 (2), 2012, 89-110


Abstract

Context questionnaire design for the evaluation of educational systems: optimization of complex constructs measurement

This paper is a review of a possible model for design and development of contextquestionnaires for the educational systems evaluation. General stages are reviewed and identifythe composition of possible indicators (simple and complex) of these instruments. In the designof questionnaires of context one must consider various aspects, some of which the mostimportant are: a) the selection of variables and indicators to be considered as part of the model,and b) the way in which complex indicators, i.e., those that are the result of a scale or acombination of simple indicators (represented by a single item) are evaluated. To evaluatecomplex indicators (for example, the social climate of the classroom) there are good constructvalidity scales; however, they cannot be used completely, since they are made up of a largenumber of items. In the latter case, we include a procedure that we have developed to designmicro-instruments that are composed of the best items of the scale (i.e., that best predict thetotal score, keeping the dimensional structure of the scale). These micro-instruments must beable to represent complex indicators so that they can be included in the questionnaires ofcontext. It is a procedure of reduction of scales, aimed at identifying the best elements or itemsthat best predict the overall score of a scale, while maintaining its theoretical structure.

Key words: Educational systems evaluation, Context questionnaires, Instrument design and constructionmethodology, Educational indicators.

Résumé

La conception de questionnaires de contexte pour l’évaluation des systèmes éducatifs: l’optimisation de la mesure des construits complexes

Cet article fait une révision d’un possible modèle pour concevoir et construire desQuestionnaires de Contexte pour l’évaluation des systèmes éducatifs. Nous revissons lesphases générales, toutefois que nous identifions la possible composition des indicateurs(simples et complexes) de ces instruments. Dans la conception des questionnaires decontexte il faut tenir compte de plusieurs aspects. Parmi eux nous identifions comme deséléments clés: a) la sélection des variables et des indicateurs qui doivent être considérés etqui font partie du modèle, et b) la façon d’évaluer les indicateurs complexes, c’est à dire,ceux résultants d’une échelle ou bien d’une combinaison d’indicateurs simples (représentéspar un seul élément). Pour l’évaluation d’indicateurs complexes (para exemple, le climatsociale de la classe) ils existent des échelles avec une bonne validité de construit; néanmoinselles ne peuvent pas être complètement utilisées puisqu’elles se composent d’un grandnombre d’items. Dans le dernier cas, nous développons une procédure pour la conception demicro-instruments composés par les meilleurs items de l’échelle (c’est à dire, les items quiprédisent le mieux le score total, en gardant la structure dimensionnelle de l’échelle). Cesmicro-instruments doivent être capables de représenter des indicateurs complexes pourqu’ils puissent être inclus dans les questionnaires de contexte. Il s’agit d’un processus de


Bordón 64 (2), 2012, 89-110 • 109


réduction des échelles, visant à l’identification des éléments ou items qui prédisent le mieuxle score total d’une échelle, en gardant sa structure théorique.

Mots clés: Évaluation des systèmes éducatifs, Questionnaires de contexte, Méthode de conception etconstructions d’instruments, Indicateurs éducatifs.

Perfil profesional de los autores

Jesús M. Jornet Meliá

Catedrático en el Departamento MIDE-UVEG. Coordinador del grupo GEM (MIDE-UVEG;www.uv.es/gem). Su trabajo se orienta en el área de medición y evaluación educativas al diseño deinstrumentos para la evaluación de competencias, cuestionarios de contexto para la evaluación desistema educativos y la evaluación de la dimensión educativa de la cohesión social. Correo electrónico de contacto: [email protected]

José González Such

Profesor titular en el Departamento MIDE-UVEG. Coordinador de la Unidad InnovaMide del grupoGEM (MIDE-UVEG). Su trabajo se centra en la medición y evaluación educativas, siendo sus líneaspreferentes de investigación: diseño de pruebas e instrumentos de medición educativa, evaluaciónde la docencia y diseño y evaluación de materiales de innovación docente sustentados sobre nuevastecnologías. Correo electrónico de contacto: [email protected]

Mª Jesús Perales Montolío

Profesora titular en el Departamento MIDE-UVEG. Coordinadora de la Unidad de Evaluación So-cioeducativa del grupo GEM (MIDE-UVEG). Sus líneas centrales de investigación se dirigen a laevaluación de programas socioeducativos, evaluación institucional, evaluación de la formación ocu-pacional y continua, y el diseño y desarrollo de instrumentos de evaluación de competencias. Correo electrónico de contacto: [email protected].


110 • Bordón 64 (2), 2012, 89-110


DISEÑO DE CUESTIONARIOS DE CONTEXTO PARA LA EVALUACIÓN DE ... · Componentes para el diseño de...

Documents

Transcript of DISEÑO DE CUESTIONARIOS DE CONTEXTO PARA LA EVALUACIÓN DE ... · Componentes para el diseño de...