Estadística-2pp

40
Tema 10: TÉCNICAS INFERENCIALES Cuando buscamos información acerca de una población, pero sólo disponemos de datos de una muestra, se necesitan algunos medios para poder sacar conclusiones acerca de esa población. Los conceptos y técnicas que satisfacen esta necesidad constituyen la Inferencia Estadística. 1. ESTIMACIÓN DE PARÁMETROS Con la estimación de parámetros deseamos estimar el valor de ese parámetro, a través de un estadístico calculado en la muestra. La inferencia en los distintos niveles de medición se realizará a través de P y . Un estimador es un procedimiento expresado a manera de fórmula por medio del cuál se obtiene un valor numérico denominado estimación. 1.1. Estimación intervalar Consta de dos puntos definidores de un intervalo (límites de confianza), que según nuestras estimaciones contienen el parámetro poblacional que nos interesa, e.d., podemos estimar el parámetro ó P dentro de un intervalo a y b, en el que a y b se obtienen de observaciones de la muestra y podemos afirmarlo a un nivel de confianza determinado. El principal objetivo de la estadística inferencial consiste en precisar el valor desconocido de los parámetros poblacionales a partir de los resultados obtenidos en muestras aleatorias. Gracias a la teoría del error muestral podemos resolver la discrepancia existente entre valores muestrales y poblacionales. Para ello construimos intervalos dentro de los cuáles para un nivel de confianza prefijado podemos asegurar que se encontrará el verdadero valor del parámetro poblacional. Estudiando el estadístico obtenido en la muestra y su error típico podemos determinar por las propiedades de la curva normal a qué distancia máxima se encontrará el verdadero valor; dicha distancia constituirá el intervalo dentro del cual podemos asegurar que se encuentra el valor poblacional. 2. LA DISTRIBUCIÓN MUESTRAL Una distribución muestral es una distribución probabilística teórica de estadísticos pertenecientes a muestras, p.e. medias ó proporciones. Se obtiene una distribución muestral cuando se toman todas las muestras aleatorias simples (cada una de ellas con al menos un elemento diferente) de tamaño N de una misma población, se calcula un estadístico por cada muestra (p.e. medias o proporciones) y se distribuyen dichos estadísticos alrededor del parámetro que estiman. Ej.: de una nación se coge una muestra de 2000 y se calcula la de

description

segunda parte de la estadistica aplicada a ciencias sociales

Transcript of Estadística-2pp

Page 1: Estadística-2pp

Tema 10: TÉCNICAS INFERENCIALES

Cuando buscamos información acerca de una población, pero sólo disponemos de datos de una muestra, se necesitan algunos medios para poder sacar conclusiones acerca de esa población. Los conceptos y técnicas que satisfacen esta necesidad constituyen la Inferencia Estadística.

1. ESTIMACIÓN DE PARÁMETROS

Con la estimación de parámetros deseamos estimar el valor de ese parámetro, a través de un estadístico calculado en la muestra. La inferencia en los distintos niveles de medición se realizará a través de P y .

Un estimador es un procedimiento expresado a manera de fórmula por medio del cuál se obtiene un valor numérico denominado estimación.

1.1. Estimación intervalar

Consta de dos puntos definidores de un intervalo (límites de confianza), que según nuestras estimaciones contienen el parámetro poblacional que nos interesa, e.d., podemos estimar el parámetro ó P dentro de un intervalo a y b, en el que a y b se obtienen de observaciones de la muestra y podemos afirmarlo a un nivel de confianza determinado.

El principal objetivo de la estadística inferencial consiste en precisar el valor desconocido de los parámetros poblacionales a partir de los resultados obtenidos en muestras aleatorias.

Gracias a la teoría del error muestral podemos resolver la discrepancia existente entre valores muestrales y poblacionales. Para ello construimos intervalos dentro de los cuáles para un nivel de confianza prefijado podemos asegurar que se encontrará el verdadero valor del parámetro poblacional.

Estudiando el estadístico obtenido en la muestra y su error típico podemos determinar por las propiedades de la curva normal a qué distancia máxima se encontrará el verdadero valor; dicha distancia constituirá el intervalo dentro del cual podemos asegurar que se encuentra el valor poblacional.

2. LA DISTRIBUCIÓN MUESTRAL

Una distribución muestral es una distribución probabilística teórica de estadísticos pertenecientes a muestras, p.e. medias ó proporciones.

Se obtiene una distribución muestral cuando se toman todas las muestras aleatorias simples (cada una de ellas con al menos un elemento diferente) de tamaño N de una misma población, se calcula un estadístico por cada muestra (p.e. medias o proporciones) y se distribuyen dichos estadísticos alrededor del parámetro que estiman. Ej.: de una nación se coge una muestra de 2000 y se calcula la de edad, si repetimos con todas las muestras posibles de 2000, obtendremos una distribución muestral de medias de edad.

2.1. El teorema del límite central

Es muy importante en estadística. La suma de gran cantidad de variables aleatorias independientes siempre tiene una distribución aproximadamente normal. La distribución de dicha suma será tanto más parecida a la normal cuanto mayor sea el número de variables aleatorias. El teorema central del límite expresa cuantitativamente la rapidez de esta convergencia.

Lo que nos dice el teorema es que las medias de las muestras aleatorias simples extraídas de una población que se distribuye normalmente, darán lugar a una distribución muestral que también es normal, aunque N sea pequeño.

1.3. La Ley de los grandes números

Según esta ley la diferencia entre una población dada y una muestra decrece conforme aumenta el tamaño muestral.

Page 2: Estadística-2pp

A partir de cierto tamaño muestral, el error muestral se hace tan pequeño que un aumento del tamaño muestral no compensaría el incremento de los costos.

La importancia de esta ley es muy grande, ya que al ser la distribución muestral la que se utiliza en las pruebas de significación, ello quiere decir que cuando N es suficientemente grande no tenemos ya que preocuparnos de los supuestos referentes a la normalidad de la población, pudiendo aplicar las propiedades de la curva normal, ya que la distribución muestral tiende a aproximarse a la normalidad.

Gracias al teorema del límite central y la ley de los grandes números podemos afirmar que la distribución de los estimadores en el muestreo será una distribución normal.

3. TENDENCIA CENTRAL, VARIABILIDAD Y FORMA DE UNA DISTRIBUCIÓN MUESTRAL

La tendencia central de una distribución muestral se denomina valor esperado de un estadístico y se representa por E().

Si el promedio o valor esperado de un estadístico es el parámetro que estima, entonces se dice que el estadístico es un estimador no sesgado del parámetro. Cualquier diferencia que se produzca entre un estadístico concreto y su parámetro es atribuible por ello más bien a un error aleatorio.

4. DISTRIBUCIONES MUESTRALES DE MEDIAS

La medida de error muestral que indica la magnitud de las desviaciones de los estadísticos se denomina error típico, para distinguirlo de otras desviaciones típicas.

Según la ley de los grandes números al aumentar la muestra disminuye el error típico, e.d, que al aumentar N los estadísticos se agrupan con mayor proximidad alrededor de sus respectivos parámetros.

PROPIEDADES:

1. La distribución muestral de medias se aproxima a la curva normal (por el teorema del límite central y la ley de los grandes números). En la práctica pensaremos que n 30 para servirnos de las medidas de la curva normal.

1. Al ser una distribución de frecuencias es posible calcular medidas de tendencia central, variación, etc.

1. La de una distribución muestral de medias es igual a la verdadera de la población.

1. La es menor que la de la población; esto se debe a que tomamos valores medios, eliminando los valores extremos.

Podemos decir que entre

1 68,26% 2 95,45% 3 99,73%

e.d., entre la más o menos una desviación típica de esa distribución muestral de se encontrarán el 68,26% de las medias muestrales de la distribución muestral de medias.

Para trabajar bajo la curva normal hay que hablar de unidades Z, que se estandarizan para la distribución muestral de medias:

x - - Z = ------ = Z = --------

S

= media muestral = = media de población o media de medias

Page 3: Estadística-2pp

= desviación típica de la distribución muestral de medias; error típico de la media.

4.1. ERROR TÍPICO DE LA

El investigador rara vez escoge más de 1 ó 2 muestras, que espera poder generalizar a la población, pues el procedimiento de completar una distribución muestral de medias sería tan costoso como analizar a casi todos los miembros de la población.

No se tiene pues un conocimiento real de la , pero sí un buen método para estimar la desviación típica de la distribución muestral de medias sobre la base de datos recogidos en una sola muestra.

Con la ayuda del error típico podemos encontrar el rango de valores de la , dentro del cuál es probable que fluctúe nuestra verdadera poblacional.

Cuanto más pequeño sea el error típico, más fiable es el estadístico. La cuantía del error típico depende del tamaño de la muestra; al aumentar la muestra disminuye el error típico => las muestras grandes engendran estadísticos más fiables que las pequeñas.

A todo estadístico le corresponde una distribución muestral y un error típico.La media de una muestra es una estimación insesgada de la media de la población, e.d.,

la de la muestra puede ser mayor ó menor que la de la población. Si se extraen muchas muestras y se promedian sus medias, el resultado tiende a la media de la población al aumntar el tamano de la muestra.

* * * V E R F O R M U L A R I O P A R A E R R O R T Í P I C O D E L A M E D I A * * *

4.2. INTERVALOS DE CONFIANZA

El intervalo de confianza se define como el valor de las puntuaciones directas entre las cuáles afirmamos, a un nivel de confianza dado, que se encuentra el parámetro que consideramos. El intervalo de confianza tiene un límite inferior y un límite superior, que son los límites de confianza.

Se ha convenido utilizar como intervalo de confianza los de 95%, 95,45%, 99% y 99,73%, por medio de los cuáles se estima la media poblacional, sabiendo p.e. que hay 95 oportunidades entre 100 de estar en lo cierto y un 5 de equivocarse, e.d., el nivel de confianza sería la parte de la distribución muestral que yo tomo para hacer la estimación.

Al realizar una estimación pienso que la media muestral a través de la cuál hago la inferencia caerá en ese intervalo con un 95% de probabilidades, aunque sé que hay un 5% de que quede fuera.

Cuanto más amplio sea el intervalo, tanto menos se acerca a dicho parámetro, e.d., al aumentar el nivel de confianza se sacrifica también en grado de precisión al señalar la media poblacional.

Estimaciones de la a partir de una sola muestra

Según la adaptación de la distribución muestral de la media a la curva normal, sabemos que con un nivel de confianza de 99% y conociendo la , la verdadera media de la población no se apartará de en más de 2,58 .

(-) 2,58

Como formulación general de la estimación de parámetros tendremos:

Estimador factor de confiabilidad x error típico del estimador

Zo

P ( - Z < < + Z) = Nc ó Ns

Zo nos dará la distancia máxima entre y . Z depende del nivel de confianza dado.

Page 4: Estadística-2pp

Conociendo el error típico del estadístico en la distribución muestral, el intervalo será el producto del Nc por dicho error.

5. DISTRIBUCIÓN T DE STUDENT

Cuando las muestras son pequeñas (n < 30) en la estimación de medias deberemos utilizar la distribución t de Student, que depende del Ns y de los grados de libertad. El intervalo viene dado por:

t

t = Z

La distribución t correspondiente se asemeja mucho a la distribución normal, y veremos que se aplica una distribución t de la misma manera en la que se hace con una distribución normal.

Características:

1. Hay una familia de distribución t (una distinta para cada valor de n).2. Cada curva t es simétrica a los dos lados de 0.3. = 0; 2 es algo superior a 14. el punto más alto de la curva viene dado por t = 0.5. Debe calcularse la puntuación t para trabajar con la distribución t:

- t = --------

S = -------

n

6. El área bajo la curva es igual a 1.7. Para la estimación intervalar la fórmula será:

t

P ( - t < < + t) = Nc ó Ns

t = error absoluto; distancia máxima entre y .

Grados de libertad

El número de grados de libertad de un estadístico es denominado generalmente por la letra v. Se define como el número de observaciones independientes en la muestra (e.d. el tamaño muestral) menos el nº de H parámetros de la población que deben estimarse a partir de las observaciones de la muestra.

v = gl = N - Hv = gl = N-1 (para parámetros)

Tablas de distribución t de Student

Aparecen Ns para 1 ó 2 colas, llamadas pruebas unilaterales o bilaterales. Para estimaciones de parámetros se utilizan pruebas bilaterales. A la izquierda se sitúan gl (df), que son lo grados de libertad.

6. DISTRIBUCIONES MUESTRALES DE PROPORCIONES

La proporción es una frecuencia relativa:

n

Page 5: Estadística-2pp

P = ---N

La suma de todas las proporciones es igual a 1; cada proporción es 1. El porcentaje es la proporción * 100. P = población; p = muestras.

Estimaremos proporciones igual que acabamos de estimar las medias.Todos los estadísticos, tanto las medias como las proporciones, tienen su propias

distribuciones muestrales; lo dicho para la distribución muestral de medias vale para la distribución muestral de proporciones.

Muchas veces el investigador busca presentar una estimación de una proporción poblacional con base en la proporción que obtiene en una muestra aleatoria, p.e. ¿cuál es la proporción de los votos que irán a un partido?

La distribución muestral de proporción 'p' está calculada con base en muestras aleatorias simples de tamaño 'n', sacadas de una población en la que la proporción poblacional es 'P'. Está distribuida normalmente si 'n' es grande.

Si extraemos distintas muestras y calculamos su proporción podemos realizar una distribución muestral de proporción.

PROPIEDADES:

1. la media de la distribución muestral de proporción es igual a la proporción poblacional

p = P

2. La distribución muestral de proporción es aproximadamente normal si np ó nq > 5. Si p = 0,50 la distribución es aproximadamente normal si n > 30. Pero si P está cerca de 0 ó de 1 la distribución muestral de proporción tenderá a tener un extremo más largo a la izquierda o a la derecha, y deberá aumentar para tener una aproximación a

la curva normal. Al ser una distribución de frecuencias podemos calcular entonces tendencia central, variación, etc.

3. Ps 1 p 68, 26%Ps 2 p 95,45% Ps 3 p 99,73%

Entre la proporción muestral Ps y 1 p, 2p y 3 p se encuentran respectivamente el 68,26%, 95,45% y 99,73% de proporción de esta distribución muestral de proporción.

5. Hay que estandarizar las unidades Z:

Ps - PZ = --------

p

Ps = proproción muestral; P = proporción poblacionalp = desviación típica de la distribución muestral de proporción.

6.1. ERROR TÍPICO DE LA PROPORCIÓN

Es la desviación típica de esa distribución muestral que nos da la fiabilidad del estadístico. Cuanto menor sea, mejor será la estimación.

* * * V E R F O R M U L A R I O P A R A E R R O R T Í P I C O D E L A P R O P O R C I Ó N * * *

4.2. INTERVALOS DE CONFIANZA

Estimador factor de confiabilidad + error típico del estimador

Page 6: Estadística-2pp

P Zp

P(Ps - Zp < P < Ps + Zp) = Nc ó NsP (p - Zp < P < p + Zp) = Nc ó NS

Deberán utilizarse en general muestras grandes para la estimación de proporciones, pues sino da unos intervalos excesivamente amplios que poco pueden decirnos como información.

Page 7: Estadística-2pp

E S T A D Í S T I C A ( 2 º p p )

Tema 1: PRUEBAS DE HIPÓTESIS - Teoría

La inferencia estadística se ocupa de la obtención de conclusiones en relación a un gran número de sucesos, en base a la observación de una muestra obtenida de ellos.

Los métodos de la estadística inferencial señalan los procedimientos que se han de seguir para poder extraer conclusiones válidas y fiables, a partir de la evidencia que suministran las muestras.

Las pruebas estadísticas determinan cuál ha de ser el tamaño de las diferencias observadas para tener la seguridad de que representan diferencias reales en la población de la que hemos tomado la muestra.

1. Se trata de ver si la diferencia es debida al azar o realmente a que la dos muestras provienen de dos poblaciones diferentes.

1. Otra parte de la estadística inferencial es saber si un valor obtenido, p.e. una proporción a partir de una muestra pertenece realmente a una población.

Estas dos pruebas de comparación son las pruebas de hipótesis, que pueden ser:

* paramétricas: establecen un buen número de restricciones sobre la naturaleza de la población de la que se obtienen los datos, siendo los "parámetros" los valores numéricos de la población.

* aparamétricas: (o de "libre distribución") no exigen tantas restricciones sobre la naturaleza de la población, ya que atienden más a la ordenación de los datos que a su valor numérico.

1. EL USO DE LAS PRUEBAS DE DECISIÓN ESTADÍSTICA EN LA INVESTIGACIÓN SOCIAL

Los pasos estándar a seguir son:

1. Formulación de la hipótesis nula (H0) y de la hipótesis alternativa (H1), que han de ser excluyentes entre sí.

La H0 es la hipótesis que se desea contrastar. Suele ser formulada con el deliberado propósito de ser rechazada para aceptar la H1.

La H1 es la proposición operacional de la hipótesis de trabajo que desea contrastar el investigador.

Las hipótesis pueden ser <, >, = o .

2. Elección de una prueba estadística

Hay una gran variedad. La propia naturaleza de los datos obtenidos en la fase empírica de la investigación indicará si la prueba estadística elegida ha de ser paramétrica o aparamétrica.

En función de , P, muestras grandes o pequeñas, nosotros partimos en principio de datos aleatorios e independientes.

3. Especificación de un nivel de significación y de un tamaño de muestras para determinar la región crítica.

El Ns es un valor probabilístico muy pequeño, que se establece con anterioridad a la obtención del resultado. Su función es: se rechazará H0 en favor de H1 cuando la prueba estadística dé lugar a un valor cuya probabilidad de que ocurra bajo H0 es igual o menor que Ns. Los valores que se suelen utilizar son 0,05 y 0,01.

Page 8: Estadística-2pp

Nunca se puede estar seguro al aceptar o rechazar H0, pues nos desenvolvemos en el campo de las probabilidades. El elegir H0 ó H1 comporta siempre un riesgo. Son dos las posibilidades de cometer un error:

Tipo 1: se rechaza H0 cuando se debía de aceptar.Tipo 2: se acepta H1 cuando debía ser rechazada.

El nivel de significación indica la probabilidad de cometer el error Tipo I; e.d., un valor bajo el cuál se rechaza la H0 cuando de hecho es verdadera.

La probabilidad de cometer un error tipo 1 se llama riesgo de primera especie o riesgo . El error tipo 2 se suele representar por , que siempre es desconocido y varía en relación inversa al valor . Es preferible, en lugar de disminuir y con ello aumentar , el aumentar el tamaño de la muestra N. Esto conduce directamente a una disminución de la probabilidad de cometer .

4. Elección de una prueba estadística para contrastar H0; determinar el estadístico apropiado.

5. Encontrar la distribución muestral de la prueba estadística en el supuesto de H0, estableciendo las zonas de aceptación o de rechazo.

Existen tres tipos de distribución de datos:

la distribución de la población: caracteriza la distribución de los elementos de una población;

la distribución de muestras; caracteriza la distribución de los elementos de una muestra.

la distribución muestral; permite describir la conducta esperada de un elevado número de muestras aleatorias simples pertenecientes a una misma población.

La distribución muestral utiliza unidades que son medidas resumen de muestras completas de valores, en lugar de valores individuales de características de casos únicos (se realiza para todos los niveles de medición). Una distribución muestral es una distribución probabilística teórica de estadísticos - p.e. medias o proporciones - pertenecientes a muestras.

En la práctica, se extrae una muestra, se calcula el correspondiente estadístico y apoyándose en diversos teoremas matemáticos ya contrastados, se utiliza el conocimiento adquirido sobre la naturaleza de la distribución muestral para generalizar el correspondiente parámetro de la población.

Los errores típicos por lo general miden la variación aleatoria de la estadística alrededor de los parámetros que tratan de estimar, y su tamaño depende, en parte, de la muestra de la que se calcula el estadístico.

2. ZONAS DE ACEPTACIÓN Y ZONAS DE RECHAZO. PRUEBAS UNILATERALES Y PRUEBAS BILATERALES.

La región de rechazo es una zona de la distribución muestral. El resto de la distribución muestral que no es zona de rechazo es zona de aceptación.

La localización de la región de rechazo viene afectada por la naturaleza de la H1, ya que cuando dicha hipótesis predice la dirección de la diferencia hay que utilizar una prueba estadística unilateral (H1 : pa < p / H1 : pa > p).

Si la H1 no indica la dirección de la diferencia que se predice, hay que utilizar una prueba estadística bilateral (H1 : pa = p / H1 : pa p).

Las pruebas estadísticas uni y bilateral difieren en la localización de la región de rechazo, pero no en su tamaño:

* unilateral: 1 zona de aceptación y 1 de rechazo; la zona de rechazo se encuentra totalmente en un extremo de la distribución muestral.* bilateral: 1 zona de aceptación y 2 de rechazo; la región de rechazo se localiza a ambos extremos de la distribución muestral.

Page 9: Estadística-2pp

El tamaño de la región de rechazo viene dado por el nivel de significación Ns; p.e. si Ns = 0,01 el tamaño de la región de rechazo es del 1% del espacio incluido bajo la curva de la distribución muestral

* Variable nominal: permite la clasificación de los individuos u objetos en clases o categorías meramente descriptivas - estado civil, sexo, religión.* Variable ordinal; además de clasificar, ordena, según se posea en mayor o menor grado la característica que se pretende medir - nivel de estudios, grado de satisfacción, posición ideológica.* Variable de intervalo; clasifica, ordena y además especifica las distancias existentes entre las distintas categorías - edad, estatura, ingresos, renta per cápita.

Page 10: Estadística-2pp

Tema 2: PRUEBAS DE HIPÓTESIS - Práctica

1. PRUEBAS DE HIPÓTESIS PARA UNA SOLA MUESTRA (todos los niveles de medición - , P)

Nivel de medición nominal P (proporción/porcentaje)Nivel de medición ordinal P (proporción/porcentaje)

Nivel de medición intervalar (medias)

También pueden hacerse estimaciones de % en el nivel de medición intervalar, pues todo lo que es válido para niveles de medición inferiores es posible utilizarlo en los niveles superiores, pero no a la inversa.

Las pruebas de hipótesis con una sola muestra no tienen excesivo interés; nos interesa más contrastar dos muestras de modo que, p.e. podamos determinar si en dos poblaciones el % de abstención es o no similar.

Comenzamos con la suposición previa de un parámetro poblacional (, P), y después recurrimos al estadístico de la muestra obtenida en forma aleatoria (, p) para decidir si la suposición acerca del parámetro poblacional es o no probable.

Según el teorema del límite central, si hipotéticamente extrajeramos pares de muestras de una población normal, calculásemos sus medias y a continuación las restásemos, la serie de diferencias obtenidas se distribuiría normalmente (también vale para subgrupos de una misma población.

En resumen, estas pruebas estadísticas se utilizan principalmente para determinar si los valores muestrales se corresponden con la masa central de los datos de una población o si por azar hemos tomado los más extremos y por tanto, los menos probables.

1.1. Medias y Proporciones

Comenzaremos con una suposición a priori del valor de la media de la población. Después utilizamos la de la muestra, calculada a partir de una muestra obtenida de forma aleatoria de una población para decidir si es probable esta suposición acerca de . Se trata de contrastar los valores observados de una sola variable en una muestra en relación con los valores que toma dicha variable en la población.

Se pueden plantear distintas hipótesis alternativas:

H1: (P) un cierto valor H1: (P) < un cierto valor H1: (P) > un cierto valor

Recordemos que los pasos a seguir en la ejecución de las pruebas de hipótesis son:1. Planteamiento de las hipótesis H1 y H0.2. Tipo de prueba, unilateral o bilateral: en función del planteamiento de H1.3. Nivel de confianza o nivel de significación (Nc o Ns).4. Cálculo de la prueba.5. Zonas de aceptación y rechazo de la H0. 6. Interpretación1.2. Distintas formas de aceptar o rechazar una hipótesis (Z, t, probabilidad y valor crítico)

Válido para los tres niveles de medición la aceptación de hipótesis puede considerarse como una admisión de que la hipótesis se encuentra razonablemente cercana a la situación real, y desde el punto de vista práctico, puede tratarse como si representase una situación real.

A. En términos de Z y t

Se acepta H0 si los valores obtenidos en el cálculo de la prueba están en los límites establecidos como zonas de aceptación y se rechaza en caso contrario. Los valores críticos de Z son:

Page 11: Estadística-2pp

unilateral bilateral

al Nc de 95% 1,645 95% + o - 1,96al Nc de 99% 2,33 99% + o - 2,58

Cuando las muestras son pequeñas 'Z' se sustituye por 't'. Los valores de 't' se buscan en las tablas de la distribución t en función de:

prueba unilateral o bilateral nivel de significación o de confianza grados de libertad.

B. En términos de probabilidad

Los límites de aceptación y rechazo los da Nc y Ns, p.e.; si hay una probabilidad de 7% de que H0 se de, dado el Nc = 95% o Ns = 5% podemos considerar que como 7% > 5% aceptamos H0.

Si existe una probabilidad de que H0 dé un 3%, es inferior a 5%, por lo que se rechaza la H0 y acepta H1. En definitiva, si es muy poca la probabilidad de que un H0 se dé, es que hay que aceptar H1.

En el caso de las pruebas bilaterales hay que dividir en dos la Ns, si se supone que la probabilidad de Z está en los límites indicados.

Bilateral

Unilateral

Normalmente se suele trabajar con Ns = 0,05, lo que indica que el investigador está dispuesto a asumir un 5% de probabilidades de estar equivocado al rechazar H0.

2. PRUEBAS DE HIPÓTESIS PARA DOS MUESTRAS

Generalmente se suelen realizar comparaciones entre dos o más muestras con el fin de estudiar, p.e. si un segmento de la población es más religioso que otro o tiene un mayor o menor nivel de educación. Pero además podemos determinar si las diferencias observadas entre dos muestras significan que las poblaciones de las que han sido extraídas son realmente distintas entre sí (= pruebas de hipótesis de dos muestras).

El uso de esta herramienta estadística viene limitado por que:

las observaciones sean independientes y aleatorias; hayan sido extraídas de una población normal; las varianzas muestrales sean homogéneas.

A. La prueba de la diferencia entre dos medias

Esta prueba consiste en esencia en comparar dos muestras aleatorias que se diferencian con respecto a una variable, con el fin de contrastar hasta qué punto las diferencias observadas se pueden considerar o no significativas.

Para llevar a cabo las comparaciones se ha de calcular un cociente o ratio entre la diferencia observada en las medias muestrales, y la diferencia que cabría esperar desde un punto de vista aleatorio, lo que conduce a que se tenga que calcular una puntuación típica y un término de error típico.

B. La prueba de la diferencia entre dos proporciones

Cuando los datos vienen dados en % se convierten fácilmente en proporciones dividiendo por 100 cuando se va a realizar una prueba de decisión estadística.

Page 12: Estadística-2pp

Generalmente sólo se dispone de las proporciones muestrales p1 y p2, que son estimaciones de las proporciones de las subpoblaciones de las muestras P1 y P2. Para conseguir

N1 p1 + N2 p2 N1 = nº de casos de la primera muestrap = ------------------- N2 = nº de casos de la segunda muestra

N1 + N2

Page 13: Estadística-2pp

Tema 3: EL ANÁLISIS DE LA VARIANZA (3 muestras o más)

Es una técnica estadística que se utiliza para comparar medias observadas, basándose en el cálculo de la varianza entre medias, y suele utilizarse cuando se somete a prueba una relación entre una variable nominal u ordinal, y una variable de intervalo o entre dos o más variables de intervalo.

Si la diferencia entre las dos estimaciones es relativamente pequeña, se puede atribuir al azar y considerar a la población como homogénea.

Si la diferencia es muy grande, se rechazará la H0 y se aceptará la H1, de que las dos estimaciones de varianza se refieren a dos poblaciones diferentes.

El análisis de varianza permite comparar simultáneamente los datos de todos los grupos como un conjunto y determinar si las diferencias entre las medias de los distintos grupos analizados son significativamente diferentes.

Los supuestos estadísticos son: han de ser muestras aleatorias simples; los datos (intervalo) han de distribuirse normalmente ; las varianzas de la población deben ser iguales.

Vamos a considerar el caso más común de cómo comparar las medias de varias muestras extraídas aleatoriamente con una sola variable independiente.

Ejemplo: Muestra 1 : media salario 102.000Muestra 2 : media salario 123.000Muestra 3 : media salario 100.000

* Varianza entre grupos: dispersión de las medias de los grupos respecto a la media total. * Varianza dentro de los grupos: dispersión de las puntuaciones en cada grupo particular.* Varianza total: dispersión de todos los valores individuales con independencia

del grupo al que pertenecen.

La pregunta que debemos plantearnos es si las diferencias observadas entre las medias se deben al azar o no.

La H0 afirma que las diferencias que se puedan observar entre las medias de los grupos son producto del azar:

H0 : 1 = 2 = 3 ... = n

H1 : 1 2 3 ... n las diferencias sí son significativas; no se deben al azar

1. ANÁLISIS DE LA VARIANZA CON UN SÓLO FACTOR

El concepto de la suma de cuadrados (SC) está en el centro del análisis de la varianza y representa el paso inicial para medir la variación total, así como la variación entre los grupos y dentro de ellos.

La suma de cuadrados dentro de los grupos (Scd) nos da la suma de las desviaciones de cada puntuación con su media muestral elevadas al cuadrado:

(x)2

SCd = [ (x2) - ------ ] N

SCd = SCt - SCent

La suma de cuadrados entre los grupos (SCent) representa la suma de las desviaciones de cada media muestral respecto de la media total llevadas al cuadrado:

(x)2 (x total)2

Page 14: Estadística-2pp

SCent = [ ------ ] - ------------- N N total

La suma total de los cuadrados (SCt), e.d., la suma de las desviaciones de cada puntuación con respecto a la media total elevadas al cuadrado, es igual a una combinación de sus componentes:

SCt = SCent + Scd

(x total)2

SCt = x2 total - ------------N total

1.1. PASOS A SEGUIR EN EL CÁLCULO DE LA VARIANZA:

1. Establecer la H0 y H1, que siempre serán iguales: H0 : 1 = 2 = 3 ... = n

H1 : 1 2 3 ... n

2. Calcular la media de cada muestra3. Suma total de cuadrados4. Suma total de cuadrados entre los grupos5. Suma total de cuadrados dentro de los grupos6. Grados de libertad entre los grupos

glent = K - 1 (K = nº de grupos)

7. Grados de libertad dentro de los grupos

gld = Ntotal - Kgld = glt - glent

8. Grados de libertad para el total

glt = N - 19. Estimación de la varianza entre grupos

SCent

Vent = --------glent

10. Estimación de la varianza dentro de los grupos

SCd

Vd = -------gld

11.Razón F

Vent

F = ------Vd

Buscar con gld y glent el valor de F en las tablas.

12.Interpretación comparando nuestro valor F con el de las tablas.

Si F < 1 => H0 es cierta, las medias son igualesSi F > 1 => acudir a tablas para ver el valor; H1 se acepta

Si Fc y Fe se acercan entre sí y a la unidad es que H0 es cierta

Page 15: Estadística-2pp

Si Fe > Fc => las medias de los distintos grupos difieren entre sí; H1 se

acepta.Si Fe < Fc => las medias de los distintos grupos no difieren entre sí;

lasdiferencias son producto del azar; se acepta H0.

Prueba F

La Ley Snedecor ofrece los valores de la distribución muestral de F, con lo cual se puede conocer para cada valor de F que se ha obtenido, el riesgo que se corre al rechazar H0.

2. EL ANÁLISIS DE VARIANZA POR RANGOS DE KRUSKAL-WALLIS

Es una prueba de estadística que se utiliza cuando se dispone de varias muestras aleatorias independientes y de una variable ordinal.

Permite contrastar si las diferencias que presentan los valores muestrales, significan diferencias problacionales reales o variaciones al azar, como las que cabe esperar si se extrajeran muestras aleatorias de una misma población.

H0 : las muestras provienen de la misma poblaciónH1 : las muestras no provienen de la misma población.En esta prueba se opera con rangos, en lugar de N observaciones.

12 Rj2

H = ------ ------ - 3 (N + 1)N(N+1) nj

Rj = suma de los rangos en la columna jnj = nº de casos en la columna j / N = nº total de observaciones

Es un test no paramétrico y no exige que la forma de la distribución de la población sea normal. Lo que necesita es que las muestras sean aleatorias y que los datos figuren ordenados por rangos.

3. COMPARACIÓN MÚLTIPLE DE MEDIAS DE LA DSH DE TUKEY

Cuando en un análisis simple de varianza la F es significativa, se puede afirmar que las diferencias entre las medias de las muestras no son casuales y responden a la existencia de una diferencia relevante. Pero lo que no nos dice es si todas las medias difieren significativamente unas de otras. La F nos señala que al menos dos de ellas difieren, pero no nos dice cuáles son.

Para averiguar esta diferencia podemos utilizar la DSH siempre que la F haya dado significativa (= hay que rechazar la H0) y que el tamaño de las muestras sea el mismo.

Por el método de Tukey comparamos la diferencia entre dos medias cualquiera con la DSH.

Vd

DSH = q -----n

q = un valor de la tabla a un Nc dado para el nº máximo de medias que se están comprobando.Vd = varianza dentro de los grupos / n = nº en cada grupo (es el mismo para cada grupo)

La DSH toma en cuenta que la probabilidad de error se incrementa a medida que aumenta el número de medias que se esté comprobando.

Dependiendo del valor de q, mientras mayor sea el número de medias, más "conservadora" se volverá la DSH en cuanto al rechazo de la H0.

Si DSH > que las diferencias entre las medias ==> diferencia significativaSi DSH < que las diferencias entre las medias ==> diferencia no significativa

Page 16: Estadística-2pp

Si DSH crítico > DSH empírico => H0 correcta.

Las hipótesis para DSH son: H0 : 1 = 2 H1 : 1 2

H0 : 1 = 3 H1 : 1 3

H0 : 2 = 3 H1 : 2 3

Page 17: Estadística-2pp

Tema 4: ESTADÍSTICA BIVARIABLE

1. DISTRIBUCIONES BIVARIABLES

Permiten analizar las condiciones que influyen en la distribución de una variable. Así, a parte de estudiar la preferencia política del 1 al 10 y de izq. a dcha., también se tiene en cuenta el nivel educación, religión, etc.

Escala izq-dcha. entre población según nivel de educación

Escala Alto Medio Bajo TotalIzq. (1 - 4 ) d1 d4 d7 B1Centro (5 - 6) d2 d5 d8 B2Dcha. (7 - 10) d3 d6 d9 B3

n1 n2 n3 N

Si se trata de porcentajes esta tabla recibe el nombre de distribución porcentual bivariable, ya que permite examinar la distribución porcentual de una variable dependiente (ideología) dentro de las diferentes categorías de otra variable independiente (nivel de educación).

2. PRESENTACIÓN Y ANÁLISIS DE UNA TABLA BIVARIABLE

Cuando se puede distinguir entre variables, la dependiente se sitúa en filas y la independiente en columnas.

Además de los valores de las celdillas se suelen calcular dos subtotales, el de las filas (ni1) y el de las columnas (n1j) y un total global (N).

Cuando no es posible distinguir entre variable independiente y dependiente, la colocación en filas o columnas se hace siguiendo la conveniencia del analista.

La distribución porcentual bivariable presenta mejor los resultados para poder comparar; no sólo se puede examinar directamente la distribución global de una variable dependiente, sino también las condiciones que se supone influyen en la manera en que se distribuye dicha variable. Nos ayuda a explicar el nivel de algún tipo de fenómeno p.e. actitud política - religiosidad.

2.1. Cálculo de porcentajes en una tabla bivariable

Lo más habitual es que las tablas reflejen en % en lugar de frecuencias absolutas, para facilitar comparaciones numéricas. Los porcentajes se pueden calcular:

bien utilizando el total de las columnas como base bien utilizando el total de las filas como base bien utilizando el global como base.

¿Qué comparación debe facilitarse, la de las cifras de las columnas o filas ? Como regla general aceptamos que los % deben calcularse en el sentido del factor "causal" o de la variable independiente, e.d., que los % de cada columna (variable independiente) deben sumar 100.

n1% = ---- x 100

N

El contenido estadístico de las tres formas de calcular los % en una tabla es el mismo, pero al calcular los porcentajes en diferentes sentidos se ponen de manifiesto distintas distribuciones y se ofrecen distintas comparaciones.

La tercera manera de relacionar los números de cada celdilla con el total N. Esto nos permite conocer cuáles son las categorías más o menos numerosas.

Page 18: Estadística-2pp

Las comparaciones en una tabla bivariable porcentual se realizan mediante el exámen de las diferencias que se observan entre los porcentajes. El valor resultante de la comparación diferencial entre dos celdillas de la misma fila y de diferentes columnas se denomina (epsilón); también se denominan % de contraste.

Page 19: Estadística-2pp

Tema 5: CARACTERÍSTICAS DE UNA ASOCIACIÓN BIVARIABLE

En una clasificación cruzada de dos variables nuestro interés se centra sobre todo en el conocimiento de la forma en que se distribuye la variable dependiente para las diferentes categorías de la variable independiente o causal.

1. CARACTERÍSTICAS DE UNA ASOCIACIÓN BIVARIABLE

1. Existencia o ausencia de una asociaciónExiste asociación entre dos variables cuando la distribución de una variable difiere

de alguna manera entre las diversas categorías de la segunda variable. Así, existe una asociación si al calcular los coeficientes la mayor parte de ellos son

diferentes a cero. Asimismo,cuando todos los sean 0 no existe asociación alguna entre las variables.

2. Grado o fuerza de la asociaciónLa noción de grado o fuerza de la asociación entre dos variables está relacionada con el

valor de los coeficientes o . Cuando ambos valores son elevados cabe hablar de un alto grado de asociación o

de una fuerte asociación entre las variables, mientras que si los valores son pequeños se trata de una asociación débil.

3. Dirección de la asociaciónHace falta como mínimo variables ordinales. Cuando en una tabla la tendencia de

variación conjunta de ambas variables es que los valores altos de una variable se correspondan con los valores altos de una segunda variable; y que igual ocurra con los valores bajos, cabe hablar de una asociación positiva. Al revés, cuando los valores altos de la primera variable se corresponden con los bajos de la segunda, se dice que la asociación es negativa.

4. Naturaleza de la asociación Es la forma general con la que se distribuyen los datos en la tabla. Dicha forma general

se describe mediante el exámen de las distribuciones de los porcentajes, pudiéndose hablar de distribuciones regulares o irregulares.

Resulta de interés la asociación lineal, en la que los casos tienden a concentrarse en la variable dependiente siguiendo una línea recta.

2. LA OBTENCIÓN DE MEDIDAS DE ASOCIACIÓN ENTRE DOS VARIABLES: INDEPENDENCIA ESTADÍSTICA Y ASOCIACIÓN PERFECTA

Es uno de los objetivos de la estadística bivariable encontrar medidas que en un sólo índice revelen la existencia de grado y dirección de la asociación entre variables.

Una medida tal ha de poder variar a lo largo de una escala desde un valor mínimo de no-asociación a un valor máximo de mayor asociación pasando por el 0, que indicará independencia estadística.

Conviene que la medida de asociación se encuentre estandarizada p.e. haciendo coincidir sus valores límites con el -1 (asociación perfecta negativa) y el + 1 (asociación perfecta positiva) con el 0 indicando independencia estadística.

La medida más sencilla son los valores , que son las diferencias entre los valores observados (fo) y los valores esperados (fe):

subtotal fila x subtotal columnafe = ------------------------------------------

N total

Los fe son los valores que cabría esperar en el caso de "no asociación" para cada casilla y ver en qué medida se diferencian de los fo.

Cuanto mayor sea la diferencia entre los fo y fe, mayor será la seguridad de que existe asociación.

Page 20: Estadística-2pp

La suma de todos los valores es deficiente, ya que depende en primer lugar del tamaño de los valores esperados, y además, los valores particulares se pueden neutralizar entre sí al sumar cantidades afectadas de signo contrario. Los valores y aparte de revelar la existencia o no de una asociación, no dan más significado, pues no hay un valor máximo o mínimo.

A parte de la estandarización, hay dos características más, que debe tener una buena medida de asociación:

que el valor que se obtenga se pueda interpretar de la forma más intuitiva posible;

que el significado del valor 1 - la norma de la asociación perfecta - debe poder ser definible.

Se dice que una tabla bivariable refleja una asociación perfecta cuando todos los casos de la tabla se concentran en una diagonal, lo que significa que cada valor de una variable se encuentra asociado a un sólo valor de la segunda variable.

Asociación perfecta positiva: la correspondencia se produce entre las mismas categorías de ambas variables:

I III A 0II 0 B

Asociación perfecta negativa: la correspondencia se produce entre las categorías opuestas de las dos variables:

I III 0 AII B 0

Ej.: si se analiza la tasa de divorcio según zona rural, la asociación perfecta sería si todos los divorcios se concentrasen en las zonas urbanas y en la rural no hubiera ninguno. Todas las desviaciones respecto a esta distribución son asociaciones no perfectas.

2.1. Coeficiente Q de Yule

AD - BC A BQ = ----------- C D

AD + BC

* valores nominales* tablas 2 x 2* - 1 => asociación perfecta negativa* +1 => asociación perfecta positiva* 0 => independencia estadística

3. MEDIDAS SIMÉTRICAS Y ASIMÉTRICAS DE ASOCIACIÓN

* medidas simétricas: - no distinguen entre variable independiente o dependiente.- reflejan sólo la fuerza y dirección de la relación - Q de Yule, C de Pearson, V de Cramer

* medidas asimétricas: - requieren distinción entre variable independiente y dependiente. - están orientadas en general a la medición de la capacidad e influencia de una variable independiente para predecir los valores de la variable dependiente.- coeficiente Lambda, rho Spearman

4. MEDIDAS DE ASOCIACIÓN BIVARIABLE EN FUNCIÓN DE LOS DISTINTOS NIVELES DE MEDICIÓN DE VARIABLES

Page 21: Estadística-2pp

Las medidas de asociación para variables nominales, ordinales y de intervalo responden a diferentes criterios.

La distribución conjunta entre dos variables suele presentarse en forma de 'tablas de contingencia', que consisten en cruzar en un cuadro los valores de dos variables, apareciendo en cada casilla de la tabla el nº de observaciones que reúnen a la vez los dos valores de las variables que se cruzan en la casilla en cuestión.

Los coeficientes de asociación nos ayudarán a cifrar la relación existente entre las variables presentadas en la tabla de contingencia, cuantificando la intensidad y signo de la asociación. De ellos se puede extraer la medida que confirma o echa por tierra las hipótesis.

Conviene resaltar que una cosa es la existencia de una fuerte asociación o correlación, y otra bien distinta la existencia de una relación causal.

5. MEDIAS SIMÉTRICAS DE ASOCIACIÓN PARA VARIABLES NOMINALES

Recordemos que las medidas de asociación que no distinguen entre variables independientes o dependientes son las medidas simétricas.

1. Distribución chi-cuadrado x 2 :

Las limitaciones del sumatorio de todos los valores como medida de asociación se supera en buena medida si, en lugar de sumar los se suman sus cuadrados (así desaparece el problema de los signos). Si luego se divide cada al cuadrado por el valor esperado para cada celdilla, se controlan los efectos distorsionantes que se producen al considerar diferentes números de casos.

El término chi-cuadrado se usa tanto para designar una técnica estadística para el contraste de hipótesis, como para una distribución muestral.

Esta medida de asociación da lugar a unos valores "de distribución libre", ya que no dependen de condiciones especiales que deban cumplir los datos:

(fo - fe)2 x2 = ----------- = ------

fe fe

* variables nominales u ordinales* siempre positivo* no tiene un límite superior * 0 => independencia estadística

Test del chi-cuadrado

Se trata de la prueba de independencia básica para podernos asegurar la existencia o inexistencia de asociación entre las variables de la tabla.

Que x2 tenga un valor distinto a 0 indica que existe asociación, pero podemos cuantificarla mejor si recurrimos a un coeficiente de asociación estandarizado.

1. H0 : no hay relación entre las variables / H1 : sí hay relación entre las variables2. La prueba de x2 es unilateral3. Ns = 0,054. Encontrar x2 - posteriormente, para ver si este grado de asociación es extrapolable al

conjunto de la población de la que extrajimos la muestra, realizamos el test del chi-cuadrado.5. ¿ Sería extrapolable la asociación observada para toda la población?Se compara el x2 obtenido con el de la tabla, teniendo en cuenta que gl = (f-1) (c-1).Si x2e > x2c => aceptamos H1; sí es extrapolable a la población.Si x2e < x2c => aceptamos H0; el grado de asociación que habíamos cuantificado es

aplicable sólo a la muestra utilizada.

2. Coeficiente phi

Page 22: Estadística-2pp

x2 x2

2 = ------ = ----N N

* tablas mismos tamaño; 2 x 2, 4 x 4* 1 => asociación perfecta* 0 => independencia estadística

3. Coeficiente de contingencia C

x2

C = ---------- x2 + N

* tablas mismos tamaño; 2 x 2, 4 x 4* valor máximo 1 => asociación perfecta* 0 => independencia estadística

Una vez hallado para una interpretación correcta ha de compararse con el valor máximo de C.

k - 2Cmax = ------- k = nº de filas o columnas (el + bajo)

k

Luego se divide C/Cmax y este es el valor que conviene explicar sobre su grado de asociación.

4. Coeficiente V de Cramer

x2

V = --------N (k-1)

* la tabla consta de distintos números de filas y columnas* 1 => asociación perfecta* 0 => independencia estadística

6. PRUEBAS DE HIPÓTESIS O TEST DE ASOCIACIÓN PARA LAS DISTINTAS MEDIDAS DE ASOCIACIÓN NOMINAL

Además de comprobar la existencia de una asociación y de medir su fuerza, se puede estar interesado en contrastar la existencia de una asociación en la población de la que se ha extraído la muestra.

El coeficiente de asociación representa tan sólo el grado de la asociación, mientras que la prueba de significación de dicho coeficiente determina para un nivel de probabilidad previamente establecido, si la asociación existe igualmente en la población de la que se ha extraído la muestra.

Page 23: Estadística-2pp

Tema 6: MEDIDAS ASIMÉTRICAS DE ASOCIACIÓN NOMINAL

Hay una asociación positiva entre las variables nivel de ingresos y educación cuando p.e. el individuo A tiene más educación que B por lo que se puede predecir que el nivel de ingresos tendrá el mismo orden.

1. MEDIDAS DE ASOCIACIÓN BASADAS EN EL CRITERIO DE "REDUCCIÓN PROPORCIONAL DE ERROR" (RPE)

Las medidas del tipo RPE consisten en simples cocientes de la cantidad de error cometido al predecir la variable dependiente en dos situaciones:

1. la predicción se realiza cuando sólo se conoce la distribución de la propia variable dependiente;

1. la predicción se realiza cuando se dispone del conocimiento adicional de una variable independiente y la forma en que la variable dependiente se distribuye dentro de la variable independiente.

Las medidas de tipo RPE formulan la proporción en que se puede reducir el error cometido en la primera de las situaciones descritas, al utilizar la información que suministra la segunda de las situaciones.

2. El coeficiente Lambda ( coeficiente gamma)

Como tiene carácter asimétrico lo primero es decidir qué variable vamos a tomar como dependiente o independiente. Mide la capacidad de una variable independiente en la predicción de los valores de la variable dependiente.

La fórmula para Lambda se puede expresar en términos de la reducción proporcional en el error cometido al predecir la moda:

my - My Moy/x - Moy

x,y = -------------- = ------------------- N - My N - Moy

Moy = frecuencia modal entre los totales de las filas (los más altos)Moy/x = la suma de los valores más altos de cada columna

* variables nominales u ordinales* tablas de todo tipo* 1 - asociación perfecta = todos los casos en cada categoría de la variable

independiente se concentran en una única categoría (la categoría modal) de la variable dependiente.

* 0 = cuando la información suministrada por la variable independiente no añade ningún valor predictivo adicional a la predicción de la moda de la variable dependiente.

Si = 0,03 indica que el conocimiento de la distribución de la actividad laboral (variable independiente) sólo puede reducirnos en un 3% el error de predicción sobre la categoría modal del "acuerdo/desacuerdo" frente a la gravedad de las drogas. Nos vuelve a confirmar el bajo nivel de asociación entre las dos variables.

Se puede calcular luego al revés, cambiando la variable independiente por la dependiente.

2. MEDIDAS DE ASOCIACIÓN PARA VARIABLES ORDINALES

Si se trata de dos variables ordinales, lo que se pretende conocer es si el ordenamiento de los casos en una variable resulta útil para la predicción del orden de los casos en la otra variable. Si no es útil la medición de asociación será 0.

2.1. Coeficiente rho de Spearman

Page 24: Estadística-2pp

* variables ordinales * rs = 0 => no existe una ordenación sistemática entre dos variables; aunque pueda existir asociación * rs = -1 => ordenación opuesta de los casos en las variables; relación inversa* rs = +1 => acoplamiento perfecto de las dos ordenaciones; no tiene porqué ser causal

6d2

rs = 1 - ------------ n (n2 - 1)

Si rsc rse => se rechaza H0 de la no asociación en la población de las dos variables.Si rsc rse => se acepta H1.

Page 25: Estadística-2pp

Tema 7: MEDIDAS DE ASOCIACIÓN PARA VARIABLES DE INTERVALO

Al estudiar el tipo de relación existente entre dos variables de intervalo aparecen dos conceptos que conviene diferenciar:

se trata de analizar el grado de correlación (o grado de asociación) entre las dos variables, lo cual remite al estudio de la variación conjunta de dos variables, su intensidad y dirección;

aparece el problema de la regresión o predicción de los resultados en una de las dos variables, conocidos los resultados de la otra.

Al tratarse de variables de intervalo, la media aritmética cobra gran valor, pues como recordamos, la media puede utilizarse como valor predictivo, ya que una de sus propiedades es que la suma de las desviaciones de cada puntuación en relación a la media es 0.

1. ECUACIONES DE REGRESIÓN LINEAL

Siempre que se disponga de dos variables medidas al nivel de intervalo se debe tratar de definir la función que relaciona a ambas variables, tratando de especificar la forma y el significado de dicha función.

La relación lineal entre dos variables de intervalo se da cuando a cada aumento unitario de los valores de una variable se produce un incremento constante de los valores de la otra. No siempre el tipo de relación existente entre dos variables es tan sencillo como en este caso, y aparecen las relaciones curvilíneas.

La ventaja principal del análisis de regresión estriba en que resume en una expresión simple gran cantidad de información y permite a la vez conocer o predecir los valores que tomará la variable dependiente supuestos los valores de la independiente.

1.1. Relación entre dos variables estadísticas: ecuación de una recta

En sociología la mayor parte de las relaciones empíricas conocidas son simples y de tipo lineal. La ecuación de una recta es:

y = a + bx

a = ordenada en el origen; indica el punto donde la recta de regresión corta el eje de las ordenadas o el valor de 'y' cuando 'x' vale 0b = coeficiente angular o pendiente de la recta; representa la cuantía en que varía 'y' cuando 'x' varía en una unidad.Si b = positivo => la recta es creciente; 'x' crece 'y' creceSi b = negativo => la recta es decreciente; 'x' decrece 'y' creceSi b = 0 => no existe relación entre 'x' e 'y'.

Una vez hallada la ecuación de regresión se pueden predecir los distintos valores 'y' sustituyendo 'x' por algún número.

1.2. La ecuación de regresión y el ajuste por mínimos cuadrados. Error típico de la estimación

Con los valores de 'x' y las medias 'y' en unos ejes, se obtendrá una representación que puede ser lineal o curvilínea, de las medias de 'y' para cada valor de 'x' en forma de una ecuación de regresión de 'y' en 'x'.

Estas ecuaciones de regresión son las "leyes" de la ciencia, ya que una vez conocida la expresión matemática que describe la forma y dirección de la línea o curva de las medias, se pueden realizar predicciones exactas.

Aunque en realidad muchos datos se encuentran dispersos, el conjunto de todos ellos se suele adaptar bastante bien alrededor de la línea de regresión. El problema consiste en ajustar la línea de regresión de tal forma que se ajuste lo mejor posible a los datos.

Page 26: Estadística-2pp

Para comprobar qué ecuación predice con mayor exactitud los valores de 'y' en 'x' se sigue el criterio de estimación de la varianza:

(Y - Y')2

= S2yx = --------------

N - 2

Y' = valor calculado de 'y' aplicando la ecuación de predicción.

La ecuación que realiza la mejor predicción es la línea de regresión de mínimos cuadrados de 'y' en 'x', que se caracteriza por hacer mínimo el error típico de la estimación que es Se2. Se basa en que la suma de las desviaciones al cuadrado de las puntuaciones alrededor de la recta es la más pequeña de todas las rectas consideradas.

Para obtener la línea de los mínimos cuadrados hay que calcular a y b:

(x-x) (y - y) Sxy

b = ------------------- = ----- (x-x)2 Sx2

2. TEST DEL COEFICIENTE DE REGRESIÓN

Se utiliza para comprobar la H0 de si el coeficiente de regresión 'b' de la ecuación obtenida con los datos de una muestra sacada al azar de una población determinada, difiere significativamente de los valores prefijados del coeficiente correspondiente en la población. Los pasos a seguir son los mismos que en cualquier prueba de hipótesis.

Se pueden usar indistintamente las dos siguientes fórmulas:b -

1. t = ------- N-2 r2 = coeficiente de determinación1 - r2

b - 2. t = ------- N-2 Sy/x = error típico de estimación

Sy/x/Sy

Se utiliza la distribución t de Student; para gl = N - 2 de manera unilateral si aparecen los signos < o > y bilateral si aparece = o .

3. COEFICIENTE R DE CORRELACIÓN DE PEARSON

Los sociólogos están muy interesados en encontrar variables que estén fuertemente asociadas con otra variable dependiente. El análisis de regresión pasa a un segundo plano, cediendo la prioridad al estudio del grado de asociación o correlación entre las variables.

* variables de intervalo (simplificar tablas para cada fila con medias Xcmc x n : N)* mide la cantidad de dispersión en relación a la ecuación lineal de mínimos cuadrados* r = -1 => asociación perfecta negativa; 'x' crece 'y' decrece - b = negativo* r = +1 => asociación perfecta positiva; 'x' crece 'y' crece - b = positivo* r = 0 => no es sólo ausencia total de relación, ya que 'x' e 'y' pueden estar fuertemente asociadas de forma curvilínea - b = 0

Antes de calcular r es aconsejable representar en un sistema cartesiano los valores de 'x' e 'y', para ver si su distribución se aproxima a lo lineal o a lo curvilíneo, y realizar un primer exámen visual del tipo de asociación.

VER FOTOCOPIA ANEXA

3.1. Diversas fórmulas para el cálculo de r

Page 27: Estadística-2pp

De lo que se trata es de explicar el máximo posible de variación (= suma de los cuadrados de las desviaciones en relación a la media), siendo el cuadrado del coeficiente de correlación de Pearson, r2, llamado coeficiente de determinación, una expresión del grado en que la ecuación de regresión lineal explica la variación en la variable dependiente. r2 expresa la rpe cometida al predecir los valores para la variable dependiente a partir de la ecuación de regresión.

A partir de r se puede conocer tanto la dirección como el grado o fuerza de la asociación, aunque es sensible a la presencia de unos pocos valores extremos en una o en la dos variables. Por ello hay que considerar la variabilidad total de 'x' e 'y' antes de realizar una afirmación acerca del grado de correlación.

3.2. Interpretación del coeficiente de correlación

r2 es la proporción de la variación total en una variable que queda explicada por la otra. No existe una interpretación sencilla y directa para el propio coeficiente r; p.e. si r = 0,6 puede parecer que representa una buena correlación, cuando en realidad sólo se está explicando (0,6)2 = 0,36, e.d., el 36 % de la varianza. La correlación con r 0,3 sólo explica una pequeña proporción de la variación.

El coeficiente r de Pearson es la mejor medida de la fuerza y dirección de la asociación, siendo una medida estandarizada de la covarianza por el producto de las varianzas.

1. Hallar las medias de 'x' e 'y'2. Hay varias fórmulas para hallar b.3. Después se puede hallar la recta de regresión de 'x' sobre 'y'

y = a + bx / a = y - bx

También existe la recta de regresión de 'y' sobre 'x': x = a + b' y

4. Ya puede calcularse: r = b b'

Si r = 0,42 esto indica que la relación es moderadamente baja entre 'x' e 'y'. 5. r2 = 0,1764 - sólo el 17,64% de la varianza conjunta es explicada por la variable

independiente.

La representación gráfica de x = a + b'y así como y = a + bx nos indica la correlación:

no existe correlación; 'x' e 'y' no son variables independientes.

La correlación perfecta se produce cuando ambas rectas se superponen y el ángulo = 0.

Correlación débil Correlación fuerte

4. TEST PARA EL COEFICIENTE DE CORRELACIÓN R. Intervalo R en la población

Cuando los pares de valores de las variables 'x' e 'y' pertenecen a una muestra aleatoria extraída de una población determinada, el interés se puede centrar en la comprobación de si existe o no correlación en la población.

Se estudiará la H0 de no existencia de relación lineal en la población, lo que conduce a la utilización de un análisis de varianza para contrastar la hipótesis de r = 0.

Fórmula: rt = ---------- N - 2

Page 28: Estadística-2pp

1 - r2

Para N - 2 grados de libertad (ver tablas de valores 'r' a Ns 0,05 y 0,01)

Estimación del intervalo para el coeficente R de Pearson

Fórmula: Z 1,96 z..............................Nc = 95 %Z 2,58 z..............................Nc = 99 %

1Error típico del coeficiente Z de Fisher: z = --------

n - 3

1. Pasar valores de r a unidades Z según tablas.2. Se trabajará con la unidad Z para la creación del intervalo según fórmulas indicadas.3. Se volverá a transformar Z en r según tablas del punto1.

Page 29: Estadística-2pp

Tema 8: ELABORACIÓN DE LA RELACIÓN ENTRE DOS VARIABLES

Al comparar el tipo de relación que aparece entre las dos variables originales en cada una de las subpoblaciones definidas al introducir una o mas variables, se pueden extraer consecuencias interesantes acerca del efecto de tales variables en la relación básica original. Esta forma de análisis se denomina elaboración de la relación entre dos variables, cuyo gran metodólogo fue Lazarsfeld.

La necesidad de introducir terceras variables en el estudio de la relación entre dos variables, se fundamenta en el carácter multidimensional de muchos fenómenos sociales.

Las variables sociológicas se suelen presentar "en bloque"; cada individuo o grupo social puede describirse en términos de un número determinado de dimensiones. Así, al describir a un individuo sobre el tipo de ocupación en relación a situación familiar, conviene introducir otras variables como nivel de educación, religiosidad, etc.

1. LA INTERPRETACIÓN DE LAS RELACIONES ESTADÍSTICAS: UN EJEMPLO DE ELABORACIÓN

Los resultados que aparecen al establecer relaciones significativas entre dos variables, tienen un carácter exclusivamente descriptivo. Pero estos resultados no indican porqué ocurren algunas cosas, p.e. porqué los más religiosos suelen ser más conservadores.

En lugar de especular introduciremos una tercera variable llamada variable de control o factor de prueba en la relación bivariable original. Esto es en esencia la elaboración.

Así tratamos de saber si la relación entre una variable independiente 'x' y una dependiente 'y' se debe a la variable de control 'T'. Si el valor de las nuevas relaciones bivariables disminuyera sensiblemente sería una prueba de que 'T' es en realidad la "responsable" de la relación original entre 'x' e 'y'.

Así, p.e., si analizamos la intención de voto de mujeres y hombres podemos decir que los hombres votan más a la izquierda. Al introducir el factor de prueba 'trabajo/no trabajo', se producen unas nuevas tablas condicionales o asociación de contingencia.

Hablamos al considerar una sola variable de control de tablas condicionales de primer orden; cuando son dos variables de control, tablas condicionales de segundo orden, etc.

1.1. Fórmula de recuento de Lazarsfeld

Al introducirse T entre la relación XY se producen nuevas relaciones y aparecen dos tablas condicionales que se simbolizan como (XY;T) y (XY;T') - relaciones parciales.

Las relaciones marginales son las relaciones entre T y la variable independiente 'x' y la dependiente 'y'.

Según Lazarsfeld las nuevas relaciones resultantes al introducir T, pueden igualarse en la relación original del siguiente modo:

(XY) = (XY;T) (XY;T') (XT) (YT)

no es una suma aritmética sino una ecuación que "formaliza" las conexiones mutuas que se producen entre diversas relaciones.

Una situación interesante se da cuando el factor de prueba no está relacionado con las variables originales y las relaciones marginales valen 0; se trata de una ecuación tipo P o parcial, porque la relación original depende de las relaciones parciales:

a) (XY) = (XY;T) (XY;T') + (0) (YT)b) (XY) = (XY;T) (XY;T') + (XT) (0)

La ecuación tipo M o marginal es cuando desaparecen las relaciones parciales y la relación original es igual a los términos marginales; depende de las relaciones marginales que se establecen entre las tres variables;

(XY) = 0 + 0 + (XT) (YT)

2. EL PAPEL DE LA TEORÍA EN LA ELABORACIÓN DE RELACIONES ENTRE

Page 30: Estadística-2pp

VARIABLES

En la práctica apenas encontramos casos puros de los tipos P y M. Las diferencias entre los tipos P y M ponen de relieve que no todas las variables de control tienen el mismo significado e interpretación teórica.

La teoría es importante para seleccionar las relaciones originales y variables de control más relevantes; sólo con 5 variables se puede hacer infinidad de tablas, por lo que es fundamental definir las relaciones importantes.

Es importante el lugar que ocupa la variable de control:

variable antecedente: antecede a las variables independientes y dependientes.

variable consecuente: sus efectos se producen después de las variables dependiente e independiente.

variable interviniente: actúa antes de la variable dependiente, pero después de la independiente.

La interpretación teórica de los resultados será diferente según el orden en el que actúe la variable de control al incidir en la relación original.

3. MODELOS DE ELABORACIÓN

Los tres modelos de elaboración más frecuentes en la investigación social son:

1. La especificación de una relación entre dos variables

Responde al tipo P parcial de elaboración. Tiene lugar cuando se trata de conocer el tamaño relativo de las relaciones parciales, con el fin de especificar las circunstancias bajo las cuales la relación original es más o menos pronunciada.

En el caso típico, la especificación tiene lugar cuando al introducir la variable de control, las relaciones condicionales que aparecen, aun sin alterar básicamente el sentido de la relación original, presentan unos resultados que varían de unas tablas a otras, revelando diversos matices de la relación original; p.e. edad - deporte - T: nivel educativo.

2. La explicación de una relación entre dos variables

Hay casos en que la relación entre dos variables es falsa, ya que no es significativa sino que más bien se debe a una relación accidental con una variable asociada; aparece una relación asimétrica, que en realidad es simétrica. El sociólogo cuando ve una relación entre dos variables se pregunta si realmente es significativa.

La explicación es un tipo de elaboración que pretende controlar los factores que invalidan la relación que sospechamos es falsa. Serán siempre razones teóricas las que impulsen a buscar terceras variables que al introducirse en la relación original que creemos falsa crearán tablas condicionales en las que desaparecerá la relación original. Ello se debe a que la variable de control se encuentra asociada a las dos variables originales. Al mantener constante los valores de la variable de control desaparece la relación original. No existen relaciones falsas, sino interpretaciones falsas. P.e.: inmigración de las cigueñas + niños. Si introducimos la variable zona rural/urbana la relación original desaparece. La variable interviniente es ajena.

3. La interpretación de una relación entre dos variables

La introducción de variables de control puede ofrecer otra ventaja teórica, que es la de contribuir a establecer secuencias causales. Por ello, cuando se encuentra una relación original significativa que no satisface teóricamente, se producirá una interpretación de dicho resultado, si se logra encontrar una tercera variable de carácter interviniente, e.d., que sea consecuencia de la variable independiente y determinante de la variable dependiente, que altere el primer resultado, reduciendo sensiblemente la asimetría de la relación original. En este caso la variable interviniente no es ajena, p.e. clase social - intención de voto - T: interés por la política.

Page 31: Estadística-2pp

4. VARIABLES SUPRESORAS Y VARIABLES TRANSFORMADORAS

También resulta de interés comprobar si la falta de relación entre dos variables es real o se debe, por el contrario, a la existencia de una tercera variable que suprime la manifestación de una asociación entre las dos variables originales => variable supresora. p.e.: control de natalidad - status socioeconómico T: ir o no a misa.

En el caso de la variable transformadora la introducción del factor de prueba crea unas tablas condicionales en la que el sentido de la relación es de signo contrario al que tenía la relación original. p.e. status socioeconómico - centralismo T: población inmigrante/oriunda.

Page 32: Estadística-2pp

Tema 9: EL ANÁLISIS MULTIVARIABLE EN LA INVESTIGACIÓN SOCIOLÓGICA

El método de elaboración de la relación entre dos variables que trata de solucionar los problemas cuando se introduce una variable de control es prácticamente inviable cuando se consideran los efectos de 3 o 4 variables de control.

Gracias a los ordenadores se ha facilitado los complejos cálculos y en la actualidad se efectúan tratamientos analíticos con 5 o más variables. Existían amplias encuestas sociales que posteriormente eran tratadas a nivel bi y trivariable.

La ausencia de leyes sociales invariables es notoria y buena parte de la investigación social continúa siendo de naturaleza empírica, exploratoria o inductiva. El ordenador se utiliza para analizar, seleccionar, almacenar, clasificar y procesar datos sobre actitudes, opiniones, valores y comportamientos que provienen de encuestas.

1. DEFINICIÓN DEL ANÁLISIS MULTIVARIABLE

Según Kendall el rasgo más característico es "la consideración de una serie 'u' de objetos en cada uno de los cuales se observan los valores de 'p' variables. Es la rama de la estadística interesada en el estudio de las relaciones entre series de variables dependientes y de los individuos que las sustentan".

Los objetos que se persiguen más importantes son:1. Simplificación estructural2. Clasificación en grupos3. Agrupamiento de variables4. Análisis de la interdependencia5. Análisis de la dependencia6. Construcción y contraste de hipótesisCualquier análisis simultáneo de más de dos variables forma parte del análisis

multivariable. Tiene varias ventajas sobre el análisis bivariable:* economía en el almacenamiento de los datos;* mayor consistencia en la inferencia estadística;* desarrollo de conceptos teóricos más adecuados;* mayor precisión y perspectiva conceptual.Las técnicas de análisis multivariable no son más que instrumentos que facilitan el

análisis de datos, pero poco pueden hacer por mejorar la calidad de los propios datos sociológicos.

2. NOCIONES ALGEBRAICAS ELEMENTALES EN LAS TÉCNICAS MULTIVARIABLES

Generalmente los datos suelen provenir de las encuestas, pero también pueden provenir de cualquier otro tipo de fuentes primarias o secundarias, p.e. archivos, censos.

La matriz general de datos es un cuadro con columnas y filas donde cada celdilla contiene las respuestas. Se obtiene al distribuir la información en 'n' filas y 'm' columnas. La regla convencional es incluir las variables en las columnas y las unidades individuales en filas.

El álgebra matricial se ha desarrollado con el objeto de representar en un lenguaje sencillo y universal las operaciones que se realizan con las matrices, dado que a veces contienen un enorme número de filas y columnas.

Las medidas resumen que se utilizan en las matrices no son las medias de las variables, sino las varianzas y covarianzas. A partir de la matriz original se constituyen matrices de varianzas y covarianzas, en las que los valores son covarianzas.

También se utilizan matrices de correlación, que no son otra cosa que matrices de varianza - covarianza estandarizadas, e.d., en las que los valores de filas y columnas se han dividido por la desviación típica correspondiente.

3. CLASIFICACIÓN DE LAS TÉCNICAS DEL ANÁLISIS MULTIVARIABLE

Page 33: Estadística-2pp

Generalmente se intenta explicar variables, e.d., porqué una variable varía de la forma en que lo hace. La explicación consiste en el hallazgo de un determinante o fuente, la variable observada.

A menudo hay que referirse a variables no observadas, que en su forma más sencilla se utilizan cuando se supone que una variable observada está sometida a error, y no es perfectamente fiable. Se supone que hay dos fuentes de error:

lo que se mide => componente sistemático un componente aleatorio que se añade a lo que se mide => componente de

error.

Ambos componentes son variables no observadas, pues no se conocen los valores que toman. Nótese que son construcciones teóricas, pues surgen de una teoría o de una interpretación de la variable observada.

El análisis multivariable se divide en dos grandes ramas:

técnicas basadas en relaciones de dependencia: establecen una distinción entre las variables a explicar (= dependientes, endógenas) y las variables explicativas (= independientes, exógenas). Tienen por objeto establecer la relación entre las variables como base para realizar una predicción.

técnicas basadas en relaciones de interdependencia: no establecen diferenciación. El objeto principal es el de organizar los datos de forma que sean más manejables para el investigador y ofrezcan una mayor comprensión global.

La denominación de técnicas R se basa en la correlación entre variables y la técnica Q en la correlación entre unidades u objetos. Así, una misma técnica multivariable puede emplearse en su versión R o Q a una matriz, cuyos valores son unidades o variables.