Introducción a la estadistica

17
1 División de Ciencias Sociales y Humanidades Tronco Divisional Casa abierta al tiempo UNIVERSIDAD AUTÓNOMA METROPOLITANA Taller de Matemáticas Aplicadas a las Ciencias Sociales Lección 1 1.1 Introducción La ciencia matemática representa para el saber humano uno de sus principales pilares en la construcción del conocimiento. Es difícil no encontrar alguna aplicación de las matemáticas en el quehacer humano. Las matemáticas en ciencias sociales, al igual que en otras áreas del saber científico representan una herramienta medular para adquirir y consolidar el conocimiento. Peña [ ] nos señala tres razones que en buena medida justifican la importancia de las matemáticas en las ciencias: i) En primer lugar, las matemáticas obligan a definir claramente las variables de interés en cada problema, a establecer hipótesis sobre su comportamiento y a definir las relaciones entre ellas. ii) En segundo lugar, el lenguaje matemático permite importar a las ciencias sociales modelos de relación entre variables que han tenido éxito en otras ciencias, ofreciendo nuevas posibilidades de explicación de los fenómenos sociales y enriqueciendo el conjunto de modelos disponibles para investigar la realidad. iii) En tercer lugar, la creciente disponibilidad de datos, debido a la difusión de ordenadores y la automatización en todas las actividades humanas, permite contrastar con mayor rigor los modelos sociales en la práctica mediante los métodos estadísticos y generar predicciones y reglas de comportamiento verificables con los datos. El lenguaje y formalidad existente en matemáticas permite indagar sobre posibles reglas generales de comportamiento de los fenómenos objeto de estudio, dando lugar a posibles predicciones con validez científica. Sin embargo debemos mencionar que el grado en que se puede utilizar las matemáticas como herramienta de análisis, depende poderosamente de que tan posible es medir las distintas variables de interés y entender las reglas que rigen las relaciones entre ellas. El nivel en que la ciencia matemática se aplica en otras áreas, se encuentra íntimamente relacionado a esto. Así, cualquier asunto que sea observable y cuantificable, se traduce en conocimiento e información. 1.2 Definición. Dentro de las ramas que conforman la ciencia matemática, la estadística es relevante por su aplicación a una gran cantidad de disciplinas científicas y que además permite el

Transcript of Introducción a la estadistica

Page 1: Introducción a la estadistica

1

División de Ciencias Sociales y Humanidades

Tronco Divisional

Casa abierta al tiempo

UNIVERSIDAD AUTÓNOMA METROPOLITANA

Taller de Matemáticas Aplicadas a las Ciencias Sociales

Lección 1

1.1 Introducción

La ciencia matemática representa para el saber humano uno de sus principales pilares en la

construcción del conocimiento. Es difícil no encontrar alguna aplicación de las matemáticas

en el quehacer humano. Las matemáticas en ciencias sociales, al igual que en otras áreas

del saber científico representan una herramienta medular para adquirir y consolidar el

conocimiento. Peña [ ] nos señala tres razones que en buena medida justifican la

importancia de las matemáticas en las ciencias:

i) En primer lugar, las matemáticas obligan a definir claramente las variables de interés

en cada problema, a establecer hipótesis sobre su comportamiento y a definir las

relaciones entre ellas.

ii) En segundo lugar, el lenguaje matemático permite importar a las ciencias sociales

modelos de relación entre variables que han tenido éxito en otras ciencias, ofreciendo

nuevas posibilidades de explicación de los fenómenos sociales y enriqueciendo el

conjunto de modelos disponibles para investigar la realidad.

iii) En tercer lugar, la creciente disponibilidad de datos, debido a la difusión de

ordenadores y la automatización en todas las actividades humanas, permite contrastar

con mayor rigor los modelos sociales en la práctica mediante los métodos estadísticos

y generar predicciones y reglas de comportamiento verificables con los datos.

El lenguaje y formalidad existente en matemáticas permite indagar sobre posibles reglas

generales de comportamiento de los fenómenos objeto de estudio, dando lugar a posibles

predicciones con validez científica. Sin embargo debemos mencionar que el grado en que

se puede utilizar las matemáticas como herramienta de análisis, depende poderosamente de

que tan posible es medir las distintas variables de interés y entender las reglas que rigen las

relaciones entre ellas. El nivel en que la ciencia matemática se aplica en otras áreas, se

encuentra íntimamente relacionado a esto. Así, cualquier asunto que sea observable y

cuantificable, se traduce en conocimiento e información.

1.2 Definición.

Dentro de las ramas que conforman la ciencia matemática, la estadística es relevante por su

aplicación a una gran cantidad de disciplinas científicas y que además permite el

Page 2: Introducción a la estadistica

2

intercambio de resultados entre ellas, potenciando los estudios multidisciplinares. Ello se

debe en buena medida a la facilidad que permiten los equipos de cómputo de manejar

enormes volúmenes de información en tiempos razonables hoy día. Sin llegar a una

definición formal, podemos decir que la estadística es aquella ciencia que mediante la

recopilación, organización y análisis de datos, interpreta y comunica resultados para la

toma de decisiones o para explicar si las condiciones del fenómeno (aleatorio o

determinístico) estudiado, se pueden establecer como regulares o no. De acuerdo a Wayne

[3], el trabajo estadístico busca alcanzar uno o dos de los siguientes objetivos:

1 Describir cuantitativamente una serie de personas, lugares o cosas

2 Dar información de la que se pueda sacar conclusiones acerca de un grupo grande de

personas, lugares o cosas, por medio de la observación de sólo una pequeña parte del

conjunto total.

El trabajo estadístico al que se refiere el primer objetivo, es el que se conoce con el nombre

de estadística descriptiva y aquellas enfocadas en el segundo se denominan estadística

inferencial, que se basa en los fundamentos de la teoría de la probabilidad.

1.3 Terminología estadística básica

Antes de pasar al trabajo con los datos, conviene definir algunos términos fundamentales

que utilizaremos en esta parte del curso. Esto facilitará el entendimiento de conceptos y

técnicas que ocuparemos a medida que se vayan presentando.

Entidad. Es el conjunto de personas, lugares, cosas etc., que son objeto de estudio.

Así por ejemplo, hombres y mujeres sin educación básica en un país. Población de

cierta especie de cactus que habita en el desierto de Sonora o pacientes con

enfermedad del corazón entre los 40 y 50 años. En términos generales entenderemos

por entidad, a un miembro individual del conjunto objeto de análisis.

Variable. Es el conjunto de características atribuibles a las entidades estudiadas.

Por ejemplo, un químico fármaco-biólogo puede estar interesado en alguna

propiedad curativa del cactus de Sonora. Un médico podría estar buscando conocer

el nivel de colesterol en sus pacientes enfermos del corazón o al ministerio de

educación de algún país le interesa conocer el número de individuos analfabetas

para el diseño de políticas públicas. Cualquiera de estas características, en términos

generales presenta un valor diferente en cada entidad observada.

Variable aleatoria. Si los valores que toma una variable son producto de factores

fortuitos de manera que no se pueda estimar con anticipación ninguno de ellos,

dicha variable se conoce como variable aleatoria (v.a.). Para la representación de

Page 3: Introducción a la estadistica

3

una v.a. utilizamos (aunque no son la únicas) letras mayúsculas como X, Y, y Z. Si

por ejemplo llamamos X al nivel de colesterol, los niveles individuales de colesterol

los denominamos, x1, x2,…,xn , donde los subíndices distinguen a un valor de otro y

n representa el número total de individuos de la v.a. Es importante mencionar que

las variables también se pueden distinguir según sean discretas o continuas o

cualitativas o cuantitativas.

Variable continúa. Una variable continua es aquella que teóricamente puede tomar

cualquier valor en un intervalo definido. El peso de una persona es un ejemplo de

esto. En un intervalo definido teóricamente es posible encontrar un valor entre dos

conocidos por muy cercanos que estén entre ellos. Entre otros ejemplos podemos

mencionar, estatura, tiempo o temperatura.

Variable Discreta. Cuando los valores que puede tomar una variable en un

intervalo definido están separados entre sí, la variable se denomina discreta.

Ejemplo de esto se puede mencionar el número de llamadas a un conmutador entre

las 9:00 am y las 12:00 pm, número de pacientes que arriban a un hospital en un día,

número de secuestros en un mes en la Ciudad de México, etc.

Variable cuantitativa. Una variable se dice ser cuantitativa siempre que los valores

que puede asumir sean resultados exclusivamente de medidas numéricas. Algunos

ejemplos son, precipitación de la lluvia por mes, medida en milímetros en el Estado

de México, el coeficiente intelectual (CI) de un grupo de estudiantes, etc.

Variable cualitativa. Existen situaciones en el trabajo estadístico en donde no es

posible obtener medidas numéricas, de manera que únicamente se puede clasificar

la información. Por ejemplo, la variable “género” sólo puede describirse como

masculino o femenino, la calificación de un servicio, recibe valores como excelente,

bueno, regular y malo u otros más específicos. Una variable cuyos valores sólo

aceptan categorías de clasificación se denomina variable cualitativa.

Es importante aclarar que a los valores numéricos de una variable cuantitativa, se le

conocen como datos de medición, puesto que se obtienen mediante algún proceso

de medición. En el caso de una variable cualitativa, nos referimos a ellos como

datos de conteo, puesto que en general es necesario contar el número de entidades

para clasificarlas en las categorías previamente definidas. En general nos referimos

a un dato de medida o conteo como una observación.

Población. La población representa un conjunto de valores de una variable

aleatoria relacionada a un conjunto de entidades. También podemos hablar de

población cuando nos referimos a un conjunto de entidades. Una definición de

población podría consistir en el conjunto más grande de valores, de una variable,

objeto de interés de un estudio estadístico.

Muestra. Una muestra consiste en una parte de la población. El tamaño de una

población puede ser muy grande, por ejemplo, la encuesta de población que Inegi

realiza cada diez años se lleva a cabo mediante una muestra de hogares, ya que

encuestar a los aproximadamente 28.6 millones de hogares [1 ] resultaría imposible.

Page 4: Introducción a la estadistica

4

1.4 El trabajo básico con los datos: Distribuciones de frecuencia.

El trabajo estadístico inicia con la obtención de los datos. Sin embargo estos por si mismos

no permiten la realización de análisis e interpretación de los mismos. Para facilitar los

cálculos es necesario extraer información y organizarla de manera conveniente. Lo anterior

puede dificultarse cuando hablamos de grandes volúmenes de información. Un instrumento

muy útil para el trabajo básico con datos voluminosos es la distribución de frecuencia. Esta

consiste en una representación de las categorías numéricas de la variable junto con el

número de entidades que se clasifican en cada categoría. Aquellas categorías que no se

traslapan y son contiguas se denominan intervalos de clase. Cada uno de estos intervalos

está definido por un límite inferior y uno superior. Estos límites especifican la magnitud de

valor que puede incluirse en un determinado intervalo de clase. La distribución de

frecuencia consiste en el conjunto de intervalos de clase contiguos (no traslapados) y se

puede representar en forma tabular o gráfica conocida como histograma.

Ejemplo 1.1 Los siguientes datos representan los puntajes del CI de 150 estudiantes de

tercer grado de un determinado sistema escolar [4]. Elaborar tabla de frecuencias e

histograma correspondiente.

88 91 104 113 125 101 114 105 101 88 126 118 100 111 125 109

119 91 106 120 129 120 109 104 112 101 113 100 106 105 121 128

93 89 124 96 105 95 91 106 93 88 89 100 115 98 108 88

99 120 101 108 118 118 113 114 109 91 104 109 110 113 119 119

106 106 97 104 105 122 112 124 108 121 96 97 99 101 116 118

102 127 121 116 100 95 89 103 115 113 129 91 85 108 103 116

108 98 108 114 102 96 99 108 114 121 107 122 100 116 111 113

109 104 113 118 110 129 124 105 93 115 120 97 112 94 113 122

114 106 105 115 98 112 103 92 125 107 115 118 128 92 85 126

118 114 125 121 122 117

Bibliografía

[1] Conapo. Series de información temática y continua de hogares en México 1980-2010

[2] Peña, Daniel. Las matemáticas en las ciencias sociales. Universidad Carlos III. www.encuentros-

multidiciplinares.org/Revistan°23/Daniel%20Peña%20Sanchez%20de%20Rivera.pdf Consultado el 10 enero

de 2014. [3] Wayne W. Daniel.(1988). Estadística con aplicaciones a las ciencias sociales y a la educación. McGraw-

Hill. México

[4] Ibid página 9

Bibliografía recomendada

Page 5: Introducción a la estadistica

5

División de Ciencias Sociales y Humanidades

Tronco Divisional

Casa abierta al tiempo

UNIVERSIDAD AUTÓNOMA METROPOLITANA

Taller de Matemáticas Aplicadas a las Ciencias Sociales

Lección 2

2.1 Anexo a la Lección 1

La lección anterior fue una breve mirada a las matemáticas aplicadas en ciencia sociales.

En particular, hablamos de la estadística aplicada y repasamos algunas definiciones. Para

esta lección nos ocuparemos del trabajo con medidas descriptivas.

Retomemos los datos del ejercicio de la lección anterior. Una vez definida la distribución

de frecuencias, esta queda como sigue

Tabla 2.1

Distribución de frecuencia de los puntajes

del CI de 150 estudiantes de tercer grado

(intervalo de clase de tamaño 10)

Intervalo de clase Frecuencia

85-94 20

95-104 34

105-114 49

115-124 35

125-134 12

Total 150

Es importante aclarar que el tamaño del intervalo de clase es a criterio del investigador, que

depende del grado de detalle que se requiera. En ocasiones es conveniente tener los datos

de una distribución de frecuencia, en forma acumulada. Regresando a nuestro ejemplo

podría interesarnos el número de estudiantes con puntajes por debajo de 105. Entonces

utilizando los mismos criterios para obtener la distribución de frecuencias de la tabla 2.1, la

diferencia será que además de registrar la frecuencia para cada intervalo de clase sumamos

las correspondientes a los anteriores. La tabla 2.2 muestra la distribución de frecuencia

acumulada.

Page 6: Introducción a la estadistica

6

Tabla 2.2

Distribución de frecuencia acumulada de los puntajes

del CI de 150 estudiantes de tercer grado

Intervalo de clase Frecuencia

85-94 20

95-104 54

105-114 103

115-124 138

125-134 150

De esta manera, los datos en la Tabla 2.2, permiten conocer el número de observaciones

que son menores o iguales a cualquier límite superior de clase. Otra herramienta derivada

de los resultados de la distribución de frecuencia es la llamada distribución de frecuencia

relativa. Esta muestra la proporción o porcentaje de los valores que se incluyen en los

distintos intervalos de clase. La proporción de un determinado intervalo de clase se obtiene

dividiendo la frecuencia correspondiente, entre el número total de observaciones. Así

mismo, podemos construir a partir de la frecuencia relativa, el acumulado de las

proporciones o porcentajes, esto es, una distribución de frecuencia relativa acumulada. La

tabla 2.3 registra los resultados de la distribución de frecuencia relativa y relativa

acumulada.

Tabla 2.3

Intervalo de clase Frecuencia Frecuencia

relativa relativa acumulada

85-94 0.13 0.13

95-104 0.23 0.36

105-114 0.33 0.69

115-124 0.23 0.92

125-134 0.08 1

Total 1

Page 7: Introducción a la estadistica

7

El resultado de los datos de la Tabla 2.1 se muestra a continuación por medio de un gráfico

conocido como histograma. Se emplea para representar una distribución de frecuencias o

una distribución de frecuencia relativa.

Gráfica 2.1

0

10

20

30

40

50

60

85-94 95-104 105-114 115-124 125-134

FREC

UEN

CIA

PUNTAJE CI

Histograma de los puntajes del CI en estudiantes de tercer grado

Page 8: Introducción a la estadistica

8

División de Ciencias Sociales y Humanidades

Tronco Divisional

Casa abierta al tiempo

UNIVERSIDAD AUTÓNOMA METROPOLITANA

Taller de Matemáticas Aplicadas a las Ciencias Sociales

Lección 3

3.1 Introducción

Para los diversos propósitos del análisis estadístico, los histogramas de frecuencia no

revelan toda la información contenida en los datos, por lo tanto no son adecuados para

hacer inferencias. Esto se debe a que no se encuentran bien definidos ya que se pueden

construir muchos histogramas semejantes con el mismo conjunto de datos. Es frecuente que

el análisis necesite de un valor que represente los datos. Podemos describir los datos de

acuerdo a las medidas descriptivas que indican, por ejemplo, la tendencia central y la

extensión de la variabilidad de los datos. Las cantidades que definiremos son medidas

numéricas descriptivas de un conjunto de datos. Nos interesan números que describan la

distribución de frecuencias de cualquier cúmulo de mediciones. En esta lección nos

ocuparemos de dos de ellos: las medidas de tendencia central y las medidas de dispersión

o de variabilidad.

3.2 La media

La medida de tendencia central más utilizada en estadística es la media aritmética. Como es

el único tipo de media a estudiar, en adelante nos referiremos a ella únicamente como

media.

3.2.1 Definición

La media de un conjunto de n mediciones 1 2, ,..., ny y y se determina mediante la ecuación

1

n

i

i

y

yn

[3.1]

El símbolo y , que leemos “y barra”, se conoce como media muestral. En la práctica, por lo

general, no es posible medir el valor de la media de una población, ésta es una constante

desconocida que estimamos a partir de la muestra. Designaremos la media poblacional con

. Si nos referimos a una población finita de tamaño N , denotamos a por

Page 9: Introducción a la estadistica

9

1

N

i

i

y

N

[3.2]

Sin embargo, sólo indica el centro de la distribución de los datos; en sí no proporciona una

descripción adecuada de un conjunto de observaciones. Teóricamente se pueden tener

distribuciones de frecuencias distintas pero con la misma media. La diferencia radica en la

variabilidad o dispersión de las medidas a cada lado de la media (gráfica 3.1).

Gráfica 3.1

3.3 La varianza

Para tener una descripción más adecuada es necesario definir medidas de la variabilidad de

los datos. La más común de estas medidas empleada en el trabajo estadístico aplicado es la

varianza. Es una función de las desviaciones (o distancias) de las observaciones respecto de

la media.

3.3.1 Definición

La varianza de un conjunto de n mediciones 1 2, ,..., ny y y es la suma de los cuadrados de

las desviaciones entre las observaciones y su media, dividida entre 1n . La varianza

muestral se denota por

2

2 1

( )

1

n

i

i

y y

sn

[3.3]

La varianza de la población correspondiente se expresa mediante el símbolo 2 y se define

para una población finita de tamaño N por

Page 10: Introducción a la estadistica

10

2

2 1

( )N

i

i

y

N

[3.4]

Es importante notar que en la definición de varianza muestral, dividimos por 1n en lugar

de n . Daremos una idea intuitiva en el anexo a esta lección. Podemos decir que 2s como se

define en la ecuación [3.3] refleja un “mejor” estimador de la verdadera varianza

poblacional, 2 . No obstante lo anterior, podemos considerar a 2s como casi el promedio

de los cuadrados de las desviaciones de los valores observados de la media. A mayor

varianza de una muestra, mayor será el grado de variación dentro del conjunto. La varianza

es útil para comparar dos muestras, pero es necesario utilizar la desviación estándar para

interpretar la variación en un solo conjunto.

3.3.2 Definición

La desviación estándar de un conjunto de mediciones es la raíz cuadrada positiva de la

varianza, esto es

2

1

( )

1

n

i

i

y y

sn

[3.5]

La desviación estándar de la población se denota . Aunque la desviación estándar tiene

una estrecha relación con la varianza, se utiliza para dar una idea con buena exactitud de la

variación de los datos, en un conjunto de observaciones. Terminamos este apartado

señalando que las ecuaciones [3.2] y [3.4] representan la media y varianza de una población

finita de tamaño N , pero al ser estas desconocidas en la práctica utilizaremos las

definiciones de media y varianza muestrales, de las ecuaciones [3.1] y [3.3].

Bibliografía

Mendenhall III, D. et al. (2002). Estadística matemática con aplicaciones. Thomson. México. Wayne W. Daniel.(1988). Estadística con aplicaciones a las ciencias sociales y a la educación. McGraw-Hill.

México

Page 11: Introducción a la estadistica

11

División de Ciencias Sociales y Humanidades

Tronco Divisional

Casa abierta al tiempo

UNIVERSIDAD AUTÓNOMA METROPOLITANA

Taller de Matemáticas Aplicadas a las Ciencias Sociales

Lección 4

4.1 Anexo a la Lección 3

Empezaremos esta lección con dos sencillos ejemplos para ilustrar lo expuesto en el

apartado anterior e introducir otras medidas de tendencia central y dispersión.

Posteriormente retomaremos el ejemplo 1.1 en donde las estimaciones se harán por medio

de la hoja de cálculo Excel©.

Ejemplo 4.1 [2]

Hay 180 estudiantes de primer año de un colegio rural. Con el fin de obtener información

acerca de la costumbre que tienen los estudiantes de ver televisión, un consejero de

orientación desea seleccionar una muestra aleatoria de diez estudiantes. Sea X , la variable

aleatoria que nos interesa, el número de horas que los estudiantes pasaron viendo televisión

durante la semana anterior a la entrevista. Supongamos que los diez estudiantes de la

muestra informaron que vieron televisión de acuerdo al siguiente número de horas

24,25,22,20,15,25,17,16,15,17 [4.1]

La media de horas gastadas en mirar televisión durante la semana anterior para la muestra

de diez estudiantes es

24 25 22 20 15 25 17 16 15 17

19.610

x

[4.2]

La varianza de la muestra y su correspondiente desviación estándar se calculan a

continuación

2 2 2 22 (24 19.6) (25 19.6) ... (15 19.6) (17 19.6)

16.9310 1

16.93 4.11

s

s

[4.3]

Ejemplo 4.2 [2]

Es importante destacar que la media como medida de tendencia central puede ser

influenciada de manera considerable por un solo valor extremo y por lo tanto dar una idea

Page 12: Introducción a la estadistica

12

sesgada de los datos. Para exponer esto, considérese que diez estudiantes tiene puntajes de

91,95,95,94,92,93,98,97,96,0 en una prueba, realizamos el cálculo de la media

91 95 95 94 92 93 98 97 96 0

85.110

x

[4.4]

La varianza de la muestra y su correspondiente desviación estándar se calculan a

continuación

2 2 2 22 (91 85.1) (95 85.1) ... (96 85.1) (0 85.1)

898.7610 1

898.76 29.97

s

s

[4.5]

Observamos que [4.4] difiere de las calificaciones de los diez alumnos de la muestra. Como

alternativa al resultado en [4.4] utilizaremos otra medida de tendencia central conocida

como mediana.

4.2 Otras medidas de tendencia central

4.2.1 La mediana

La mediana es el valor que se encuentra en la mitad de una muestra, siempre que los datos

hayan sido ordenados de acuerdo a su magnitud. Si el número de observaciones en una

muestra es impar, la mediana es el valor ubicado exactamente en la mitad de los valores de

la muestra ordenada. Encontremos la mediana para nuestros ejemplos 4.1 y 4.2. Primero

ordenamos los datos.

Ejemplo 4.1

15,15,16,17, ,22,24,25,2517,20 [4.6]

La mediana será, 18.5, el promedio entre 17 y 20. No parece tan lejana de la media 19.6.

Para el caso del ejemplo 4.2, al ordenar los datos

0,91,92,93, ,95,96,97,9894,95 [4.7]

La mediana en este caso será, 94.5, el promedio entre 94 y 95. Podemos observar que la

mediana es tal vez más representativa de la muestra que la media. Tal vez el investigador

prefiera el valor de la mediana como valor de tendencia central. Los datos atípicos son la

causa de esto, como es el caso de la calificación 0. Otra medida de tendencia central es la

moda, que puede en algunos casos indicar una tendencia.

4.2.2 La moda

La moda es el valor que aparece con mayor frecuencia en un grupo de datos.

Page 13: Introducción a la estadistica

13

Veamos los datos del ejemplo 4.1

24,25,22,20,15,25,17,16,15,17

Hay más de una moda en este caso, 15, 17 y 25. Si se quiere utilizar como medida de

tendencia central, probablemente 17 debería ser nuestra elección, pues es más cercana a la

media y mediana. Descartamos 15 y 25, debido a que se encuentran en los límites inferior y

superior de los datos, respectivamente perdiéndose un poco la idea de una medida de

tendencia central.

Veamos los datos del ejemplo 4.2

91,95,95,94,92,93,98,97,96,0

Aquí la moda es única, 95. Difiere poco de la mediana, que para estos datos es 94.5. En este

caso parecen ser más representativos de la muestra que la media. Es importante aclarar que

la moda de un grupo de datos puede no existir, ser única o haber más de una.

4.3 Otras medidas de variabilidad

4.3.1 El rango

La medida más simple de variabilidad es el rango, que es la diferencia entre el valor

máximo y el mínimo en un conjunto de datos.

En el caso del ejemplo 4.1, el rango es 25-15=10. Para el ejemplo 4.2 es 98-0=98.

El rango como medida de variabilidad, es limitado. Al tomar en cuenta únicamente los

valores extremos de un conjunto de datos, no informa adecuadamente el cómo varían los

valores alrededor de la media. Por otro lado el rango de una muestra depende de su tamaño.

Las muestras pequeñas tienden a tener rangos pequeños y las grandes, rangos grandes.

Bibliografía

[1] Mendenhall III, D. et al. (2002). Estadística matemática con aplicaciones. Thomson. México. Wayne W. Daniel.(1988). Estadística con aplicaciones a las ciencias sociales y a la educación. McGraw-Hill.

México. [2] Wayne W. Daniel.(1988). Estadística con aplicaciones a las ciencias sociales y a la educación. McGraw-

Hill. México.

[3] Ibid.

Page 14: Introducción a la estadistica

14

División de Ciencias Sociales y Humanidades

Tronco Divisional

Casa abierta al tiempo

UNIVERSIDAD AUTÓNOMA METROPOLITANA

Taller de Matemáticas Aplicadas a las Ciencias Sociales

Lección 5

5.1 Introducción

Muchas distribuciones de datos en la práctica tiene la apariencia semejante a una campana.

De suceder esto, es posible aproximarlas mediante una distribución de frecuencias que tiene

tal forma conocida como distribución normal1

. Cuando poseemos evidencia de tal

comportamiento (en posteriores lecciones volveremos a este asunto), los datos muestran

características de variación bien definidas, conocida como Regla empírica.

5.2 Regla empírica

En una distribución de medidas con un comportamiento aproximadamente normal (forma

de campana de Gauss), se puede deducir qué, en el intervalo cuyos puntos extremos son:

contiene alrededor del 68% de los datos

2 contiene alrededor del 95% de los datos

3 contiene alrededor del 99% de los datos

Una vez conocida la distribución de frecuencias de una serie de datos, se pueden establecer

probabilidades respecto al conjunto de observaciones. Tales probabilidades se pueden

asociar con las áreas de un histograma de frecuencias. En consecuencia, las probabilidades

de la regla empírica constituyen áreas bajo la curva normal. (ver Gráfico 5.1).

Figura 5.1

1 De todas las distribuciones de variable continua conocidas, quizá la más importante en estadística es la

distribución normal. La función de distribución normal se publicó por vez primera en 1733 por A. Demoivre.

Cerca de 1820, Karl Friedrich Gauss buscando la determinación matemática de la forma y tamaño del globo

terráqueo, desarrolló varias herramientas en el tratamiento con datos de las observaciones existentes. Una de

ellas es la curva de distribución de errores, que en su honor, también se conoce como campana de Gauss.

Page 15: Introducción a la estadistica

15

Un ejemplo puede ilustrar lo anterior. Regresemos al ejemplo 1.1, recordemos que los datos

representan los puntajes del CI de 150 estudiantes de tercer grado de un determinado

sistema escolar. Utilizando la hoja de cálculo Excel©, obtenemos las medidas de tendencia

central y dispersión de los datos (Tabla 5.1) y el histograma respectivo (Gráfico 5.2)

Tabla 5.1

Media 108.43

Mediana 108.50

Moda 113

Desviación estándar 11.14

Varianza de la muestra 124.21

Curtosis -0.83

Rango 44

Mínimo 85

Máximo 129

Cuenta 150

Gráfica 5.2

De la tabla 5.1 y de acuerdo a la Regla empírica, suponiendo que los datos tienen un

comportamiento normal, esperamos que el 68% de los datos este entre 97.29 y 119.57.

Dicho de otra manera, la probabilidad de que el valor de una calificación del CI, elegida al

azar, este entre 97.29 y 119.57, es de 68%. Excel muestra entre otras medidas la curtosis.

En específico, la ayuda de Excel© da la siguiente descripción:

Devuelve la curtosis de un conjunto de datos. La curtosis caracteriza la elevación o el

achatamiento relativo de una distribución, comparada con la distribución normal. Una

curtosis positiva indica una distribución relativamente elevada, mientras que una curtosis

negativa indica una distribución relativamente plana.

Bibliografía

[1] Mendenhall III, D. et al. (2002). Estadística matemática con aplicaciones. Thomson. México. Wayne W. Daniel.(1988). Estadística con aplicaciones a las ciencias sociales y a la educación. McGraw-Hill.

México.

[2] Microsoft Excel© 2010.

0.00%

20.00%

40.00%

60.00%

80.00%

100.00%

120.00%

0

10

20

30

40

50

95 105 115 125 ymayor...

Fre

cue

nci

a

Clase

Histograma

Frecuencia

% acumulado

Page 16: Introducción a la estadistica

16

División de Ciencias Sociales y Humanidades

Tronco Divisional

Casa abierta al tiempo

UNIVERSIDAD AUTÓNOMA METROPOLITANA

Taller de Matemáticas Aplicadas a las Ciencias Sociales

Lección 6

6.1 Introducción

Page 17: Introducción a la estadistica

17