Estadistica
-
Upload
doreligp21041969 -
Category
Documents
-
view
1.038 -
download
0
Transcript of Estadistica
ESTADÍSTICA
ESTADÍSTICA
DESCRIPTIVA
INFERENCIAESTADÍSTICA
Ciencia que se encarga de la recolección, estudio e
interpretación de los datos obtenidos en un estudio
Se dedica a los métodos de recolección,
descripción, visualización y resumen
de datos originados a partir de los fenómenos
en estudio
Se dedica a la generación de los
modelos, inferencias y predicciones asociadas a
los fenómenos en cuestión teniendo en cuenta lo aleatorio e incertidumbre en las
observaciones.
nh
f i
%100xn
h f i
Población: conjunto de personas, cosas o situaciones, que tienen alguna característica común que las permite agrupar.
Muestra: subconjunto representativo de una población.
Variable: Es la característica observable de una población.
Variable cualitativa: Cuando es un atributo o cualidad. Deporte preferido, sexo, lugar de nacimiento, etc.
Variable Cuantitativa: Son aquellas que pueden medirse. Discretas: Nº de estudiantes, nº de personas, etc. (cantidades enteras). Continuas: Edad, peso, talla, etc.(cantidades racionales)
Frecuencia Absoluta (fi ): nº de veces que se repite un dato. La suma de frecuencias es igual a número de muestras
(n N)
Frecuencia relativa (h): Se obtiene dividiendo la frecuencia absoluta fi y el número total de datos (n)
Frecuencia relativa porcentual
Frecuencia absoluta acumulada (Fi)
Frecuencia relativa acumulada (Hi)
Medidas de estadística
Centralización– Indican valores con respecto a los que los datos
parecen agruparse.
Media, mediana y moda
Posición– Dividen un conjunto ordenado de datos en grupos
con la misma cantidad de individuos.
Cuartiles, deciles y percentiles.
Dispersión– Indican la mayor o menor concentración de los
datos con respecto a las medidas de centralización.
Desviación típica o estándar, coeficiente de variación, rango, varianza, desviación media.
Es una de las medidas de tendencia central de mayor
uso. Es el valor que representa mejor el conjunto de
datos, es la medida de tendencia central mas estable y
confiable La media muestral se simboliza por y la
media poblacional de denota por .X
MEDIA ARITMÉTICA O PROMEDIO:
MEDIA ARITMETICA PARA DATOS NO AGRUPADOS
Sea X una variable cuantitativa y x1, x2,…, xn unamuestra de tamaño "n" de valores de la variable, sedefine la media aritmética de X como:
n
xxxxX
n.....321
Esta expresión se puede escribir también , como
n
x
X
n
ii
1
Ejemplo N 1
Consideremos la edad en años de ochopersonas10 18 25 32 12 5 7 7
En este ejemplo el promedio , media o media aritmética de la edad de estas personas está dada por:
8
7751232251810x
Es decir la edad promedio de estas personas es de 14,5 años.
MEDIA ARITMETICA PARA DATOS AGRUPADOS
Sea X una variable cuantitativa y x1, x2,…, xn una muestra detamaño "n" de valores de la variable, y fi la frecuencia de cadavariable. Se define la media aritmética para datos tabuladoscomo:
n
fxfxfxfxX
nn.....332211
Esta expresión se puede escribir también , como:
n
fx
Xi
n
ii
1
fi = frecuencia
Xi = marca de clase
N= Nº datos
Ejemplo: Datos sobre los puntajes obtenidos en un concurso de
lógico matemática.
Peso
[40 ; 50[
[50 ; 60[
[ 60 ; 70[
[ 70 ; 80[
[ 80 ; 90[
[ 90 ; 100[
[100 ; 110[
58
79,6858
31051055545 N
fxx
ii
minmax: xxRRango
nKervalosdeNúmero :int
k
RCervalodelAmplitud :int
40-46-49-42-40-50-54-55-52-53-55-54-54-56-57-60-65-66-66-64-63-63-62-68-69-67-65-65-64-67-69-68-61-61-62-66-76-78-78-75-71-71-75-74-78-78-79-80-82-82-85-85-90-99-91-100-109-110
7040110: RRango
616,758:int KervalosdeNúmero
19,9616,7
70:int CervalodelAmplitud
Xi
45
55
65
75
85
95
105
fi
5
10
21
11
5
3
3
Fi
5
15
36
47
52
55
58
Ejemplo: Datos sobre los puntajes obtenidos en un concurso de
lógico matemática.
Peso
[40 ; 50[
[50 ; 60[
[ 60 ; 70[
[ 70 ; 80[
[ 80 ; 90[
[ 90 ; 100[
[100 ; 110[
58
79,6858
31051055545
N
fxx
ii
40-46-49-42-40-50-54-55-52-53-55-54-54-56-57-60-65-66-66-64-63-63-62-68-69-67-65-65-64-67-69-68-61-61-62-66-76-78-78-75-71-71-75-74-78-78-79-80-82-82-85-85-90-99-91-100-109-110
Xi
45
55
65
75
85
95
105
fi
5
10
21
11
5
3
3
Fi
5
15
36
47
52
55
58
hi
0,09
0,17
0,36
0,19
0,09
0,05
0,05
1
Hi
0,09
0,26
0,62
0,81
0,90
0,95
1,00
hi%
9
17
36
19
9
5
5
100
xi.fi
225
550
1365
825
425
285
315
3990
Mediana (Me)
MEDIANA PARA DATOS NO
AGRUPADOS
Ejemplo 1: Consideremos la edad en años de ocho personas
10 18 25 32 12 5 7 7
Para calcular la mediana , previamente se debenordenar las observaciones. En este caso lo haremosen forma creciente:
5 7 7 10 12 18 25 32
Como la cantidad de datos es par, entonces lamediana corresponde al promedio de los datoscentrales, por lo tanto la mediana es 11.
Ejemplo N 2
Consideremos el peso en kilogramos de una muestra de 11 personas
65 76 48 48 68 78 90 87 67 72 78
Recordemos que para calcular la mediana debemos ordenar los datos:
48 48 65 67 68 72 76 78 78 87 90
El tamaño de la muestra es n=11, impar por lo tanto la mediana corresponde al valor central, es decir, 72 Kg.
MEDIANA PARA DATOS AGRUPADOS
Si se tiene una distribución de frecuencias, la mediana es igualmenteese valor que tiene 50% de las observaciones por debajo y 50 % porencima. Geométricamente, la mediana es el valor de X sobre el eje de lasabscisas correspondiente a la ordenada que divide un histograma endos partes de igual área.
donde:Li = límite inferior de la clase mediana.N = frecuencia total o Σfi .Faa = frecuencia absoluta acumulada hasta la clase premediana fm = frecuencia absoluta de la clase medianaIc= amplitud de la clase mediana.
Icfm
FaaN
LiMd 2
Ejemplo
Peso xi fi Fi
40 < 50 45 5 5
50 < 60 55 10 15
60 < 70 65 21 36
70 < 80 75 11 47
80 < 90 85 5 52
90 < 100 95 3 55
100 < 110 115 3 58
58
6,6621
15582
1
1060
2
11
i
i
if
FNIcLMediana
Clase de mediana: 58/2=29
Moda o Modo (Mo)
Como su nombre lo indica es aquel valor de la variable que tiene una mayor frecuencia.
Si consideramos el ejemplo N 2 del peso de unamuestra de personas:
65 76 48 48 68 78 90 87
67 72 78
Mo = 48 kilos
Mo = 78 kilos.
Esto significa que la mayoría de estas personas
pesa 48 kilos y 78 kilos.
Esta distribución es bimodal.
• La Moda puede deducirse de una distribución de frecuencia o de un histograma a partir de la fórmula.
Moda para datos agrupados
IcLiMo .21
1
Donde;Li = límite inferior de la clase modal (clase
de mayor frecuencia absoluta (fa)∆1 = diferencia de las frecuencias absolutas
de la clase modal y pre-modal.∆2 = diferencia de las frecuencias absolutas
de la clase modal y post-modalIc = amplitud de la clase modal.
La moda: se define como el valor que tiene una mayor
frecuencia en un conjunto de datos (es decir, aquel que más se
repite).
Para datos agrupados en intervalos
Mo= Li + c. D1
D1+D2
D1: fi – fi -1
D2: fi – f i +1
Peso M. Clase fi Fi.
40 < 50 45 5 5
50 < 60 55 10 15
60 < 70 65 21 36
70 < 80 75 11 47
80 < 90 85 5 52
90 < 100 95 3 55
100 < 110 115 3 58
58
Intervalo modal
24,651011
111060Mo
Representaciones
gráficas DIAGRAMADE BARRAS
Representaciones
gráficas
DIAGRAMA DE SECTORES
Representaciones
gráficas
HISTOGRAMA Y POLÏGONO DE FRECUENCIAS
=Md=Mox
Simétrica
Mo Md
x
x
Md Mo
Asimétrica: Sesgada a la izquierda, negativa
Asimétrica: Sesgada a la derecha, positiva.
Dividen un conjunto ordenado de datos en grupos con
la misma cantidad de individuos.
PERCENTILES : son 99 valores que distribuyen la serie de
datos, ordenada de forma creciente o decreciente, en cien
tramos iguales, en los que cada uno de ellos concentra el 1%
de los resultados
CUARTILES :son 3 valores que distribuyen la serie de
datos, ordenada de forma creciente o decreciente, en cuatro
tramos iguales, en los que cada uno de ellos concentra el 25%
de los resultados.
DECILES: son 9 valores que distribuyen la serie de datos,
ordenada de forma creciente o decreciente, en diez tramos
iguales, en los que cada uno de ellos concentra el 10% de los
resultados.
MEDIDAS DE POSICIÓN
Medida de localización que divide la población o muestra en cuatro partes iguales.Q1= Valor de la variable que deja a la izquierda el 25% de la distribución.
Q2= Valor de la variable que deja a la izquierda el 50% de la distribución = mediana.
Q3= Valor de la variable que deja a la izquierda el 75% de la distribución.
CUARTILES
..4 Icfm
FaaaN
LiQa
4
aNPQa
Medida de localización que divide la población o
muestra en 10 partes iguales
No tiene mucho sentido calcularlas para variables
cualitativas discretas. Por lo que lo vamos a ver
sólo para las variables continuas.
DECILES
10
aNPDa
Icfm
FaaaN
LiDa .10
Medida de localización que divide la población o
muestra en 100 partes iguales
No tiene mucho sentido calcularlas para variables
cualitativas discretas. Por lo que lo vamos a ver sólo
para las variables continuas.
PERCENTILES
100
aNPPa
Icfm
FaaaN
LiPa .100
EJEMPLO
Los siguientes son los resultados de la prueba de aptitud
académica tomada a 50 alumnos de la Facultad de Educación,
con esos datos calcular Q1,Q3, D3, y P45
I MC FA FAA FR FRA FR%
45-55 06
55-65 10
65-75 19
75-85 11
85-95 04
50 1,000 100
EJEMPLOLos siguientes son los resultados de la prueba de aptitud
académica tomada a 50 alumnos de la Facultad de Educación,
con esos datos calcular Q1,Q3, D3, y P45
I MC FA FAA FR FRA FR%
45-55 50 06 06 0,12 0,12 12
55-65 60 10 16 0,20 0,32 20
65-75 70 19 35 0,38 0,70 38
75-85 80 11 46 0,22 0,92 22
85-95 90 04 50 0,08 1,00 08
50 1,000 100
Cálculo de Q1Buscamos en la columna de las frecuencias Acumuladas el valor
que supere al 25% de N=50, corresponde al 2º
intervalo.(50/4=12.5)
..4 Icfm
FaaaN
LiQa
4
aNPQa
EJEMPLOLos siguientes son los resultados de la prueba de aptitud
académica tomada a 50 alumnos de la Facultad de Educación,
con esos datos calcular Q1,Q3, D3, y P45
I MC FA FAA FR FRA FR%
45-55 50 06 06 0,12 0,12 12
55-65 60 10 16 0,20 0,32 20
65-75 70 19 35 0,38 0,70 38
75-85 80 11 46 0,22 0,92 22
85-95 90 04 50 0,08 1,00 08
50 1,000 100
Cálculo de Q3
Buscamos ahora en la misma columna el correspondiente al 75 %de N que en
este caso es el 4º intervalo (3.50/4=37.5)
..4 Icfm
FaaaN
LiQa
4
aNPQa
EJEMPLOLos siguientes son los resultados de la prueba de aptitud
académica tomada a 50 alumnos de la Facultad de Educación,
con esos datos calcular Q1,Q3, D3, y P45
I MC FA FAA FR FRA FR%
45-55 50 06 06 0,12 0,12 12
55-65 60 10 16 0,20 0,32 20
65-75 70 19 35 0,38 0,70 38
75-85 80 11 46 0,22 0,92 22
85-95 90 04 50 0,08 1,00 08
50 1,000 100
Cálculo de D3
(corresponde al 30 % 3 · 50 / 10 = 15) sería
el 2º intervalo.
10
aNPDa Ic
fm
FaaaN
LiDa .10
EJEMPLOLos siguientes son los resultados de la prueba de aptitud
académica tomada a 50 alumnos de la Facultad de Educación,
con esos datos calcular Q1,Q3, D3, y P45
I MC FA FAA FR FRA FR%
45-55 50 06 06 0,12 0,12 12
55-65 60 10 16 0,20 0,32 20
65-75 70 19 35 0,38 0,70 38
75-85 80 11 46 0,22 0,92 22
85-95 90 04 50 0,08 1,00 08
50 1,000 100
Cálculo de P45
Ubicamos el percentil 45 (45·50/100 =
22.5) Corresponde al intervalo 3º
100
aNPPa
Icfm
FaaaN
LiPa .100
Las MEDIDAS DE DISPERSIÓN cuantifican la
separación, la dispersión, la variabilidad de los valores
de la distribución respecto al valor central.
Peso recién nacidos en partos gemelares
3.300
2.900
2.500
2.100
1.700
1.300900
500
50
40
30
20
10
0
Desv. típ. = 568,43
Media = 2023
N = 407,00
• RANGO
• DESVIACION MEDIA
• VARIANZA
• DESVIACIÓN TÍPICA (S) O ESTÁNDAR
• COEFICIENTE DE VARIACIÓN
MEDIDAS DE DISPERSIÓN
AMPLITUD O RANGO
Es la diferencia entre el valor de las observaciones mayor y
el menor. Re = xmax - xmin
2,1,4,3,8,4.
El rango es 8-1=7
150 160 170 180 190
0.0
00
.01
0.0
20
.03
0.0
40
.05
150 160 170 180 190
25% 25% 25% 25%
Mín. P25 P50 P75 Máx.
Rango intercuartílico
Rango
DESVIACIÓN MEDIA. DATOS NO AGRUPADOS:
DESVIACIÓN MEDIA. DATOS AGRUPADOS:
Es el promedio del cuadrado de las distancias entre cada
observación y la media aritmética del conjunto de
observaciones.
VARIANZA ( S2 ):
Es el cuadrado de la desviación estándar.
ianzafxxn
S ii
i var.)(1 22
La varianza viene dada por las mismas unidades que
la variable pero al cuadrado, para evitar este problema
podemos usar como medida de dispersión la
desviación típica que se define como la raíz cuadrada
positiva de la varianza.
DESVIACIÓN TÍPICA / ESTÁNDAR (S):
estándardesviaciónfxxn
S ii
i .)(1 2
Es la razón entre la desviación típica (estándar) y la
media. Mide la desviación típica en forma de
“qué tamaño tiene con respecto a la media”
COEFICIENTE DE VARIACIÓN
x
SCV
También se la denomina variabilidad
relativa.
Es frecuente mostrarla en porcentajes
Si la media es 80 y la desviación típica 20
entonces
CV=20/80=0,25=25% (variabilidad relativa)
. C.V. = S (100%)
X
EJEMPLO 1
El número de días que necesitan 10 equipos de
trabajadores de electricidad para terminar 10
instalaciones de iguales características han sido: 21,
32, 15, 59, 60, 61, 64, 60, 71, y 80 días. Calcular el
rango, la varianza , desviación típica y el coeficiente
de variación.
SOLUCIÓN:
S2=
La varianza
La desviación típica S:
S = √ 427,61 = 20.67
El rango: 80 - 15 = 65 días
El coeficiente de variación: CV = 20,67/52,3 = 0,39
INTERPRETACIÓN DE LOS
RESULTADOS DE LAS
MEDIDAS DE DISPERSIÓN
• Es la medida de dispersión más sencilla ytambién, por tanto, la que proporcionamenos información. Además, estainformación puede ser errónea, pues elhecho de que no influyan más de dosvalores del total de la serie puede provocaruna deformación de la realidad.
• Comparemos, por ejemplo, estas dosseries:
• Serie 1: 1 5 7 7 8 9 9 10 17
• Serie 2: 2 4 6 8 10 12 14 16 18
• Ambas series tienen rango 16, pero estándesigualmente agrupadas, pues mientras laprimera tiene una mayor concentración enel centro, la segunda se distribuyeuniformemente a lo largo de todo elrecorrido. El uso de esta medida dedispersión, será pues, bastante restringido.
RANGO O RECORRIDO
En teoría, la desviación puede referirse a
cada una de las medidas de tendencia
central: media, mediana o moda; pero el
interés se suele centrar en la medida de la
desviación con respecto a la media, que
llamaremos desviación media
La desviación media viene a indicar el
grado de concentración o de dispersión de
los valores de la variable. Si es muy alta,
indica gran dispersión; si es muy baja
refleja un buen agrupamiento y que los
valores son parecidos entre sí.
DESVIACIÓN MEDIA:
Es otra de las variaciones
absolutas y la misma se define
como el cuadrado de la desviación
típica; viene expresada con las
mismas letras de la desviación
típica pero elevada al cuadrado.
VARIANZA
La desviación típica como medida absoluta de
dispersión, es la que mejor nos proporciona la
variación de los datos con respecto a la media
aritmética, su valor se encuentra en relación directa
con la dispersión de los datos, a mayor dispersión
de ellos, mayor desviación típica, y a menor
dispersión, menor desviación típica.
Es sin duda la medida de dispersión más
importante, ya que además sirve como medida
previa al cálculo de otros valores estadísticos. Es la
medida de dispersión más utilizada en las
investigaciones por ser la más estable de todas, ya
que para su cálculo se utilizan todos los desvíos
con respecto a la media aritmética de las
observaciones.
DESVIACIÓN ESTÁNDAR / TÍPICA
Existen varias medidas de
dispersión relativa, pero, la más
usada es el coeficiente de variación
de Pearson, este es un índice de
variabilidad sin dimensiones, lo que
permite la comparación entre
diferentes distribuciones de
frecuencias, medidas en diferentes
unidades.
COEFICIENTE DE VARIACIÓN: (%)
Muchas Gracias
¿ Y Ahora ?