HCM_U2_A2_JAAF

7
Herramientas y lenguajes computacionales Unidad 2 Actividad 2. Análisis estadístico y muestreo Describe el procedimiento que utilizarías para resolver los siguientes problemas con las herramientas del programa R. Problema 2.1. Crea una tabla "two-way" utilizando los dos vectores de datos siguientes para que contenga la frecuencia de ocurrencia de los elementos. (Soltero, Soltero, Casado, Divorciado, Divorciado, Soltero, Soltero, Divorciado) (Joven, Joven, Maduro, Joven, Joven, Mayor de 60, Maduro, Mayor de 60) Procedimiento Para construir una tabla de doble entrada con el valor de la frecuencia, podemos utilizar el comando table(). Abrimos el editor y realizamos lo siguiente: 1. Primero introduciremos los datos usando el comando básico x=c ( dato 1 ,dato 2 ,dato 3. ..) Aquí, x equivale al nombre del vector. Los datos, al ser cualitativos, deben escribirse entre comillas. 2. Después realizaremos un conteo de datos usando el comando length(). Este comando nos arrojará el número total de elementos que integran el conjunto. Dicho valor es necesario si queremos calcular la frecuencia relativa. 3. Finalmente usamos el comando table () para generar una tabla de frecuencias absolutas. También podemos usar table ()/ length () para obtener las frecuencias relativas.

Transcript of HCM_U2_A2_JAAF

Page 1: HCM_U2_A2_JAAF

Herramientas y lenguajes computacionalesUnidad 2 Actividad 2. Análisis estadístico y muestreo

Describe el procedimiento que utilizarías para resolver los siguientes problemas con las herramientas del programa R.

Problema 2.1. Crea una tabla "two-way" utilizando los dos vectores de datos siguientes para que contenga la frecuencia de ocurrencia de los elementos.

(Soltero, Soltero, Casado, Divorciado, Divorciado, Soltero, Soltero, Divorciado)

(Joven, Joven, Maduro, Joven, Joven, Mayor de 60, Maduro, Mayor de 60)

Procedimiento

Para construir una tabla de doble entrada con el valor de la frecuencia, podemos utilizar el comando table().

Abrimos el editor y realizamos lo siguiente:

1. Primero introduciremos los datos usando el comando básico x=c (dato1 , dato2 , dato3. ..)

Aquí, x equivale al nombre del vector. Los datos, al ser cualitativos, deben escribirse entre comillas.

2. Después realizaremos un conteo de datos usando el comando length(). Este comando nos arrojará el número total de elementos que integran el conjunto. Dicho valor es necesario si queremos calcular la frecuencia relativa.

3. Finalmente usamos el comando table () para generar una tabla de frecuencias absolutas.

También podemos usar table ()/ length() para obtener las frecuencias relativas.

Page 2: HCM_U2_A2_JAAF

Problema 2.2. Determina si los datos que se proporcionan en el archivo adjunto (datos.txt), ubicado en la pestaña de la unidad 2, tienen una distribución normal. Para este análisis podrás utilizar qqnorm().

Procedimiento

Abrimos el editor y realizamos lo siguiente:

1. Creamos el vector introduciendo los datos del archivo datos.txt usando el comando x=scan(C:/.../ datos.txt).De esta manera podemos ingresar todos los datos sin necesidad de escribirlos uno por uno.

2. Graficamos las funciones quantile de la muestra, es decir los cuantiles muestrales vs. los cuantiles teóricos de la distribución Normal, usando el comando qqnorm().

El comando qqnorm() compara gráficamente la distribución de una muestra con una distribución normal (si los valores están alineados, la distribución es normal).

Problema 2.3. Calcula el intervalo de confianza utilizando una distribución t con los siguientes datos:

Media muestral = 5Desviación estándar muestral = 2Tamaño de la muestra = 20Nivel de confianza = 95%

Procedimiento

Recordemos que un intervalo de confianza es un rango de valores (calculado en una muestra) en el cual se encuentra el verdadero valor del parámetro, con una probabilidad determinada. Calcular el Intervalo de confianza utilizando una distribución t es similar a usar una distribución normal (qnorm), la diferencia es que se usa el comando asociado a la distribución t

Page 3: HCM_U2_A2_JAAF

Abrimos el editor y realizamos lo siguiente:

1. Definimos las variables correspondientes a los valores dados:

Mediamuestral ,m=5Desviaciónestandar , s=2Tamañode lamuestra,n=2

2. Determinamos el margen de error de acuerdo a un nivel de confianza del 95%

Recordemos que el error estándar es la desviación estándar de la distribución muestral. Podemos determinarlo con la instrucción s/√n

Por otro lado, si el tamaño de la muestra es n entonces decimos que la distribución t tiene n−1 grados de libertad (número de variables independientes de la muestra), esto esdf=1−n

Así, el margen de error vendrá dado por la expresión qt (0.975 , df=n−1)¿ s /√n

3. Finalmente podremos definir el intervalo de confianza:

izq=m−errorder=m+error

Page 4: HCM_U2_A2_JAAF

Problema 2.4. Encuentra el valor p para el conjunto de datos que se proporcionan en el archivo adjunto (datos.txt). Utiliza una prueba de hipótesis bilateral.

Procedimiento

Un contraste de hipótesis es un proceso estadístico que permite elegir una hipótesis de trabajo de entre dos posibles y antagónicas. El contraste comienza con la formulación de dos hipótesis sobre el valor de algún parámetro poblacional, siendo ambas incompatibles (si una es cierta, la otra necesariamente ha de ser falsa). Supondremos cierta una de ellas, a la cual llamaremos hipótesis nula H 0, y trataremos de

determinar hasta qué grado las observaciones registradas son coherentes con H 0. Sólo en caso de que

haya fuertes indicios de incompatibilidad entre el supuesto de que H 0 sea cierta y los datos obtenidos

empíricamente, descartaremos H 0 como hipótesis de trabajo y en su lugar tomaremos como cierta la

hipótesis alternativaH a.

Por otro lado, y en un sentido amplio el valor p es una medida de la “credibilidad” de la hipótesis nula. Cuanto más pequeño es el valor p, menos probable es queH 0 sea verdadera y por ello, si es menor

que el nivel de significación, H 0 se rechaza.

Dada la población x (que sigue una distribución cualquiera), con media μ y desviación estándar σ desconocidas, se trata de contrastar el tests siguiente:

{H 0: μ=0H a : μ≠0

Contrastebilateral (≠)Estadístico de contraste

t= x−μs

√n

que bajola hipotesis nulase distribuyecomo t deStudent (n−1)

Elvalor p para este contraste resulta

Pt {|tn−1|>|t|}

Para calcular la probabilidad anterior es conveniente dividirla en las siguientes probabilidades:

Pt {t n−1> t }+Pt {t n−1← t }

Notemos que por la simetría de la distribución t de Student ambas probabilidades son iguales.

Por tanto:

valor p=2 Pt {t n−1> t }

Page 5: HCM_U2_A2_JAAF

Entonces, abrimos el editor y realizamos lo siguiente:

1. Creamos un vector introduciendo los datos del archivo datos.txt usando el comando x=scan(C:/.../datos.txt).

2. Usamos el comando lenght() para determinar la longitud del arreglo de datos.

3. Escribimos el estadístico de contraste:t=(mean(x)−μ)/ (sd (x )/√(length(x )))

4. Finalmente, calculamos p−valorusando la instrucción 2∗pt (−|(t)|, df=length(x )−1)

Problema 2.5. a) Crea el siguiente data-frame (hoja de datos) en el que la columna f sea un factor.

Procedimiento

Una forma importante en que R puede almacenar datos es como un factor. Muchas veces un experimento incluye pruebas para los diferentes niveles de una variable. Por ejemplo, cuando miramos el efecto del dióxido de carbono en la tasa de crecimiento de un árbol podemos tratar de observar cómo

Page 6: HCM_U2_A2_JAAF

los diferentes árboles crecen cuando están expuestos a diferentes concentraciones predeterminadas de dióxido de carbono. Los diferentes niveles son también llamados factores.

Entonces, abrimos el editor y realizamos lo siguiente:

1. Creamos cada vector con el comando x=c (dato1 , dato2 , dato3. ..)2. Con la instrucción miframe=data. frame ( primero , segundo ,tercero , f ) podemos crear el

data−frame, la colección de filas y columnas de la misma dimensión.3. Finalmente, con el comando miframe $ f transformamos la columnaf en un factor