ESTADÍSTICA -...

194
Aplicaciones Autores NORABUENA FIGUEROA ROGER PEDRO MALDONADO LEYVA HUGO WALTER NORABUENA FIGUEROA EMERSON DAMIÁN MEJÍA VALCARCEL GRIMALDO JORGE ESTADÍSTICA CON R-PROJETC

Transcript of ESTADÍSTICA -...

Page 1: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Estadísticas con R Project

0

Aplicaciones

Autores

NORABUENA FIGUEROA ROGER PEDRO

MALDONADO LEYVA HUGO WALTER

NORABUENA FIGUEROA EMERSON DAMIÁN

MEJÍA VALCARCEL GRIMALDO JORGE

ESTADÍSTICA

CON R-PROJETC

Page 2: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

ESTADÍSTICA

CON R-PROJECT

Autores:

NORABUENA FIGUEROA ROGER PEDRO

MALDONADO LEYVA HUGO WALTER

NORABUENA FIGUEROA EMERSON DAMIÁN

MEJÍA VALCARCEL GRIMALDO JORGE

Editorial: UNASAM

Edición: Primera

Page 3: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis
Page 4: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Estadísticas con R Project

0

INTRODUCCION

R es un lenguaje de programación y un entorno para análisis estadístico y

la realización de gráficos. Debido a su naturaleza es fácilmente adaptable a

una gran variedad de tareas. Fue inicialmente escrito por Robert Gentleman

y Ross Ihaka del Departamento de estadística de la Universidad de

Auckland en Nueva Zelanda. R actualmente es el resulta- do de un esfuerzo

de colaboración de personas del todo el mundo. Desde mediados de 1997

se formó lo que se conoce como nuclea de desarrollo de R, que actualmente

es el que tiene la posibilidad de modificaciones directa del código fuente.

Por otra parte, R es un proyecto GNU similar a S, desarrollado ´este por los

Laboratorios Bell. Las diferencias entre R y S son importantes, pero la

mayoría del condigo escrito para S corre bajo R sin modificaciones.

R abarca una amplia gama de técnicas estadísticas que van desde los

modelos lineales a las más modernas técnicas de clasificación pasan- do

por los test clásicos y el análisis de series temporales. Proporciona una

amplia gama de gráficos que además son facialmente adaptables y

extensibles. La calidad de los gráficos producidos y la posibilidad de incluir

en ellos símbolos y fórmulas matemáticas, posibilitan su inclusión en

publicaciones que suelen requerir gráficos de alta calidad.

El código de R está disponible como software libre bajo las condiciones de

la licencia GNU-GPL. Además está disponible precompilado para una

multitud de plataformas. La página principal del proyecto es http://www.r-

project.org.

Page 5: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Una diferencia importante entre R, y también S, con el resto del software

estadístico es el uso del objeto como entidad básica. Cualquier expresión

evaluada por R tiene como resultado un objeto. Cada objeto pertenece a

una clase, de forma que las funciones pueden tener comportamientos

diferentes en función de la clase a la que pertenece su objeto argumento.

Por ejemplo, el resultado de la función print evaluada sobre un vector da

como resultado la impresión de todos los elementos del vector mientras que

la misma función evaluada sobre una función muestra información sobre

ella. De la misma manera, la función plot no se comporta igual cuando su

argumento es un vector que cuando es un fichero de datos o una función.

Page 6: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

INDICE

INTRODUCCION ........................................................................... 0

CAPÍTULO I .................................... ¡Error! Marcador no definido.

1.1 Introducción ...................... ¡Error! Marcador no definido.

1.2 Ingreso de datos ............................................................. 35

1.3 Importación de datos ..................................................... 40

1.4 Ejercicios ....................................................................... 46

CAPÍTULO II ................................................................................ 81

CUADROS DE DISTRIBUCIÓN DE FRECUENCIAS .............. 81

2.1 Introducción ................................................................... 81

2.2 Definición de términos ................................................ 110

2.4 Ejercicios ..................................................................... 120

CAPÍTULO III ............................................................................ 126

MEDIDAS DE TENDENCIA CENTRAL ................................. 126

3.1 Introducción ................................................................. 126

3.2 Media o Promedio aritmético ( x ) ................................ 126

3.3 Mediana ....................................................................... 127

3.4 Moda (Mo): .................................................................. 128

3.5. Otras medidas de tendencia central ............................. 129

3.6. Ejercicios ..................................................................... 130

3.7. Ejercicios propuestos ....................................................... 149

3.7 MEDIDAS DE POSICIÓN ................................................... 163

Page 7: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

8.1 Introducción ..................................................................... 163

4.2 Cuartiles(𝑸𝒌) .............................................................. 163

4.3 Deciles(𝑫𝑲) ................................................................ 167

4.4 Percentiles(𝑃𝐾) ........................................................... 168

4.5. Ejercicios .......................... ¡Error! Marcador no definido.

1) ASIMETRÍA ....................................................................... 172

CAPÍTULO V ............................................................................. 177

MEDIDAS DE VARIABILIDAD .............................................. 177

1.1 Introducción ..................................................................... 177

1.2 Varianza ....................................................................... 178

1.3 Desviación estándar ..................................................... 179

1.4 Coeficiente de variación .............................................. 179

1.5. Ejercicios .......................... ¡Error! Marcador no definido.

Page 8: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Estadísticas con R Project

6

CAPÍTULO I: INTRODUCCIÓN AL R-PROJECT

1.1 Introducción

R es un lenguaje de alto nivel y un entorno para el análisis de datos y

gráficos.

Se trata de un proyecto de software libre, resultado de la implementación

GNU del premiado lenguaje S. R y S-Plus -versión comercial de S- son,

probablemente, los dos lenguajes más utilizados en investigación por la

comunidad estadística, siendo además muy populares en el campo de la

investigación biomédica, la bioinformática y las matemáticas financieras.

A esto contribuye la posibilidad de cargar diferentes bibliotecas o paquetes

con finalidades específicas de cálculo o gráfico.

R se distribuye bajo la licencia GNU GPL y está disponible para los

sistemas operativos Windows, Macintosh, Unix y GNU/Linux.

Fue desarrollado inicialmente por Robert Gentleman y Ross Ihaka del

Departamento de Estadística de la Universidad de Auckland en 1993. Su

desarrollo actual es responsabilidad del R Development Core Team.

R proporciona un amplio abanico de herramientas estadísticas (modelos

lineales y no lineales, tests estadísticos, análisis de series temporales,

algoritmos de clasificación y agrupamiento, modelos lineales

generalizados, derivadas matemáticas, etc.) y gráficas.

Al igual que S, se trata de un lenguaje de programación, lo que permite que

los usuarios lo extiendan definiendo sus propias funciones. De hecho, gran

parte de las funciones de R están escritas en el mismo R, aunque para

algoritmos computacionalmente exigentes es posible desarrollar

bibliotecas en C, C++ o Fortran que se cargan dinámicamente. Los usuarios

más avanzados pueden también manipular los objetos de R directamente

desde código desarrollado en C. R también puede extenderse a través de

paquetes desarrollados por su comunidad de usuarios.

R hereda de S su orientación a objetos. La tarea de extender R se ve

facilitada por su permisiva política de lexical scoping.

Page 9: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Además, R puede integrarse con distintas bases de datos y existen

bibliotecas que facilitan su utilización desde lenguajes de programación

interpretados como Perl y Python.

Otra de las características de R es su capacidad gráfica, que permite generar

gráficos con alta calidad. R posee su propio formato para la documentación

basado en LaTeX.

R también puede usarse como herramienta de cálculo numérico, campo en

el que puede ser tan eficaz como otras herramientas específicas tales como

GNU Octave y su equivalente comercial, MATLAB.5 Se ha desarrollado

una interfaz, RWeka6 para interactuar con Weka que permite leer y escribir

ficheros en el formato arff y enriquecer R con los algoritmos de minería de

datos de dicha plataforma.

R forma parte de un proyecto colaborativo y abierto. Sus usuarios pueden

publicar paquetes que extienden su configuración básica. Existe un

repositorio oficial de paquetes cuyo número superó en otoño de 2009 la

cifra de los 2000.

Dado el enorme número de nuevos paquetes, éstos se han organizado en

vistas (o temas), que permiten agruparlos según su naturaleza y función.

Por ejemplo, hay grupos de paquetes relacionados con estadística

bayesiana, econometría, series temporales, etc.

En párrafos anteriores no se ha mencionado la palabra estadística, sin

embargo muchas personas utilizan R como un sistema estadístico. Nosotros

preferimos describirlo como un entorno en el que se han implementado

muchas técnicas estadísticas, tanto clásicas como modernas. Algunas están

incluidas en el entorno base de R y otras se acompañan en forma de

bibliotecas (packages). El hecho de distinguir entre ambos conceptos es

fundamentalmente una cuestión histórica. Junto con R se incluyen ocho

bibliotecas (llamadas bibliotecas estándar) pero otras muchas están

disponibles a través de Internet en CRAN (http://www.r-project.org).

Como se ha indicado, muchas técnicas estadísticas, desde las clásicas hasta

la última metodología, están disponibles en R, pero los usuarios necesitaran

estar dispuestos a trabajar un poco para poder encontrarlas.

Existe una diferencia fundamental en la filosofía que subyace en R (o S) y

la de otros sistemas estadísticos. En R, un análisis estadístico se realiza en

Page 10: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

una serie de pasos, con unos resultados intermedios que se van

almacenando en objetos, para ser observados o analizados posteriormente,

produciendo unas salidas mínimas. Sin embargo en SAS o SPSS se

obtendría de modo inmediato una salida copiosa para cualquier análisis,

por ejemplo, una regresión o un análisis discriminante.

1.2 Instalación

Puede descargarse libremente del sitio llamado CRAN (Comprehensive R

Archive Network) en la siguiente dirección: http://cran.r-project.org o bien,

simplemente buscando CRAN en Google.

Utilizando el buscador de Google se encontró en la primera línea el acceso

al R-Project.

Dándole un click al primer enlace podremos ingresar al programa R-Project

Page 11: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Esta ventana representa el acceso al programa R-Project, desde la cual ya

podremos descargar el archivo de instalación de la última versión del R,

con opciones de elegir para los sistemas operativos Linux, Mac OS X o

Windows.

Por ejemplo, procederemos a descargar R para el sistema operativo

Windows, haciendo Click en el vínculo respectivo.

Page 12: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

En la ventana emergente, seleccionar

para descargar el instalador del programa R.

Como se observa en la ventana emergente contamos con las opciones de

, que se utilizó para iniciar la descarga del instalador del programa R en su

versión 3.1.2 para el sistema operativo Windows de 32 y 64 bits.

Así mismo, muestra la opción de instalación y otras instrucciones, en la que

consideran las ayudas y algunos detalles de la forma de instalación.

Por otro lado, en el vínculo de nuevas características de la versión del

programa R, muestran los nuevos comandos que mejoraron en su estructura

y lógica de funcinamiento.

Por ejemplo, la función hist() en la presente versión en más robusta a

muestras pequeñas de datos

Page 13: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Así mismo, la función plot.histogram() que ahora respeta los ejes x e y, y

los títulos como parámetros de los gráficos.

Para el inicio de la descarga del programa R, contamos con dos opciones:

Ejecutar o Guardar. En el primer caso, se descarga internamente en la

memoria de la computadora para luego dar inicio a la instalación de manera

automática, mientras que en el segundo caso, se guarda en una carpeta de

la computadora, para que posteriormente se ejecute la instalación del

programa.

En la ejecución de la instalación se sigue los siguientes pasos:

Selecciona el idioma para la instalación y luego aceptar.

Darle click en siguiente a la ventana emergente denominado

bienvenido al asistente de instalación de R for Windows 3.1.2.

Page 14: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Darle click en siguiente a la ventana emergente denominado

“información”.

Page 15: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Darle click en siguiente a la ventana emergente denominado

“Seleccione la carpeta de destino”, donde por defecto se crea dos

carpetas en el disco C de la computadora dentro de la carpeta

“Archivos de Programa”. Esto con la finalidad de que todos los

programas, archivos zip de los paquetes, los ejemplos y las ayudas de

almacenen en la ruta indicada por defecto o la ruta seleccionada

manualmente.

Darle click en siguiente a la ventana emergente denominada

“seleccione los componentes”.

Darle click en siguiente a la ventana emergente denominada “opciones

de configuración”.

Darle click en siguiente a la ventana emergente denominada

“Seleccione la carpeta del Menú Inicio”.

Seleccionamos todas las tareas adicionales y posteriormente le damos

click en el botón siguiente.

Finalmente se instala el programa de manera automática.

Page 16: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis
Page 17: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis
Page 18: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis
Page 19: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Finalmente, podemos ingresar al programa R haciendo doble click en el

ícono de acceso directo creado en el escritorio de la computadora.

De esa manera podemos ingresar por primera vez a la consola del programa

R en su versión 3.1.2.

Como se observa en la imagen anterior, la consola del programa R no es

amigable para la programación de manera secuencial. Sin embargo, esta no

es la manera más eficiente de trabajar en R. Cuando estemos realizando un

trabajo de mediana complejidad, será muy útil manejar todas las entradas

que solicitemos a R en un entorno donde podamos corregirlas, retocarlas,

repetirlas, guardarlas para continuar el trabajo en otro momento. Para esto

se puede utilizar el editor de R, pero mejor aún podemos utilizar RStudio,

es por ello que se recomienda (es casi una necesidad principal) trabajar con

un manejador de la consola de R, denominado RStudio.

Page 20: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

RStudio es un conjunto de herramientas integradas diseñadas para ayudarle

a ser más productivo con R. Incluye una consola, editor de resaltado de

sintaxis que soporta la ejecución de código directa, así como herramientas

para el trazado, historiales, depuración y gestión de espacio de trabajo. Es

posible incluir comentarios que R no leerá si utilizamos líneas que

comiencen con el carácter #. Por el contrario, si escribimos cualquier orden

no antecedida de # y queremos solicitar la respuesta a R, podemos hacerlo

mediante con el botón “Run” en RStudio. Asimismo, si seleccionamos con

el ratón más de una línea, éstas pueden ser ejecutadas simultáneamente

también con Control+R. La utilidad de un script o guión de trabajo radica

en que podemos modificar nuestras líneas de código con comodidad y

guardarlas para el futuro.

RStudio es un entorno de programación en R disponible en la mayor parte

de los sistemas operativos.

En la consola pueden escribirse comandos de R y ejecutarlos con Enter.

Para un uso eficiente de ella conviene también familiarizarse con opciones

facilitadoras del trabajo tales como:

Autocompletado de código (usando el tabulador).

Historia de comandos (usando flecha arriba y flecha abajo o bien

control-flecha arriba).

Page 21: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

RStudio se puede descargar directamente de www.rstudio.com o se puede

buscar en el Google colocando la palabra “RStudio” y darle clic en el

primer enlace que aparece para ingresar a su portal principal.

Una vez ingresado al portal principal de RStudio, podemos descargar el

programa dándole clic al botón y luego

ubicar en la parte baja el botón para

poder descargarlo.

Elegir la plataforma del sistema operativo con la cual la computadora

trabaja, para luego darle clic a dicha opción, y automáticamente se

procederá a guardar en su carpeta de descargas.

Page 22: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Una vez descargado, se procede a su instalación aceptando todo en cada

paso hasta concluir la instalación. Instalado en programa RStudio,

aparecerá el ícono de acceso directo en su escritorio. Finalmente

ingresamos al programa RStudio.

RStudio está organizado en cuatro zonas de trabajo distintas, como se

aprecia en la siguiente figura:

En la zona superior izquierda pueden abrirse y editarse ficheros con

código R (aunque también otros de otro tipo).

En la zona inferior izquierda hay una consola de R en la que pueden

ejecutarse comandos de R.

La zona superior derecha tiene dos pestañas:

o Workspace, donde aparece la lista de los objetos creados en

memoria.

o History, que contiene el histórico de las líneas de código

ejecutadas en R

La zona inferior derecha dispone de cuatro pestañas:

o Files, que da acceso al árbol de directorios y ficheros del disco

duro.

o Plots, donde aparecen los gráficos creados en la consola.

o Packages, que facilita la administración de los paquetes de R

instalados en la máquina.

Page 23: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Help, en el que se abren las páginas de ayuda.

1.3 Crear y guardar script en R

Para iniciar un nuevo script en R-Project, darle un click al ícono de

ubicado en el lado superior izquierdo y elegir la opción

.

Page 24: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Luego podremos guardarlo como “Mi primer script” (ó el nombre que uno

desee) haciendo click en el ícono guardar .

Page 25: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Seguidamente, en la ventana emergente dar la ruta o carpeta en la cual se

guardará el archivo

.

Se escribe el nombre del archivo en la parte inferior de la ventana.

El tipo de archivo se guarda de manera automática con la extensión “.R”.

Una vez guardado se visualizará el nombre con la cual se guardó el script.

Page 26: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Finalmente estamos en condiciones de poder iniciar nuestro primer script.

1.4 Programando en R

Es posible incluir comentarios que R no leerá si utilizamos líneas que

comiencen con el carácter “#”. Por el contrario, si escribimos cualquier

orden no antecedida de “#” y queremos solicitar la respuesta a R, podemos

hacerlo mediante con el botón “Run” en RStudio. Asimismo, si

seleccionamos con el ratón más de una línea, éstas pueden ser ejecutadas

simultáneamente también con Control+R. La utilidad de un script o guion

de trabajo radica en que podemos modificar nuestras líneas de código con

comodidad y guardarlas para el futuro.

El símbolo de comentario “#”, hace por defecto que la fila de comentario

sea de color verde.

Page 27: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

El ícono “Run”, ejecuta el código desarrollado línea por línea o marcando

el grupo de líneas a ejecutar de una sola vez.

Page 28: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Para pedir ayuda a R se hace mediante el símbolo signo de pregunta (?)

antes del comando respectivo o utilizando el comando “help()”, por

ejemplo para pedir ayuda para el comando del promedio aritmético “mean”

se hace como sigue:

?mean

o

help(mean)

Page 29: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Por otra parte, con el comando “help.start()” se puede acceder a la ventana

de ayuda en html, en la que cuenta con manuales y materiales adicionales

de ayuda.

Page 30: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

1.3.1 Operadores de aritméticos

Los operadores aritméticos actúan en dos elementos y

permiten realizar cálculos matemáticos tales como la adición,

sustracción, multiplicación, división, potencia, división entera y el

resto o módulo de una división.

Los operadores aritméticos actúan sobre variables de tipo

numérico o complejo, pero también lógico; en este caso los valores

lógicos son forzados a valores numéricos.

Operador Nombre

+ Suma

- Resta

* Multiplicación

/ División

^ Potencia

%/% División entera

%% Resto o módulo

Realizar las siguientes operaciones aritméticas:

a. 5+3

b. 5-3

c. 5*3

Page 31: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

d. 5/3

e. 5^3

f. 5%/%3

g. 5%%3

Solución:

5 33 1⏟

𝐷𝑖𝑣𝑖𝑠𝑖ó𝑛

2⏟𝑟𝑒𝑠𝑡𝑜

𝑒𝑛𝑡𝑒𝑟𝑎

Page 32: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Realizar las siguientes operaciones aritméticas:

a. 15+13

b. 15-13

c. 15*13

d. 15/13

he. 15^13

f. 15%/%13

g. 15%%13

Solución:

Page 33: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Realizar las siguientes operaciones aritméticas:

a. √83

b. 25 + 1

c. √25 + 32

Solución:

1.3.2 Operadores de comparación

Los operadores de comparación nos permiten comparar dos

o más números o cadenas de texto devolviendo uno o varios valores

lógicos.

Operador Nombre

== Igual a

!= Diferente de

< Menor que

> Mayor que

<= Menor o igual que

>= Mayor o igual que

Page 34: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Realizar las siguientes operaciones de comparación:

a. 5==6

b. 4==4

c. 3!=3

d. 7!=8

e. 9<5

f. 7<8

g. 1>5

h. 4>2

i. 5<=6

j. 6<=6

k. 5>=2

l. 8>=8

Solución:

Page 35: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Realizar las siguientes operaciones de comparación:

a. √83

== 23

b. 7+9==4*4+1

c. 5/2!=3

Solución:

1.3.3 Operadores lógicos

Los operadores lógicos pueden actuar sobre uno (!) o dos

objetos de tipo lógico, y pueden devolver uno (o varios) valores

lógicos. Los operadores “Y” y “O” existen en dos formas: uno

sencillo donde cada operador actúa sobre cada elemento del objeto

y devuelve un número de valores lógicos igual al número de

comparaciones realizadas; otro doble donde cada operador actúa

solamente sobre el primer elemento del objeto.

Page 36: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

mean (mean(x, trim = 0, na.rm = FALSE, ...))

An R object. Currently there are methods for numeric/logical

ectors and date, date-time and time interval objects. Complex

vectors are allowed for trim = 0, only.

trim the fraction (0 to 0.5) of observations to be trimmed

from each end of x before the mean is computed. Values of trim

outside that range are taken as the nearest endpoint.

na.rm

a logical value indicating whether NA values should be stripped

before the computation proceeds.

...

further arguments passed to or from other methods.

Page 37: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

1.5 Ingreso de datos

Para leer un fichero simple, con los datos separados por espacios en blanco,

tabuladores o saltos de línea, se utiliza la instrucción read.table en la forma:

> fichero.df <- read.table("c:/dir/mi.fichero",

+ header = TRUE, sep = "",

+ comment.char = "")

Si el carácter decimal no es un punto sino, por ej., una coma, usar: dec =

",".

Se pueden saltar líneas (skip) o leer un número fijo de líneas (nrows).

Hay funciones especializadas para otros archivos (ej., read.csv) pero son

casos específicos de read.table.

GUARDAR Y LEER DATOS

Resulta muy importante poder guardar datos, funciones, etc., para ser

usados en otras sesiones de R. Esos datos así guardados pueden

compartirse con otros usuarios e incluso utilizarse en distintos sistemas

operativos.

> x <- runif(20)

> y <- list(a = 1, b = TRUE, c = "patata")

> save(x, y, file = "xy.RData")

Los leeremos con

> load("xy.RData")

Podemos guardar todos los objetos con

Page 38: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

> save.image() # guardado como ".RData"

> save.image(file = "nombre.RData")

El fichero .RData se carga al iniciarse R.

R y muchos otros paquetes incorporan archivos con datos:

Se cargan con load("nombre.RData").

La instrucción data permite cargar archivos de las librerías disponibles.

> data() # muestra todos los archivos

> data(iris)

> data(iris, package = "base") # equivalente

> ?iris

Existen diversas maneras de ingresar datos en el entorno R de las

cuales son:

1.5.1 La forma tradicional del ingreso de datos en R es mediante la

asignación mediante el símbolo “<-”.

Para poder visualizar los datos se debe renombrar a una

variable.

Ejemplo 1.1

Ingresaremos unas variables llamada “variable1” con los

valores 10, 11, 12, 13, 14 y 15.

Page 39: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Ingresaremos una variable llamada “edad” con los

valores 5, 6, 7, 10, 8, 13 y 12

1.5.2 Ingreso de datos con la función scan

Ingresaremos la variable “talla” con los valores 150, 151, 160,

164, 172, 155 y 143.

Page 40: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

En la función scan solo se ingresan los datos separados con

espacio en cada fila deseado en una sola columna.

Ingresaremos la variable “ventas” con 10 valores (320, 435, 345,

657, 545, 543, 434, 656,434 y 564) pero en 2 filas.

En la función scan cuando ya no se desea ingresar datos

simplemente se ingresar un enter y r leerá los archivos

ingresados en las filas y arrojará el mensaje “Read 10 item”

(10 ítems leídos).

Page 41: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

1.5.3 Ingreso de datos con la función concatenar

Ingresaremos la variable “talla” con los valores 150, 151, 160,

164, 172, 155 y 143.

Ingresaremos la variable “ventas” con 10 valores (320, 435, 345,

657, 545, 543, 434, 656,434 y 564) pero en 2 filas.

Page 42: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Al dejar el paréntesis abierto r interpreta que aún se van a ingresar

datos y por ellos aparece el símbolo “+” en señal de la espera de más

datos.

1.6 Importación de datos

Existen varias fuentes de datos de los cuales podemos importarlos a r,

entre los más comunes tenemos:

a) Ingreso de datos a partir de una hoja de texto.

Ingresaremos una hoja de texto con el archivo “glucosa.txt”

Que contiene 3 variables y 14 observaciones.

Page 43: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Para ello primero, guardaremos este archivo en la ubicación

predeterminada por r (la carpeta “Mis documentos”).

Ubicada en la ruta” C:\Users\[NOMBRE DE LA PC]\Documents”

El nombre del ordenador dependerá de la configuración inicial acerca del

nombre que se le asignó. En otros casos la carpeta se llama solo

“Documentos”

Solo de asigna una variable inicial llamada “glu” que leerá el archivo

glucosa.txt, el código “header=T” indica que los encabezado se asignan a

la primera fila.

Ingresaremos una hoja de texto con el mismo archivo pero que está

ubicado en “D:/glucosa.txt”

Page 44: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

b) Ingreso de datos Microsoft Excel

Una las maneras de ingresar datos desde Microsoft Excel es

exportando los datos al formato separado por comas (csv)

Primero tenemos que exportar los datos desde Excel al CSV, en

la opción “Guardar Como” (Ver imagen)

Page 45: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Luego guardamos el archivo CSV(delimitado por comas) en la

carpeta “Mis Documentos”

c) Ingresando datos desde un archivo de Microsoft Excel xls.

Page 46: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Para importar directamente desde Excel o exportar a Excel en su

respectivo formato .xls se deben cargar paquetes adicionales, lo

cual no me parece nada atractivo, porque los

archivos .txt o .csv funcionan muy bien en todos los softwares

estadísticos y también en Excel mismo, sin embargo, para

aquellos que les gusta mantener sus datos en archivos.xls pueden

estar tranquilos porque incluso en ese formato se importa a R.

d) Importación de datos desde el spss.

Para importar archivos .sav del spss, se utiliza la librería foreign

y con el archivo “glucosa.sav” de 8 filas y 3 columnas.

e) Importación de datos desde Stata.

Se debe usar la función read.dta del paquete foreign.

La variable de ejemplo es “stata” con un archivo de 6 filas.

Page 47: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Importación en base de dato

Importar bases de datos

Con R

- Desde una dirección de internet:

darwin<-read.table(‘‘http://www.mat.ucm.es/~palomam/aedej1.dat’’)

- Desde un fichero de texto

darwin2<-read.table(‘‘C:/aed/datos/ejemplo1.dat’’)

- Desde un fichero de datos (por ejemplo dBase *.dbf) que puede ser una

base de datos abierta en Minitab y guardada como fichero dBase.

cargar el paquete foreign

library(foreign)

Peru<-> read.dbf(‘‘F:/aed/datos/Peru.dbf’’)

- Desde el Campus Virtual de la UCM (Asignatura AED de la Lic. C.C.

Matemáticas)

Ir a Bases de datos → datos.zip → descomprimir → seleccionar el fichero

→ guardar como fichero de texto → abrir desde fichero de texto

Page 48: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

1.4 Ejercicios

1. Como se realiza el ingreso de datos en R.

2. Menciones las formas de ingreso de datos en R.

3. En una clase de matemática 5 alumno sacaron las notas (13, 11,

10.9, 5, 8), ¿Cuál es la forma más sencilla de ingresar los datos?

¿por qué?

4. Ingrese una variable llamada “ventas” a través de a función “<-”

y con la función “scan” ¿Cuál es la diferencia entre ambas?.

5. Ingrese la variable “glucosa” desde un archivo de texto.

6. Los datos de la siguiente tabla representan los goles de David Villa

en la liga y en la copa desde la temporada 2000-01: Temporada

'00 '01 '02 '03 '04 '05 '06 '07 '08

7. Introducir los datos siguientes siguiendo cada uno de los tres

métodos y creando tres conjuntos de datos llamados

datosmetodo1, datosmetodo2 y datosmetodo3.

Page 49: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

8. J) En 1609 Galileo demostró matemáticamente que la trayectoria

de un cuerpo que cae con un componente de velocidad horizontal

es una parábola. Su descubrimiento tuvo su origen en

observaciones empíricas que realizó casi un año antes. Para estas

observaciones, ideó un experimento en el que una bola empapada

de tinta rodaba en un plano inclinado para luego caer desde una

altura de 500 punti (1 punti= 169/189mn). Galileo estudió la

distancia horizontal que alcanza la bola en función de la altura

desde la que sale. Un diagrama ilustrativo, extraido de Ramsey,

Schafer (2002), ``The statistical Sleuth'' p 268, se enseña a

continuación.

Ingrese el conjunto de datos. De las formas ya estudiadas y analice sus

deferencias.

9. En una encuesta de 20 personas, a las cuales se les pregunto sobre

sus ingresos mensuales, mencionaron que entre 300 y 1500, de los

cuales, si la información solicitada se extravió. Complete los en

ingrese en R los posibles salarios de las 20 personas.

Page 50: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

10. Un agricultor desea pesar sus papas en función del tipo de abono

que utilizo, para el extrae una muestra de 5 papas por cada abono

utilizado, de los cuales se obtuvo lo siguiente:

Abono 1 150 145 123 132 143

Abono 2 165 143 162 159 155

Ingrese los datos en una hoja de texto y en Microsoft Excel e

impórtelos a R.

11. La provincia de Carlos Fermín Fitzcarrald en Ancash, cuenta

con 3 distritos. La primera (San Luis) tiene dos habitantes cuyas

rentas personales son 30 y 25 M (miles de soles). La segunda

autonomía (Yauya) tiene tres habitantes con rentas de 45, 62 y

15. La tercera (San Nicolás) tiene cinco habitantes con rentas

de:

38, 86, 43, 65 y 24.

Ingrese dicha información al R.

12. Un aficionado a los coches acaba de adquirir una colección

compuesta por:

N° Marca de automóvil Precio S/.

1 Toyota 200 000

2 Nissan 50 000

4 Suzuki 15 000

Page 51: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

1 Kia 18 000

Ingrese la información al R para el cálculo del precio promedio.

13. Una empresa de pavimentación de calzadas ha reconstruido 240

metros de calle. La primera mitad se rehízo en 10 días mientras

que para la segunda mitad se necesitaron 8 días. El alcalde del

pueblo le pregunta al gerente de urbanismo ¿cuál es la

productividad “promedio” (metros de calzada por día) de la

empresa? Ayude al gerente a responder a esta cuestión e ingrese

los datos al R.

14. Las calificaciones de 50 alumnos en Matemáticas han sido las

siguientes:

5, 2, 4, 9, 7, 4, 5, 6, 5, 7, 7, 5, 5, 2, 10, 5, 6, 5, 4, 5, 8, 8, 4, 0, 8,

4, 8, 6, 6, 3, 6, 7, 6, 6, 7, 6, 7, 3, 5, 6, 9, 6, 1, 4, 6, 3, 5, 5, 6, 7.

Ingrese la información al R para el cálculo y generación de la

tabla de distribución de frecuencias.

15. Dado las series estadísticas:

3, 5, 2, 7, 6, 4, 9. 3, 5, 2, 7, 6, 4, 9, 1.

Ingresar los datos al Microsoft Excel y posteriormente

importarlos a R.

Comente los 2 métodos posibles y cuál es el más sencillo.

16. En una clase de un Instituto Se ha medido la altura de los 25

alumnos. Sus medidas, en cm, fueron:

Ingresar los datos desde el SPSS e importar los datos hacia el R.

Elabora una tabla que represente estos resultados con sus

167 159 168 165 150 170 172 158 163 156

151 173 175 164 153 158 157 164 169 163

160 159 158 174 164

Page 52: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

frecuencias absolutas, relativas y porcentajes. Toma intervalos de

amplitud 5 cm comenzando por 150.

17. Se ha hecho una encuesta sobre el número de hijos en 50

familias, con los siguientes resultados:

Importe los datos desde el software Stata o el SPSS para

posteriormente realzar una tabla donde se recojan estos datos con

sus frecuencias absolutas acumuladas y relativas acumuladas.

18. Las edades de los jugadores de un equipo de baloncesto son: 27,

18, 28, 26, 25, 19, 31, 19, 24 y 26 años.

Ingrese los datos desde una hoja de texto para su exportación al

R y finalmente determinar. ¿Cuál es la edad media?

19. En una clase de una Institución hemos medido la altura de los

25 alumnos. Sus medidas, en cm, se reflejan en la siguiente tabla

agrupados en intervalos:

Alturas Nº alumnos (fi)

[150,155) 3

[155,160) 7

[160,165) 6

[165,170) 4

[170,175) 5

Ingrese los datos desde una hora de texto al R.

20. Se han pesado 40 piezas. Los resultados de las pesadas,

expresados en gramos, son:

0 2 1 2 5 2 1 1 1 4 0 0 2

0 4 4 1 1 2 2 3 1 2 3 0

3 1 3 2 2 3 3 1 5 4 3 3

1 2 2 2 3 2 2 1 0 2 2 1

1

Page 53: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Ingrese los datos desde una base de datos del SPSS al R e

confecciona una tabla estadística para presentar los resultados

agrupando en intervalos los valores observados y donde

aparezcan también las frecuencias absolutas acumuladas y las

frecuencias relativas acumuladas. Toma intervalos de amplitud

de 1 cm. comenzando por 61.

64,1 66,4 64 66,7 65,3 64,4 63,9 63 65,4 64,3

68,8 66,6 65,1 64,2 68,5 65,7 65,8 63,1 64,6 63,5

65 66,4 67,3 65,7 64 61,5 64,1 65 63 63,2

66,9 66,3 67 66,1 66,8 65,3 64,4 64,5 63,1 65,5

Page 54: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

ARRAYS Y MATRICES

Definiciones

Un array es una colección de datos del mismo tipo con varias

dimensiones.

El vector a pasa a ser un array 3x4x2.

Una matrix es un array con dos dimensiones. Tienen una funcionalidad

muy parecida, pero matrix es más cómoda.

> a1 <- array(9, dim = c(5,4))

> a2 <- matrix(1:20, nrow = 5)# como en FORTRAN

Veamos los resultados.

Page 55: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

> a3 <- matrix(1:20, nrow = 5, byrow = TRUE)

> a4 <- 1:20; dim(a4) <- c(5, 4)

Ahora vemos los resultados de a3 y a4.

Con las coordenadas se obtienen los elementos particulares, como

en los vectores:

> a[1,1,1]; a[1,1,2]; a[3,4,2]

Page 56: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

También podemos considerar subconjuntos de un array

> a[2, , ] # es un array de dimensión c(4,2)

> a4[1, ]; a4[, 2]; a4[c(1, 3), c(2, 4)]

También se pueden dar las coordenadas matricialmente. Observar el

ejemplo:

> im <- matrix(c(1, 3, 2, 4), nrow = 2)

> im

> a4[im]

Page 57: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Ejemplo:

> x <- c(190,8,22,191,4,1.7,223,80,2,210,50,3)

> datos <- matrix(x,nrow=4,byrow=T); dim(datos)

> ciudades <- c("Huaraz","Casma","Caraz","Chimbote")

> dimnames(datos) <- list(ciudades,NULL)

> variables <- c("A","B","C")

> dimnames(datos) <- list(ciudades,variables)

> datos

> dimnames(datos)

> datos["Barna", ]

> datos[ ,"C"]

Page 58: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

> a4 <- 1:20; dim(a4) <- c(5, 4)

> attributes(a4)

> colnames(a4) <- paste("v", 1:4, sep = "")

> rownames(a4) <- paste("id", 1:5, sep = ".")

> a4[, c("v1", "v3")]

> attributes(a4)

Page 59: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Para ordenar un array por una columna:

> matriz <- matrix(rnorm(20),ncol=4)

> o.matriz <- matriz[order(matriz[, 1]), ]

Page 60: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Operaciones con matrices

A %*% B : producto de matrices

t(A) : transpuesta de la matriz A

solve(A,b) : solución del sistema de ecuaciones Ax=b.

solve(A) : inversa de la matriz A

svd(A) : descomposición en valores singulares

qr(A) : descomposición QR

eigen(A) : valores y vectores propios

diag(b) : matriz diagonal (b es un vector)

diag(A) : matriz diagonal (A es una matriz)

A %o% B == outer(A,B) : producto exterior de dos vectores o

Matrices

Las funciones var, cov y cor calculan la varianza de x y la covarianza o

correlación de x y y si ´estos son vectores. Cuando x y y son matrices,

entonces calculan las covarianzas (o correlaciones)

entre las columnas de x y las columnas de y.

> data(longley)

> (Cl <- cor(longley))

Este conjunto de datos se encuentra almacenado previamene en los

archivos de R.

Page 61: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

> ## Gráfico de la matriz de correlaciones:

> symnum(Cl) # highly correlated

Page 62: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

> ## Rho de Spearman

> cor(apply(longley, 2, rank))

> cor(longley, method = "spearman") # Mejor

Page 63: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

La función cov2cor convierte “eficientemente” una matriz de covarianzas

en la correspondiente matriz de correlaciones.

La función outer(X, Y, FUN="*", ...) proporciona por defecto el producto

exterior de los dos arrays. Sin embargo, podemos introducir otras

funciones e incluso nuestras propias funciones.

> x <- 1:9; names(x) <- x

> # Multiplication & Power Tables

> x %o% x

> y <- 2:8; names(y) <- paste(y,":",sep="")

> outer(y, x, "^")

Page 64: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis
Page 65: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

COMBINACION DE ARRAYS

Para combinar vectores, matrices o arrays utilizamos las instrucciones

rbind y cbind.

> x1 <- 1:10; x2 <- 11:20

> a6 <- diag(6) # matriz identidad

> a7 <- cbind(x1, x2); a8 <- rbind(x1, x2)

> a24 <- cbind(a2, a4)

Page 66: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

> cbind(a4, a6) # no funciona

> rbind(a4, a6) # no funciona

> a9 <- matrix(rnorm(30), nrow = 5)

> cbind(a4, a9)

Page 67: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

> rbind(a4, a9) # no funciona

Page 68: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

DATA.FRAMES

Definición

Para datos de diferentes tipos:

> x3 <- letters[1:10]

> a9 <- cbind(x1, x2, x3)

¿De qué tipo es a9? ¿Es eso lo que queríamos?

Mejor con un data.frame:

> a10 <- data.frame(x1, x2, x3)

Page 69: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

> prcomp(a10[, c(1,2)])# comp. principales

> prcomp(a10[, c("x1", "x2")])

> prcomp(a10[, -3])

También podemos añadir alguna columna a una matriz como datos:

> playa <- c("si","si","no","no")

> datos.df <- data.frame(datos,playa)

> datos.df$playa

Page 70: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Usar $ facilita el acceso y la creación de nuevas columnas:

> set.seed(1) # fija la semilla del random number generator

> d1 <- data.frame(g1 = runif(10), g2 = rnorm(10))

> d1$edad <- c(rep(20, 5), rep(40, 5))

> set.seed(1)

> d2 <- cbind(g1 = runif(10), g2 = rnorm(10))

> d2[, 3] <- c(rep(20, 5), rep(40, 5)) # error

> d2 <- cbind(d2, edad = c(rep(20, 5), rep(40, 5)))

Page 71: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Además, en los data.frame los “character vectors” se convierten en

factores.

Podemos convertir matrices a data.frame con as.data.frame().

Los data.frame también tienen rownames, colnames.

> attributes(a10) # cuando no están definidos También podemos usar

dimnames(a10).

Page 72: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

LA FAMILIA APPLY

> ax <- matrix(rnorm(20), ncol = 5)

> medias.por.fila <- apply(ax, 1, mean)

> por.si.na <- apply(ax, 1, mean, na.rm = TRUE)

> mi.f1 <- function(x) { return(2*x - 25)}

> mi.f1.por.fila <- apply(ax, 1, mi.f1)

> mas.simple <- apply(ax, 1, function(x){return(2*x -25)})

> medias.por.columna <- apply(ax, 2, mean)

Page 73: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

> sample.rows <- apply(ax, 1, sample)

> dos.cosas <- function(y){return(c(mean(y), var(y)))}

> apply(ax, 1, dos.cosas)

> t(apply(ax, 1, dos.cosas))

Page 74: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Utilizar apply es generalmente mucho más eficiente que un bucle.

Además de más claro, más fácil, etc.

> parameters <- cbind(mean = -5:5, sd = 2:12)

> z.data <- matrix(rnorm(1000 * 11), nrow = 11)

Page 75: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

> data <- (z.data * parameters[,2]) + parameters[,1]

Page 76: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

> apply(data, 1, mean); apply(data, 1, sd)

Las funciones sapply(X,funcion) y lapply(X,funcion) son como

apply(x,i,funcion) pero no hay que especificar el ındice i=2;

sapply intenta simplificar el resultado a un vector o a una matriz

(la “s” es de “simplify”), pero lapply siempre devuelve una lista.

Ambas pueden aplicarse a vectores, listas, arrays.

> data(airquality)

> sapply(airquality, function(x)sum(is.na(x)))

La función tapply(x,y,función) calcula la función especificada sobre el

objeto x según las categorías de y.

> x <- c(19,14,15,17,20,23,19,19,21,18)

> trat <- c(rep("A",5),rep("B",5))

> x.media <- tapply(x,trat,mean)

Page 77: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

> x.media

Apply, sapply, lapply y tapply son funciones muy útiles que contribuyen a

hacer el código más legible, fácil de entender, y facilitan posteriores

modificaciones y aplicaciones.

Consejo: Cada vez que vayamos a usar un “loop” intentemos substituirlo

por algún miembro de familia apply.

Algunas funciones hacen un apply:

> x1 <- 1:10

> m1 <- matrix(1:20, ncol = 5)

> d1 <- as.data.frame(m1)

Page 78: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

> mean(x1); mean(d1); sd(x1); sd(d1); median(m1); median(d1)

Page 79: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

TABLAS

La tabulación cruzada de dos variables cualitativas se consigue con la

función table.

> table(sexo,nivel)

Para introducir una tabla de contingencia también se utiliza la instrucción

table. Las variables se definen con sus modalidades con la instrucción

expand.grid(var1,var2).

> resultado <- cbind(expand.grid(

+ calif=c("mejor","peor","igual"),

+ tratam=c("A","B")))

> frec <- c(21,34,5,7,12,14)

> tabla <- table(calif,tratam)*frec

> tabla

> d3 <- data.frame(g1=runif(10),g2=rnorm(10),

+ id1 = c(rep("a", 3), rep("b", 2),

+ rep("c", 2), rep("d", 3)))

> my.fun <- function(x) {

+ las.medias <- mean(x[, -3])

+ las.vars <- var(x[, -3])

+ max.total <- max(x[, -3])

+ tabla.clases <- table(x[, 3])

+ return(list(row.means = las.medias,

+ row.vars = las.vars, maximum = max.total,

+ factor.classes = tabla.clases))

+ }

> my.fun(d3)

LISTAS

> una.lista <- my.fun(d3); una.lista

Page 80: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

> attributes(una.lista); names(una.lista)

> length(una.lista)

> una.lista[[4]]

> una.lista[4] # ¿por qu´e sale el nombre? class

> una.lista$factor.classes

> una.lista[[3]] <- list(NULL); una.lista

> una.lista[[3]] <- NULL

> una.lista # hemos eliminado el "slot" maximum

> unlist(una.lista)

> otra.lista <- list(cucu = 25, una.lista)

> unlist(otra.lista)

> unlist(otra.lista, drop = FALSE)

> una.lista <- c(una.lista, otro.elemento = "una frase")

Page 81: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Los objetos que tenemos

Para saber los objetos que hemos definido hacemos

> ls()

> objects()

> objects(pattern="a*")

R tiene una lista donde buscar los objetos accesibles: “the search

list”. Cargar un paquete extiende la “search list”.

Para obtener la lista de los directorios, llamados “databases”:

> search()

> library(MASS)

> search()

Para que un objeto o directorio sea fácilmente accesible lo podemos poner

en la “search list” de R. En el caso de un data.frame, esto permite acceder

directamente a las columnas por su nombre.

> str(datos.df) # es un data.frame

> A # error

> attach(datos.df)

> A # ahora s´ı

> plot(A,B) # en lugar de plot(datos.df$A,datos.df$B)

La actualización no es dinámica

> datos.df$D <- 1:4 # una nueva columna

> datos.df # aqu´ı est´a

> D # pero aqu´ı no

Para desconectar

Page 82: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

> detach(objeto)

PARA BORRAR OBJETOS CONCRETOS

> rm(objetos)

Para borrar todos los objetos del entorno de trabajo:

> rm(list = ls())

Para cargar un archivo nombre.RData con objetos diversos (datos,

funciones,...) se puede hacer un attach o un load.

La primera instrucción accede a los objetos cuando se requieren, la

segunda los carga todos.

> load("nombre.RData")

¡ALERTA!

> datos.df

> A <- 1

> A # usa la ´ultima

> search() # el search path

> detach(datos.df)

> attach(datos.df)

> D

> A # cuidado

Conclusión: En “entornos confusos”, como un análisis que se prolonga

dos semanas, es mejor evitar attach y acceder siempre a las variables

usando su localización explicita y completa.

Page 83: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

CAPÍTULO II

CUADROS DE DISTRIBUCIÓN DE FRECUENCIAS

2.1 Introducción

La Estadística es la ciencia que utilizando las matemáticas y de

modo particular el cálculo estudia las leyes de comportamiento de

aquellos fenómenos que no estando sometidos a leyes rígidas

dependen del azar y basándose en ella, se predicen resultados.

En la mayora de estudios en la estadística se empieza por la

recopilación de datos necesarios, algunas veces tediosa y con

mucha necesidad de tiempo.

Esta recolección de datos en si revela muy poco por si sola. Es

extremadamente difícil determinar el verdadero significado de un

grupo de números que simplemente se han registrado en un papel

(o en cualquier otro medio)

La labor que sigue es la de organizar y describir ese conjunto de

datos de manera que con una mirada rápida podamos determinar

la forma y agrupación de esta (lo que nos quiere decir en si la

información).

2.1.1 Distribución de frecuencias de una variable cuantitativa.

Si tenemos una variable cuantitativa X, observada de una muestra

de tamaño “n”, de las cuales en la población se origina “k”

Page 84: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

cualidades distintas 1 2 3, , ,..., kC C C C , la tabulación de estas de

los n datos es llamada distribución de frecuencias (cuadro n°

2.1.1)

Cuadro n° 2.1.1: Distribución de frecuencias de una variable cualitativa

Categorías de la

Variable

Frecuencias

Absolutas simples

Frecuencias

Relativas

Frecuencias

porcentuales

1C 1f

1h 1p

2C 2f

2h 2p

kC kf

kh kp

Total n 1 100.00%

La Frecuencias Absoluta simple if , es el número de datos que

resulta del conteo de la categoría respectiva iC , donde

1, 2,3,...,i k

La suma de todas las frecuencias absolutas simples es igual a la n,

el total de datos observados, quiere decir que:

1 2 3

1

...k

i k

i

f f f f f n

Page 85: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

La Frecuencias Relativa ih , de la categoría

iC está dada por

la frecuencia absoluta simple entre el total de datos, quiere decir

que:

ii

fh

n

La suma de todas las frecuencias relativas es igual a la unidad,

quiere decir que:

1 2 3

1

... 1k

i k

i

h h h h h

La Frecuencias Porcentual ip , de la categoría

iC está dada

por la frecuencia relativa multiplicada por 100, quiere decir que:

100%i ip h

La suma de todas las frecuencias porcentuales es igual a 100%,

quiere decir que:

1 2 3

1

... 100%k

i k

i

p p p p p

En una encuesta de opinión pública sobre la marca de teléfonos

celulares: Samsung (1), Lg(2) y Nokia (3), una muestra de 20

consumidores marco lo siguiente:

Page 86: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

1, 2, 1, 2, 3, 1, 2, 3, 1, 1

2, 1, 3, 3, 2, 1, 1, 1, 1, 1

SOLUCION:

Sea X la variable estadística X=”marca de teléfono celular

favorito” cuyos valores están en la escala de medición nominal,

la agrupación de sus valores se ve en la siguiente tabla:

Marca de Celular Frecuencias

Absolutas simples

Frecuencias

Relativas

Frecuencias

porcentuales

Samsung 11 0.55 55%

Lg 5 0.25 25%

Nokia 4 0.2 20%

Total 20 1 100.00%

En R e ingreso de datos es el siguiente:

Page 87: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Para el ingreso de datos, creamos una variable llamada ‘telefono’

el cual contiene los números de cada marca de teléfono, luego

asignamos una variable factor para establecer una cantidad

cualitativa a cada número.

Para la generación de la tabla de frecuencias de una variable

cualitativa en r el comando es así.

Page 88: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Observamos que r agrupa las cantidades de cada una de las

categorías (realizando un conteo interno e cada una de las

categorías).

Si queremos calcular las frecuencias relativas, es de la siguiente

manera.

Si queremos observar la frecuencia de datos como una tabla

vertical, procederemos a crear un marco de datos (tabla vertical)

para lo cual realizamos en siguiente procedimiento.

Page 89: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

La tabla ‘tabla_tel’ contiene a las frecuencias absolutas simples,

mientras que la tabla ‘tabla_tel2’ contiene a las frecuencias

relativas.

Finalmente si queremos resumir en nuestra tabla de frecuencias,

las categorías, las frecuencias absolutas y relativas, entonces

tendríamos lo siguiente.

Page 90: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Asignamos en nombre a nuestra tabla de frecuencias

‘tabla_freq’, utilizando la función ‘merge’ que unirá a las tablas

‘martel1’ y ‘martel2’ en una sola a través de la variable

‘teléfonos’.

Gráfica de la distribución de variable cualitativa.

Realizar la gráfica estadística de una variable cualitativa es

revisar las diversas formas de crear estas, entre las más comunes

tenemos la de “barras separadas” y la de “sectores circulares” o

gráfico de torta.

En una gráfica de barras, los datos de cada una de las cualidades

iC se representa por una barra rectangular vertical o horizontal,

cuya altura (o largo) es proporcional a su frecuencia (ya sea

absoluta simple, relativa o porcentual). La barra de dibuja

dejando un espacio entre ellas.

Page 91: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Si la escala es nominal, las cualidades pueden ser colocadas en

cualquier orden. Pero si el nivel de la escala es ordinal las

cualidades deben ir ordenadas (por lo general de manera

ascendente).

En una gráfica circular o de tortas, los datos se representan por

un sector circular cuyo ángulo en el centro es igual a 360hi .

Si la gráfica por sectores es tridimensional, esta se denomina

gráfica del pastel.

Realizar la gráfica del ejemplo anterior.

En r, la creación de la gráfica de barras es la siguiente.

En el ejemplo anterior teníamos la marca de teléfonos utilizada

un grupo de personas, luego del ingreso de datos, nuestro grafico

de barras será el objeto ‘grafbar’ el cual generaremos con la

función ‘barplot’, y dentro del argumento la tabla ‘tabla_tel’ (que

Page 92: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

en realidad es un vector de datos). La grafica se muestra como

sigue.

Para el cambio de colores, la sentencia es asi.

La gráfica de barras de muestra así:

Page 93: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Distribución de frecuencias de una variable cuantitativa

Discreta

Una distribución de frecuencias de variable discreta tiene la

estructura básica del cuadro 2.1.1, donde en la primera columna

se introducen los valores distintos de la variable discreta.

Si n valores de una variable cuantitativa discreta X observados

de una muestra de una población tiene k ( )k n valores

distintos 1 2 3, , ,..., kx x x x , que se repiten respectivamente

1 2 3, , ,..., kf f f f veces, entonces la organización de estos n

datos origina la distribución de frecuencias del cuadro siguiente.

Cuadro 1.3: Distribución de frecuencias de variable discreta

Page 94: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Valores de la

Variable X

Frecuencias

Absolutas simples

if

Frecuencias

Relativas ih

Frecuencias

porcentuales

ip

1x 1f

1h 1p

2x 2f

2h 2p

kx kf

kh kp

Total n 1 100.00%

En una encuesta urbana, se preguntó por el número de hijos por

familia, en las cuales se observaron 20 familias que respondieron:

2, 1, 2, 4, 1, 3, 2, 3, 2, 0

3, 2, 1, 3, 2, 3, 3, 1, 2, 4

Describa la variable de la encuesta urbana y obtenga la

distribución de frecuencias de los datos. Luego grafique la

distribución.

SOLUCIÓN

En R, el ingreso de los datos es el siguiente.

Consideramos la variable ‘hijos’ como una discreta.

Page 95: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Si deseamos hacer un conteo de los valores de la variable ‘hijos’,

utilizamos la función table(‘variable’)

Básicamente estos valores son las frecuencias absolutas simples.

Page 96: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Gráfico para una variable cuantitativa discreta.

De manera general en R podemos crear una grafico distribución

de frecuencia para una variable discreta.

Para la creación de una tabla de distribución, el formato asignado

para que R interprete como ‘tabla’, se antepone el código ‘tabla’

Page 97: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

con el nombre de la variable que contiene el conjunto de datos a

analizar.

En el caso de los gráficos, aquí tenemos uno de barras el cual

procede de la variable “número de hijos por familia”

GRAFICOS EN R

Introducción

R incluye muchas y variadas funciones para hacer gráficos.

El sistema permite desde gráficos muy simples a figuras de calidad para

incluir en artículos y libros.

Solo examinaremos la superficie.

También podemos ver un buen conjunto de ejemplos con demo

(graphics).

El comando plot es uno de los más utilizados para realizar gráficos.

Page 98: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

El comando plot

Si escribimos plot(x, y) donde x e y son vectores con n coordenadas,

entonces R representa el grafico de dispersión con los puntos de

coordenadas (xi, yi).

Este comando incluye por defecto una elección automática de ejes,

escalas, etiquetas de los ejes, densidad de las líneas, etc., que pueden ser

modificados añadiendo parámetros gráficos al comando y que pueden

visualizarse con help(par).

> x <- runif(50, 0, 4); y <- runif(50, 0, 4)

> plot(x, y, main = "Título principal",

+ sub = "subt´ıtulo", xlab = "eje x", ylab = "eje y",

+ xlim = c(-5,5),ylim = c (-5,5))

Page 99: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

El gráfico generado es el siguiente.

Variaciones de plot:

> z <- cbind(x,y)

Page 100: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

> plot(z)

> plot(y ~ x)

> plot(log(y + 1) ~ x) # transformación de y

Page 101: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

> plot(x, y, type = "p")

> plot(x, y, type = "l")

Page 102: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

> plot(x, y, type = "b")

> plot(c(1,5), c(1,5))

Page 103: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

> legend(1, 4, c("uno", "dos", "tres"), lty = 1:3,

+ col = c("red", "blue", "green"),

+ pch = 15:17, cex = 2)

Con text podemos representar caracteres de texto directamente:

> sexo <- c(rep("v", 20), rep("m", 30))

Page 104: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

> plot(x, y, type = "n")

> text(x, y, labels = sexo)

Puntos.

> points(x, y, pch = 3, col = "red")

Tipos de puntos.

> plot(c(1, 10), c(1, 3), type = "n", axes = FALSE,

+ xlab = "", ylab="")

> points(1:10, rep(1, 10), pch = 1:10, cex = 2, col = "blue")

> points(1:10, rep(2, 10), pch = 11:20, cex = 2, col = "red")

> points(1:10, rep(3, 10), pch = 21:30, cex = 2,

+ col = "blue", bg = "yellow")

Page 105: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Tipos de líneas.

> plot(c(0, 10), c(0, 10), type = "n", xlab ="",

+ ylab ="")

> for(i in 1:10)

+ abline(0, i/5, lty = i, lwd = 2)

> for(i in 1:10)

+ abline(0, i/5, lty = i, lwd = 2)

Page 106: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

lty permite especificaciones más complejas (longitud de los segmentos

que son alternativamente dibujados y no dibujados). para controla muchos

parámetros gráficos. Por ejemplo, cex puede referirse a los “labels”

(cex.lab), otro, cex.axis, a la anotación de los ejes, etc.

Hay muchos más colores. (Anexo 1).

Identificación interactiva de datos

identify(x, y, etiquetas) identifica los puntos con el ratón y escribe la

correspondiente etiqueta.

> x <- 1:10

> y <- sample(1:10)

> nombres <- paste("punto", x, ".", y, sep ="")

> plot(x, y)

> identify(x, y, labels = nombres)

locator() devuelve las coordenadas de los puntos.

> plot(x, y)

> locator()

> text(locator(1), "el marcado", adj = 0)

Page 107: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

El gráfico generado es el siguiente.

Múltiples gráficos por ventana

Empezamos con par(mfrow=c(filas,columnas)) antes del comando plot.

> par(mfrow = c(2, 2))

> plot(rnorm(10))

> plot(runif(5), rnorm(5))

> plot(runif(10))

> plot(rnorm(10), rnorm(10))

Page 108: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Podemos mostrar muchos gráficos en el mismo dispositivo gráfico.

La función más flexible y sofisticada es split.scree.

DATOS MULTIVARIANTES

Diagrama de dispersión múltiple.

> X <- matrix(rnorm(1000), ncol = 5)

> colnames(X) <- c("a", "id", "edad", "loc",

+ "weight")

> pairs(X)

Gráficos condicionados (revelan interacciones).

> Y <- as.data.frame(X)

> Y$sexo <- as.factor(c(rep("Macho", 80),

+ rep("Hembra", 120)))

> coplot(weight ~ edad | sexo, data = Y)

> coplot(weight ~ edad | loc, data = Y)

> coplot(weight ~ edad | loc * sexo, data = Y)

La librería lattice permite lo mismo, y mucho más, que coplot.

Boxplots

Los diagramas de caja son muy útiles para ver rápidamente las principales

características de una variable cuantitativa, o comparar entre variables.

Page 109: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

> attach(Y)

> boxplot(weight)

> plot(sexo, weight)

> detach()

> boxplot(weight ~ sexo, data = Y,

+ col = c("red", "blue"))

La función boxplot tiene muchas opciones; se puede modificar el aspecto,

mostrarlos horizontalmente, en una matriz de boxplots,

etc. Véase la ayuda ?boxplot.

Un poco de ruido

Los datos cuantitativos discretos pueden ser difíciles de ver bien.

Podemos añadir un poco de ruido con el comando jitter.

> dc1 <- sample(1:5, 500, replace = TRUE)

> dc2 <- dc1 + sample(-2:2, 500, replace = TRUE,

+ prob = c(1, 2, 3, 2, 1)/9)

> plot(dc1, dc2)

> plot(jitter(dc1), jitter(dc2))

Dibujar rectas

Podemos añadir muchos elementos a un gráfico, además de leyendas y

líneas rectas.

> x <- rnorm(50)

> y <- rnorm(50)

> plot(x, y)

> lines(lowess(x, y), lty = 2)

Page 110: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

> plot(x, y)

> abline(lm(y ~ x), lty = 3)

Podemos añadir otros elementos con “panel functions” en otras funciones

(como pairs, lattice, etc).

Más gráficos

Podemos modificar márgenes exteriores de figuras y entre figuras

Ejemplos

introduction to R, secc. 12.5.3 y 12.5.4.

También gráficos 3D: persp, image, contour; histogramas: hist; graficas

de barras: barplot; gráficos de comparación de cuantiles, usados para

comparar la distribución de dos variables, o la distribución de unos datos

frente a un estándar (ej., distribución normal): qqplot, qqnorm y, en

paquete car, qq.plot.

Notación matemática (plotmath) y expresiones de texto arbitrariamente

complejas.

Gráficos tridimensionales dinámicos con XGobi y GGobi. Ver:

http://cran.r-project.org/src/contrib/Descriptions/xgobi.html,

http://www.ggobi.org,

http://www.mcs.vuw.ac.nz/~ray/R-stuff/windows/gguide.pdf.

Guardar los gráficos

En Windows, podemos usar los menús y guardar con distintos formatos.

También podemos especificar donde queremos guardar el grafico.

> pdf(file = "f1.pdf", width = 8, height = 10)

Page 111: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

> plot(rnorm(10))

> dev.off()

O bien, podemos copiar una figura a un fichero.

> plot(runif(50))

> dev.copy2eps()

Page 112: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

2.1.1

ANÁLISIS ESTADÍSTICO DE DISTRIBUCIONES

UNIDIMENSIONALES

Para el análisis estadístico de una variable, es necesario

organizarlos y presentarlos en forma tal que, facilite su

compresión y su posterior utilización. Los datos son organizados

o agrupados en un cuadro numérico y presentados en gráficos

estadísticos.

Todo cuadro numérico básicamente debe contener:

- Un título adecuado para evitar confusiones y expresar su

contenido.

- El cuerpo o agrupación de datos.

- La fuete de los datos, si no son datos propios.

2.2 Definición de términos

- Población

Una población es el conjunto de todos los elementos a los que se

somete a un estudio estadístico.

Individuo

Un individuo o unidad estadística es cada uno de los elementos

que componen la población.

- Muestra

Page 113: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Una muestra es un conjunto representativo de la población de

referencia, el número de individuos de una muestra es menor que

el de la población.

- Muestreo

El muestreo es la reunión de datos que se desea estudiar,

obtenidos de una proporción reducida y representativa de la

población.

- Valor

Un valor es cada uno de los distintos resultados que se pueden

obtener en un estudio estadístico. Si lanzamos una moneda al

aire 5 veces obtenemos dos valores: cara y cruz.

- Dato

Un dato es cada uno de los valores que se ha obtenido al realizar

un estudio estadístico. Si lanzamos una moneda al aire 5 veces

obtenemos 5 datos: cara, cara, cruz, cara, cruz.

- Las variables cualitativas se refieren a características o

cualidades que no pueden ser medidas con números.

Podemos distinguir dos tipos:

- Variable cualitativa nominal

Una variable cualitativa nominal presenta modalidades no

numéricas que no admiten un criterio de orden. Por ejemplo:

El estado civil, con las siguientes modalidades: soltero, casado,

separado, divorciado y viudo.

Variable cualitativa ordinal o variable cuasi-cuantitativa

Page 114: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Una variable cualitativa ordinal presenta modalidades no

numéricas, en las que existe un orden. Por ejemplo:

La nota en un examen: suspenso, aprobado, notable, sobresaliente.

Puesto conseguido en una prueba deportiva: 1º, 2º, 3º, ...

Medallas de una prueba deportiva: oro, plata, bronce.

- Una variable cuantitativa es la que se expresa mediante

un número, por tanto se pueden realizar operaciones

aritméticas con ella. Podemos distinguir dos tipos:

- Variable discreta

Una variable discreta es aquella que toma valores aislados, es

decir no admite valores intermedios entre dos valores específicos.

Por ejemplo:

El número de hermanos de 5 amigos: 2, 1, 0, 1, 3.

- Variable continua

Una variable continua es aquella que puede tomar valores

comprendidos entre dos números. Por ejemplo:

La altura de los 5 amigos: 1.73, 1.82, 1.77, 1.69, 1.75.

En la práctica medimos la altura con dos decimales, pero también

se podría dar con tres decimales.

Page 115: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

EJERCICIOS

1 Al comenzar el curso se pasó una encuesta a los alumnos del

primer curso de un colegio, preguntándoles, entre otras cuestiones, por el

número de hermanos que tenían. Se obtuvieron los siguientes resultados:

3, 3, 2, 2, 8, 5, 2, 4, 3, 1, 4, 5, 3, 3, 3, 3, 3, 2, 5

1, 3, 3, 2, 2, 4, 3, 3, 2, 2, 4, 4, 3, 6, 3, 3, 2, 2, 4

3, 4, 3, 2, 2, 4, 4, 3, 3, 4, 2, 5, 4, 1, 2, 8, 2 ,3, 3, 4

a) Represente este conjunto de datos con un diagrama de barras.

b) Calcule media, moda y mediana.

c) Estudie la dispersi´on de los datos.

d) Analice la simetr´ıa de la distribucio´n.

2 Los pesos de un colectivo de nin˜os son:

60, 56, 54, 48, 99, 65, 58, 55, 74, 52, 53, 58, 67, 62, 65

76, 85, 92, 66, 62, 73, 66, 59, 57, 54, 53, 58, 57, 55, 60

65, 65, 74, 55, 73, 97, 82, 80, 64, 70, 101, 72, 96, 73, 55

59, 67, 49, 90, 58, 63, 96, 100, 70, 53, 67, 60, 54

Obtenga:

a) La distribución de frecuencias agrupando por intervalos.

Page 116: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

b) La mediana de la distribución.

c) La media de la distribución, indicando su nivel de

representatividad.

d) Utilizando la agrupación en intervalos, el porcentaje de alumnos

que tienen un peso menor de 65 kg y el número de alumnos con un peso

mayor de 60 kg dentro del grupo de los que pesan menos de 80 kg.

3 En el Consejo de Apuestas del Estado se han ido anotando, durante

una temporada, el número de premiados de quinielas según la cantidad de

aciertos. Los resultados se recogen en la siguiente tabla:

Calcule:

a) La mediana, la moda y los cuartiles de la distribución.

b) La simetría de la distribución.

4 En un puerto se controla diariamente la entrada de pesque- ros según su

tonelaje, resultando para un cierto día los siguientes datos:

Peso(Tm.) 0-25 25-50 50-70 70-100 100-500

No de barcos 5 17 30 25 3

Se pide:

Page 117: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

a) El peso medio de los barcos que entran en el puerto diariamente,

indicando la representatividad de dicha medida.

b) El intervalo donde se encuentra el 60 % central de la

Distribución.

c) El grado de apuntamiento.

d) El tonelaje más frecuente en este puerto.

Page 118: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

2.3 Construcción de cuadros

La distribución de frecuencias o tabla de frecuencias es

una ordenación en forma de tabla de los datos estadísticos,

asignando a cada dato su frecuencia correspondiente.

Tipos de frecuencias

Frecuencia absoluta

La frecuencia absoluta es el número de veces que aparece un

determinado valor en un estudio estadístico.

Se representa por fi.

La suma de las frecuencias absolutas es igual al número total de

datos, que se representa por N.

Para indicar resumidamente estas sumas se utiliza la letra

griega Σ (sigma mayúscula) que se lee suma o sumatoria.

Frecuencia relativa

La frecuencia relativa es el cociente entre la frecuencia

absoluta de un determinado valor y el número total de datos.

Se puede expresar en tantos por ciento y se representa por ni.

La suma de las frecuencias relativas es igual a 1.

Frecuencia acumulada

Page 119: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

La frecuencia acumulada es la suma de las frecuencias

absolutas de todos los valores inferiores o

iguales al valor considerado.

Se representa por Fi.

Frecuencia relativa acumulada

La frecuencia relativa acumulada es el cociente entre

la frecuencia acumulada de un determinado valor y el número

total de datos. Se puede expresar en tantos por ciento.

Durante el mes de julio, en una ciudad se han registrado las

siguientes temperaturas máximas:

32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30, 32, 31, 31, 30,

30, 29, 29, 30, 30, 31, 30, 31, 34, 33, 33, 29, 29.

En la primera columna de la tabla colocamos la variable ordenada

de menor a mayor, en la segunda hacemos el recuento y en la

tercera anotamos la frecuencia absoluta.

xi Recuento fi Fi ni Ni

27 I 1 1 3,2 3,2

28 II 2 3 6,5 9,7

Page 120: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

29

6 9 19,4 29,0

30 7 16 22,6 51,6

31 8 24 25,8 77,4

32 III 3 27 9,7 87,1

33 III 3 30 9,7 96,8

34 I 1 31 3,2 100

31 100

2.3.1 Distribución de frecuencia agrupadas

La distribución de frecuencias agrupadas o tabla con datos

agrupados se emplea si las variables toman un número grande

de valores o la variable es continua.

Se agrupan los valores en intervalos que tengan la misma

amplitud denominados clases. A cada clase se le asigna

su frecuencia correspondiente.

Límites de la clase

Cada clase está delimitada por el límite inferior de la clase y

el límite superior de la clase.

Amplitud de la clase

La amplitud de la clase es la diferencia entre el límite superior

e inferior de la clase.

Marca de clase

La marca de clase es el punto medio de cada intervalo y es

el valor que representa a todo el intervalo para el cálculo de

algunos parámetros.

Page 121: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

2.3.2 Construcción de na tabla de datos agrupados

3, 15, 24, 28, 33, 35, 38, 42, 43, 38, 36, 34, 29, 25, 17, 7, 34, 36,

39, 44, 31, 26, 20, 11, 13, 22, 27, 47, 39, 37, 34, 32, 35, 28, 38,

41, 48, 15, 32, 13.

1º Se localizan los valores menor y mayor de la distribución. En

este caso son 3 y 48.

2º Se restan y se busca un número entero un poco mayor que la

diferencia y que sea divisible por el número de intervalos

queramos establecer.

Es conveniente que el número de intervalos oscile entre 6 y 15.

En este caso, 48 - 3 = 45, incrementamos el número hasta 50 : 5 =

10 intervalos.

Se forman los intervalos teniendo presente que el límite inferior

de una clase pertenece al intervalo, pero el límite superior no

pertenece intervalo, se cuenta en el siguiente intervalo.

intervalo

ci fi Fi ni Ni

[0, 5) 2.5 1 1 0.025 0.025

[5, 10) 7.5 1 2 0.025 0.05

[10, 15) 12.5 3 5 0.075 0.125

[15, 20) 17.5 3 8 0.075 0.2

[20, 25) 22.5 3 11 0.075 0.2775

[25, 30) 27.5 6 17 0.15 0.425

Page 122: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

[30, 35) 32.5 7 24 0.175 0.6

[35, 40) 37.5 10 34 0.25 0.85

[40, 45) 42.5 4 38 0.1 0.95

[45, 50) 47.5 2 40 0.05 1

40 1

2.4 Ejercicios

Ejercicio nº 1.- Al preguntar a 20 individuos por el número de

personas que viven en su casa, hemos obtenido las siguientes

respuestas: 35 4 2 3 3 5 4 4 2 45 3 4 4 1 4 4 3 5 32 3 2 3 3 4 2 3 4

21 3 3 4 3 2 1 2 2 62 3 5 3 6 2 0 1 6 43 2 3 7 3 1 2 3 3 11 4 4 5 3

2 4 5 1 12 6 3 5 6 3 5 3 2 30 25 5 10 20

a) Elabora una tabla de frecuencias.

b) b) Representa gráficamente la distribución.

Ejercicio nº 2.- En una empresa de telefonía están interesados en

saber cuál es el número de aparatos telefónicos (incluidos

teléfonos móviles) que se tiene en las viviendas. Se hace una

encuesta y, hasta ahora, han recibido las siguientes respuestas:

a) Elabora una tabla de frecuencias.

b) b) Representa gráficamente la distribución.

Ejercicio nº 3.- Hemos preguntado a 20 personas por el número

medio de días que practican deporte a la semana y hemos obtenido

las siguientes respuestas:

Page 123: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

a) Haz una tabla de frecuencias.

b) Representa gráficamente la distribución.

Ejercicio nº 4.- Hemos lanzado un dado 20 veces y hemos ido

anotando los resultados que obteníamos:

a) Ordena estos datos en una tabla de frecuencias.

b) Representa gráficamente la distribución.

Ejercicio nº 5.- En una clase se ha realizado un examen tipo test

de 40 preguntas. El número de respuestas correctas conseguidas

por cada uno de los alumnos de esa clase ha sido:

305 40 10 20 20 15 10 20 40 40 30 10 30 25 30 25 5 10 20

a) Resume estos datos mediante una tabla de frecuencias. b)

Representa gráficamente esta distribución.

Ejercicio nº 6.- De un grupo de 30 personas hemos ido apuntando

la edad de cada uno, obteniendo lo siguiente:

a) Haz una tabla de frecuencias, agrupando los datos en los

intervalos: 0 - 4, 5 - 9, 10 - 14, 15 - 19, 20 - 24, 25 - 29, 30 - 34,

35 - 39, 40 - 44 b) Representa gráficamente la distribución.

40 25 27 19 20 41 32 37 9 4 43 35 23 25 18 18 15 28 28 36 812

15 17 28 7 5 30 25 3

Page 124: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

34 29 33 31 32 37 32 37 34 35 40 25 32 32 34 29 28 30 34 35 33

30 36 35 33 33 25 27 32 30

10 3 2 10 16 9 3 5 8 10 12 10 7 1 5 16 10 5 8 10 4 3 2 20 15 10 12

16 10 15

10 9 8 8,5 9 12 13 9,5 10 8 8,3 8,1 9,2 9,4 10 10,1 9,2 8,1 8,2 8,1

8 8,3 9,3 14 14,5 10 9 8,5 12 8,1

Ejercicio nº 7.- En un reconocimiento médico que se ha realizado

en un grupo de 30 niños, uno de los datos que se han tomado ha

sido el peso, en kilogramos, de cada uno, obteniendo los

siguientes resultados:

Haz una tabla de frecuencias, agrupando los datos en intervalos de

longitud 3, empezando en 24,5. b) Representa gráficamente la

distribución.

Ejercicio nº 8.- En una clase del instituto se ha preguntado a los

alumnos por el número de horas que dedican a la semana a

estudiar. Las respuestas han sido las siguientes:

Ordena los datos en una tabla de frecuencias, agrupándolos en los

intervalos: 0 - 2, 3 - 5, 6 - 8, 9 - 11, 12 - 14, 15 - 17, 18 - 20 b)

Representa gráficamente la distribución.

Ejercicio nº 9.- En unas pruebas de velocidad se ha cronometrado

el tiempo que tardaba cada participante en recorrer cierta distancia

fija. Los tiempos obtenidos, en segundos, han sido los siguientes:

Page 125: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

a) Elabora una tabla de frecuencias, agrupando los datos en

intervalos de longitud 1, empezando en 7,9.

b) Representa gráficamente la distribución.

Ejercicio nº 10.- Hemos medido la estatura, en centímetros, de 30

personas, obteniendo los siguientes resultados:

a) Elabora una tabla de frecuencias, agrupando los datos en

intervalos de longitud 5, empezando en 146,5.

b) Representa gráficamente la distribución.

Ingreso de datos desde una web.

> datos<-

read.table("http://math.uprm.edu/~edgar/clase97.dat",header=T)

> attach(datos)

> mytable<-table(familia)

> mytable

familia

1 2 3 4 5 6

1 3 9 6 8 1

> (mytable)/margin.table(mytable)

familia

1 2 3 4 5

6

0.03571429 0.10714286 0.32142857 0.21428571 0.28571429

0.03571429

> cumsum(mytable)

Page 126: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

1 2 3 4 5 6

1 4 13 19 27 28

> cumsum(mytable)/margin.table(mytable)

1 2 3 4 5 6

0.03571429 0.14285714 0.46428571 0.67857143 0.96428571

1.00000000

Explicación de los comandos.

> datos<-

read.table("http://math.uprm.edu/~edgar/clase97.dat",header=T)

Lee el archivo en formato de tabla y genera un conjunto de datos

de él. El subcomando header=T nos provee el nombre de cada

columna.

> attach(datos)

La base de datos es adherida a la direccion donde R busca cuando

va a evaluar una

variable.

> mytable<-table(familia)

Crea una tabla de la variable familia. Nos provee la frecuencia

absoluta. Por ejemplo el tamaño familiar que más predomina es 3.

> (mytable)/margin.table(mytable)

Representa la frecuencia relativa porcentual. Por ejemplo, sólo

3.57 por ciento de las familias de los estudiantes entrevistados son

de tamaño 6.

Page 127: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

> cumsum(mytable)

Representa la frecuencia absoluta acumulada.. Por ejemplo 27 de

los 28 entrevistados tienen una familia de tamaño menor o igual

que 5.

> cumsum(mytable)/margin.table(mytable)

Representa la frecuencia relativa porcentual acumulada. Por

ejemplo, el 94.93% de las familias son de tamaño menor o igual

que 5.

Page 128: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

CAPÍTULO III

MEDIDAS DE TENDENCIA CENTRAL

3.1 Introducción

Los datos, al igual que los estudiantes se congregan alrededor de

sus puntos de encuentro favoritos. Parece que los estudiantes acuden

en masa a sitios como partidos de futbol, fraternidades, bares populares

y otros sitios de reunión. De igual forma, los números parecen disfrutar

de la compañía de otros números y están propensos a reunirse

alrededor de un punto central denominado, Medida de la tendencia

central o más comúnmente, media. Una medida de tendencia central

ubica e identifica el punto alrededor del cual se centran los datos.

Por ejemplo si un profesor dice que el promedio de la clase en el

último examen de estadística fue de 95, esto indica algo, por el

contrario si dice que el promedio fue 35 esto indica algo totalmente

diferente.

Existen además las medidas de dispersión estas indican el punto hasta

el cual las observaciones individuales se esparcen alrededor de un

punto central, miden la dispersión o variabilidad de los datos y

reflejan la tendencia de las observaciones individuales a desviarse de

dicho punto central.

3.2 Media o Promedio aritmético ( x )

Es el cociente entre la suma de todos los datos y el número de ellos

(teniendo en cuenta que si un valor se repite hay que considerar estas

repeticiones).

Datos sin agrupar Datos agrupados

Page 129: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Propiedades

Es la medida de tendencia central más confiable y más usada

dentro de estas.

Es la medida básica para desarrollar el criterio de lo mínimos

cuadrados.

Las desviaciones que se tomen con relación a ella son iguales

a cero.

Es afectada por los valores extremos, es decir, si se tiene la

serie x = 1, 2, 300, este último valor afecta el resultado real

de esta medida.

La media aritmética es un valor típico, es el centro de

gravedad de una serie de valores.

Los valores de la serie se pueden sustituir por el valor de la

media aritmética, sin que esta se altere.

3.3 Mediana

Es el valor que separa por la mitad las observaciones ordenadas de

menor a mayor, de tal forma que el 50% de estas son menores que la

mediana y el otro 50% son mayores. Si el número de datos es impar

la mediana será el valor central, si es par tomaremos como mediana la

media aritmética de los dos valores centrales.

Datos sin agrupar

n

Xf

x

m

i

ii 1

'

n

x

x

n

i

i 1

Page 130: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Datos agrupados

ii Fn

F 2

1

i

i

iief

Fn

wLM1

2

Dónde:

iL : Límite inferior del intervalo i.

iw : Ancho de clase del intervalo i.

3.4 Moda (Mo):

Es el valor de la variable que más veces se repite. En algunos casos

existen varias modas.

Datos sin agrupar

La moda es el valor de la variable correspondiente a la mayor

frecuencia absoluta.

Datos agrupados

)()( 11

1

iiii

ii

iioffff

ffwLM

Dónde: if = Frecuencia absoluta más alta.

imparesnsix

paresnsi

xx

M

n

nn

e

,

,2

2

1

122

Page 131: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

3.5. Otras medidas de tendencia central

Existen otras dediciones de media que pueden tener su utilidad en

algún caso. La primera de estas es la media geométrica 𝑿𝑮 . En el

caso de una muestra con valores diferentes de la variable se define

como la raíz enésima (“n” es el tamaño de muestra) del producto de

los valores de la variable.

Media geométrica

𝑋𝐺̅̅̅̅ = √𝒙𝟏 𝒙𝟐 … 𝒙𝒏

𝒏

Media armónica

𝑿𝑨̅̅ ̅̅ =

𝒏

∑ 𝟏

𝒙𝟏

𝒏𝒊=𝟏

Media Cuadrática

𝑿𝑸̅̅ ̅̅ = √

∑ 𝒏𝒊=𝟏 𝒙𝒊

𝟐

𝑛

Media Ponderada

𝑿𝑨̅̅ ̅̅ =

∑ 𝒏𝒊=𝟏 𝒙𝒊 𝒘𝒊

∑ 𝒘𝒊 𝒏𝒊=𝟏

Donde 𝑥𝑖 = valor de la i-ésima observación y 𝑤𝑖 = ponderación o peso de

la i-ésima observación

Page 132: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

3.6. Ejercicios

En la unidad del área de producción de la empresa Corporación

N, requiere conocer el comportamiento de una máquina

automática, que deposita un líquido en vasos, lo cual se seleccionó

una muestra de 49 de ellas. Al medir el contenido, en onzas, se

obtuvo los siguientes resultados.

7.85 7.86 7.87 7.87 7.88 7.89 7.92 7.94 7.95 7.96 7.97 7.97

7.98

7.99 7.99 8.01 8.03 8.03 8.04 8.05 8.05 8.05 8.05 8.05 8.06

8.06

8.06 8.07 8.07 8.07 8.08 8.09 8.09 8.09 8.10 8.10 8.10 8.11

8.11

8.12 8.16 8.16 8.17 8.19 8.21 8.21 8.22 8.24 8.26

Calcular Media, Mediana, Moda

Solución:

En File debemos marcar la opción New Scrip y guardar con algún

nombre, por ejemplo, vasos R.

Page 133: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

- Enseguida aparecerá la siguiente ventana.

- Hacer click en la imagen guardar y editar “ vasos”.

Page 134: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

- Luego le mostrará la ventana donde se programa el script para el

respectivo calculo.

- Ingresamos los datos creando un vector con nombre “vasos” (por

ejemplo) usando la función c(), todo esto será ingresado en el

console

Page 135: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

>vasos<-

c(7.85,7.86,7.87,7.87,7.88,7.89,7.92,7.94,7.95,7.96,7.97,7.97,7.98,

7.99,7.99,8.01,8.03,8.03,8.04,8.05,8.05,8.05,8.05,8.05,8.06,8.06,8.06

,8.07,8.07,8.07,8.08,8.09,8.09,8.09,8.10,8.10,8.10,8.11,8.11,8.12,8.1

6,8.16,8.17,8.19,8.21,8.21,8.22,8.24,8.26)

- Hacer click en el símbolo señalado para ejecutar o control +

enter

Page 136: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

# Podemos verificar que la cantidad de datos que hemos ingresado es

la correcta, para ello, basta con usar la función “length”con el

nombre del archivo entre paréntesis: (oprima enter)

> length (vasos)

[1] 49

Page 137: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

#Con la función “max” se puede observar el valor máximo de todos

los datos ingresados.

> max(vasos)

[1] 8.26

#Con la función “min” se puede observar el valor mínimo de todos

los datos ingresados(oprima enter).

> min(vasos)

[1] 7.85

Para poder describir mejor un conjunto de datos necesitamos una

Page 138: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

medida de dispersión además de una del valor central, la más simple

es el rango, el cual muestra los valores mínimo y máximo del

conjunto de datos, en R

> range (vasos)

# Con la función “mean” se calcula la media aritmética (oprima

enter).

> mean (vasos)

[1] 8.05

# Esto significa que el 50% de los vasos tiene un volumen

depositado a lo más de 8,06 onzas (o a lo menos de 8,06 onzas).

Page 139: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

# Con la función “median” se calcula la mediana(oprima enter).

> median(vasos)

[1] 8.06

# Con la función “sort” se calcula la moda de forma análisis de

frecuencias (oprima enter).

> sort(vasos)

[1] 8.05

Page 140: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

# Con la función “sort” se calcula la media geométrica (oprima

enter).

> exp(mean(log(abs(vasos))))

[1] 8.049346

# Con la función “order” podrá ordenar datos de forma creciente

entre intervalos .

> vasos[order(vasos)]

Page 141: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

# Con la función “hist” graficará el histograma

> hist(vasos)

Más sobre histogramas: también puede presentar los resultados en forma

más agradable, ingrese :

> hist(vasos, col = "blue", border = 3, main = "Histograma de

producción", xlab = "Peso de líquido(onzas)" , ylab = "frecuencia")

# Con la función “summary” observará el resumen de datos (oprima

enter).

>summary(vasos)

Page 142: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

# Con la función “plot” observará el gráfico de puntos

> plot(vasos, , col = "red", border = 3, main = "Diagrama de

dispersión", xlab = "Peso del líquido(onzas)" , ylab = "frecuencia")

# Con la función “boxplot” observará el gráfico de puntos

>boxplot(vasos, col = "red", border = 3, main = "Diagrama de cajas",

xlab = "Peso del líquido(onzas)" , ylab = "frecuencia")

Page 143: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

# Con la función “lines” observará el gráfico de puntos

y<-hist(vasos, breaks=c(7, 7.5, 8, 8.5,9), col = "blue", border = 2, ,

main = "Histograma de datos acumulados", xlab = "Líquido en

vasos(onzas)" , ylab = "frecuencia")

lines(c(min(y$breaks),y$mids,max(y$breaks)),c(0,y$counts,0),type=

"l", col = "green")

Ejemplo 3.6.2: La cantidad de zinc (en mg/l) en 16 muestras de

alimentos infantiles vienes dada por:

3.0 5.8 5.6 4.8 5.1 3.6 5.5 4.7 5.7 5.0 5.9 5.7 4.4 5.4 4.2 5.3

Calcule la Media, mediana, moda, 𝑿𝑮

Solución:

- Crear el console con el nombre “cantidad” para realizar los

respectivos cálculos (oprima enter).

> cantidad<-

c(3.0,5.8,5.6,4.8,5.1,3.6,5.5,4.7,5.7,5.0,5.9,5.7,4.4,5.4,4.2,5.3)

Page 144: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

# Con la función “mean” se calcula la media aritmética.

> mean (cantidad)

[1] 4.98125

# Con la función “median” se calcula la mediana.

> median(cantidad)

[1] 5.2

Page 145: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

# Con la función “sort” se calcula la moda de forma análisis de

frecuencias

> sort(cantidad)

[1] 5.7

# Con la función “sort” se calcula la media geométrica

> exp(mean(log(abs(cantidad))))

[1] 4.905728

Page 146: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

# Con la función “order” podrá ordenar datos de forma creciente

entre intervalos

> cantidad [order(cantidad)]

# Con la función “hist” graficará el histograma

> hist(cantidad)

Page 147: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Más sobre histogramas: también puede presentar los resultados en forma

más agradable, ingrese :

> hist(cantidad, col = "orange", border = 10, main = "Histograma de

cantidad de zinc ", xlab = "cantidad(en mg/l)" , ylab = "frecuencia")

# Con la función “plot” observará el gráfico de puntos

> plot(cantidad, , col = "blue", border = 6, main = "Diagrama de

dispersión", xlab = "Cantidad(en mg/l)" , ylab = "frecuencia")

Page 148: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

# Con la función “boxplot” observará el gráfico de puntos

> boxplot(cantidad, col = "red", border = 5, main = "Diagrama de

cajas", xlab = "Cantidad(en mg/l)" , ylab = "frecuencia")

# Con la función “lines” observará el gráfico de puntos

y<-hist(vasos, breaks=c(7, 7.5, 8, 8.5,9), col = "blue", border = 2, ,

main = "Histograma de datos acumulados", xlab = "Líquido en

vasos(onzas)" , ylab = "frecuencia")

Page 149: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

lines(c(min(y$breaks),y$mids,max(y$breaks)),c(0,y$counts,0),type=

"l", col = "green")

# Con la función “boxplot” graficará el diagrama de cajas para

mostrar la distribución

> boxplot(cantidad)

# Con la función “summary” observará el resumen de datos

>summary (cantidad)

Page 150: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

# Con la función “plot” observará el gráfico de puntos

>plot(cantidad)

Page 151: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Se ha observado la variable X= “Saldo ($)” de 400 cuentas

corrientes en una entidad bancaria correspondientes a clientes con

edades comprendidas entre 18 y 25 años. La distribución de

frecuencias de esta variable es la siguiente:

Saldo ($) N° de cuentas

50 - 70 72

70 - 90 16

90 - 110 96

110 - 130 104

130 - 150 56

150 - 170 16

170 - 190 40

Total 400

1. Calcule las medidas de posición central e indique la más adecuada.

2. Indique cuál es el saldo mínimo de una cuenta para estar entre el

25% de las de mayor saldo.

3. Indique cuál es el saldo máximo de una cuenta para estar entre el

15% de las de menor saldo.

4. Indique cuál es el saldo mínimo de una cuenta para estar entre el

40% de las de mayor saldo.

3.7. Ejercicios propuestos

1. La empresa NET, realizó ventas en de computadores durante 15

días. 25, 32, 20, 21, 29, 26, 30, 25, 19, 22, 17, 28, 30, 21, 40.

Lo cual desea realizar el cálculo del comportamiento de sus

frecuencias con las que se puede vender por día o semanalmente.

Page 152: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

2. El jefe de recursos humanos de la empresa NORSA, está

interesado en determinar el número medio de cigarrillo que

consumen los trabajadores en un día. Para ello pregunto a 16

empleados por la cantidad de cigarrillos que fumaron ese día, los

resultados fueron:

3 1 4 7 6 7 0 4 6 2 3 1 0 2 2 0

Calcular el número promedio de cigarrillos que consume un

trabajador.

3. Un biólogo desea probar que el diámetro del tronco de un árbol

influye en la producción de oxígeno para ello hace la medición del

diámetro de 7 árboles en centímetros: 110, 79, 128, 161, 158, 175,

50.

- Calcular la mediana de los diámetros de tronco.

4. En un simulacro se midió el tiempo de reacción de seis patrullas

de policías luego de recibir una llamada de emergencia. Los

resultados en minutos fueron: 6,0 5,99 5,41 5,44 5,21 5,48

- Calcular la mediana de los tiempos de reacción. • Solución:

Ordenamos los datos de menor a mayor.

5. El entrenador del Club HEROS de futbol pregunto a los jugadores

sobre el tiempo en horas que dedican al entrenamiento por semana.

Los resultados fueron: 5, 5, 6, 8, 7, 7, 9, 5, 6, 8, 4, 11, 6, 10, 8 - Los

dirigentes desean saber el promedio medio de los jugares según

horas de entrenamiento.

Page 153: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

6. Se muestran las edades de 20 pacientes del pabellón de adultos

del Hospital General 55, 78, 50, 41, 55, 35, 41, 42, 51, 54, 41, 54,

72, 76, 75, 47, 62, 59, 75, 46

- Caracterizar la variable utilizando la media, mediana y moda.

7. El tratamiento de los niños con desórdenes de la conducta puede

ser complejo. El tratamiento se puede proveer en una variedad de

escenarios dependiendo de la severidad de los comportamientos.

Además del reto que ofrece el tratamiento, se encuentran la falta de

cooperación del niño/niña y el miedo y la falta de confianza de los

adultos. Para poder diseñar un plan integral de tratamiento, el

siquiatra de niños y adolescentes puede utilizar la información del

niño, la familia, los profesores y de otros especialistas médicos para

entender las causas del desorden. Para ello, un siquiatra local ha

considerado una muestra aleatoria de 20 niños, anotando el tiempo

necesario que requiere en cada niño para lograr un plan integral del

tratamiento, obteniéndose lo siguiente (en horas):

6 7 7 8 8 8 8 9 9

9

9 9 9 9 10 10 10 10 10

11

- Calcule las medidas de tendencia central y de dispersión de

estos datos, indicando a qué tipo de medida pertenece.

Page 154: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

8. Egreso de Alumnos al Sistema Privado de Educación Superior

No Universitaria en Uruguay según Centro de Estudio por Año.

Período 1997 - 2001.

- Teniendo en cuenta el año 2000 del cuadro anterior, sabiendo

que egresaron 296 alumnos, se presenta a continuación la

cantidad de horas de estudio semanales de los mismos para ese

año.

- Calcule la Media, la Mediana y la Moda.

Centro de

Estudio 1997 1998 1999 2000 2001

UCUDAL 28 10 1 13 12

ORT 24 247 254 237 261

CIEP 0 0 0 46 42

TOTAL 52 257 255 296 315

Horas de

estudio

Número de

egresos

2 -4

4 -6

6 -8

8-12

TOTAL

45

95

120 36

296

Page 155: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

9. Los países que se mencionan a continuación pertenecen a las diez

principales economías del Mundo:

Orden Países Población

(millones.)

3 Alemania 82

8 Brasil 166

9 Canadá 31

7 China 960

10 España 39

1 Estados Unidos 270

4 Francia 59

6 Italia 58

2 Japón 126

5 Reino Unido 59

a). Ordene los países de menor a mayor cantidad de población.

b). Calcule el porcentaje de población para cada uno de los países.

c). Determine cuál es la población promedio para Los mismos.

d). Determine cuál es el país hasta donde se ubica el 25 % menos

de población y el país a partir del cual está el 25 % de mayor

cantidad de población.

e).Cuál es el país más poblado?

10. Los Sabiendo que el consumo de combustible, fue estudiado

para cada una de las empresas líderes en la confección de calzado

de los países del MERCOSUR, realice el análisis respectivo para las

medidas que se presentan a continuación, estableciendo cuál de las

Page 156: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

3 empresas es la más homogénea y cuál de las tres es la que gasta

más combustible.

Media Mediana Moda

Empresa A 1025,8 lts. 898,3 lts. 827,8

Empresa B 758,29 lts. 645,8 lts. 545 lts.

Empresa C 9.427,01 lts. 7.305 lts. 7.800 lts.

11. Estimación de algunas medidas descriptivas del ingreso del

hogar para el total del país en pesos uruguayos. Período 2006.

TRIMESTRE CALENDARIO

2006

Promedio

del Hogar Mediana

Enero/06 - Marzo/06 15.871 11.634

Abril/06 - Junio/06 17.049 12.417

Julio/06 - Setiembre/06 16.874 12.500

Octubre/06 - Diciembre/06 18.559 a.503

A partir de los indicadores presentados en el Cuadro anterior del

Ingreso de los Hogares para el total del país para el periodo 2006.

Realice un análisis descriptivo para cada uno de los trimestres

comentando lo ocurrido.

12. Se realizó una encuesta a 30 familias de una cierta población

sobre la duración de las ampolletas; la información que se obtuvo

fue la siguiente:7 familias dijeron que les duraban entre 20 y 26

días8 dijeron entre 27 y 33 días5 dijeron entre 34 y 40 días2 dijeron

Page 157: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

entre 48 y 54 días3 dijeron entre 55 y 61 días, y una familia dijo que

le duro más de 62 días.

a). ¿Cuánto duran en promedio las ampolletas? Interprete ese

resultado

b). ¿cuál es la duración de las ampolletas que más mencionan las

familias?

13. En una importante empresa láctea hay 600 empleados que

cobran $300.000, 500 que cobran $400.000,100 que cobran

$600.000 y 5 socios que perciben $3.000.000 cada uno.

¿Cuál es el ingreso promedio de los empleados? ¿Puedes calcular

la mediana de los ingresos? ¿Cuál es el ingreso que más recibido por

los empleados? Discuta con sus compañeros, cual medida de

tendencia central estima mejor el sueldo de los empleados de la

empresa.

14. De las devoluciones mensuales que se realizan a cierto almacén

el 10% tienen un importe de $360 a lo sumo. El 40% son de un

importe inferior o igual a 660e. En la mitad de ellas no se superan

las 1385 mientras que el 30% están entre 1385 y $2410.

a) Si se sabe que en dicho almacén el importe máximo de las

devoluciones es de $3000, calcula e interpreta el importe medio de

las devoluciones.

Page 158: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

b) ¿Podrías calcular el importe medio si no se supiera cual es el

importe máximo de las devoluciones?

15. Un grupo de Economistas, realizó un diagnóstico sobre los

trabajadores de la empresa de lácteos que más exporta a la región,

durante el año 2006. Los valores registrados por las variables para

cada mes, del año 2006 fueron para la Cantidad de Horas trabajadas

por día (X1); Cantidad de Trabajadores (X2); Litros de lácteos

producidos por trabajador (X3), Nivel de rendimiento de los

trabajadores (X4) y Modo de traslado utilizada para llegar a la

empresa (x5 donde 1= Auto; 2= Moto; 3= Ómnibus, 4=

Caminando).

Período X1 X2 X3 X4 X5 1. Identifique la Población Objeto de

Estudio.

Enero 4 30 2 Alto 1 2. Identifique la Unidad de Análisis.

Febrero 5 12 8 Medio 1 3. Cuál es la escala de medición, de

cada una de las variables que

aparecen en la Base de Datos.

Marzo 1 34 12 Bajo 3

Abril 2 12 2 Bajo 1

Mayo 1 8 20 Medio 2 4. ¿Cuál es la cantidad de horas

promedio Por día de los trabajadores

lácteos? Junio 4 20 8 Medio 4

Julio 2 42 2 Alto 2 5. ¿Cuál es el porcentaje de variación

de los Litros de lácteos? Agosto 3 24 4 Bajo 3

Setiemb

re 4 14 20 Bajo 1

6. El personal de la empresa se

traslada

Octubre 3 8 24 Medio 1 Mayoritariamente……………..……

Page 159: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Noviem

bre 4 55 4 Alto 2

7. ¿Qué gráficos podría realizar para

describir la Variable X4? Diciemb

re 3 7 24 Bajo 4

A partir de los datos proporcionados por la Matriz de datos que se

expresa a continuación sobre algunos ingresos del año 2007 a la

Carrera de Relaciones Internacionales. Realice los puntos que se le

solicitan:

a). Identifique si está trabajando sobre una Población o sobre una

Muestra. Justifique su Respuesta.

b). Identifique las variables que se registran y determine cuál es

la escala de Medición para Cada una de ellas.

16. El entrenador de un equipo de natación debe elegir a uno de

sus integrantes para la próxima competencia de estilo libre. Según

los tiempos en segundos que obtuvieron los postulantes de las

cinco últimas carreras de 100 m de estilo libre, ¿qué nadador le

conviene elegir?

Diego 61,7 61,7 62,3 62,9 63,1

Tomás 61,5 62,9 62,9 63,7 63,7

Sergio 60,7 62,4 62,7 62,7 63,2

17. Sean las siguientes muestras de las estaturas de 5 personas de

diferentes etnias:

Etnia A) 170, 160, 155, 175, 145, 185

Page 160: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Etnia B) 160, 170, 165, 170, 160, 165

a) ¿Cuál es el promedio de estatura de cada etnia?. ¿Cuál de ellas

tiene mayor relevancia?

18. La demanda de cierto artículo en 48 días fue : 1, 4, 1, 0, 2, 1, 1,

3, 2, 1, 1, 0, 3, 2, 4, 3, 4, 1, 2, 1, 1, 2, 2, 2, 1, 3, 3, 3, 1, 4, 4, 0, 2, 1,

4, 0, 3, 1, 3, 3, 4, 2, 2, 1, 0, 1, 2, 4, mientras que en otros 48 días

hubo una demanda de 1 artículo en 13 de ellos, de 2 artículos en

12, de 3 en 10, de 4 en 9 y el resto de los días no hubo demanda.

¿Podrías decir en qué conjunto de días hubo mayor demanda

diaria?

19. Un estudiante ha realizado 1 examen que constaba de 3 partes:

una teórica, otra de problemas y otra de prácticas de informática.

El profesor le da el doble de importancia a los problemas que a la

teoría y el triple a las prácticas. Si ha obtenido una calificacion de

5,8 sobre 10 en teoría, 6,4 sobre 10 en problemas y 7,9 sobre 10 en

prácticas, ¿cuál crees que sería su calificacion final en el examen?

20. En un supermercado incrementaron el precio de uno de sus

productos un 10% en el mes de julio y en septiembre lo han vuelto

a incrementar en un 30%, ¿cuál ha sido el incremento total?, ¿y el

incremento medio?

21. Se ha hecho un estudio de los precios de venta del agua y de la

leche en cierto hipermercado. Respecto al agua, se verifico que 3

marcas cuestan 0,27e, 2 cuestan 0,21e, 1 cuesta 0,24e, y otra más

cuesta 0,3e. En cuanto a la leche, se constató que 4 de las marcas

costaban 0,79e, 3 costaban 0,61e, 2 costaban 0,69e, otras 2

Page 161: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

costaban 0,82e y una costaba 0,73e. Calcula e interpreta el valor de

la mediana del precio del agua y del precio de la leche.

22. Un comercial dedica al 15% de sus clientes menos de 10

minutos, al 38% entre 10 y 30 minutos y al resto entre 30 y 60

minutos. Calcula e interpreta la mediana del tiempo de atención

por cliente.

23. En una encuesta se les pregunto a 16 personas si su hogar era

de alquiler o en propiedad. Las contestaciones fueron: alquiler,

alquiler, propiedad, alquiler, no sabe/no contesta, alquiler,

propiedad, alquiler, propiedad, propiedad, alquiler, alquiler, no

sabe/no contesta, alquiler, propiedad, y alquiler. ¿Qué valor

representa el centro de esa distribución?

24. El número de días necesarios por 10 equipos de trabajadores

para terminar 10 instalaciones de iguales características han sido:

21, 32, 15, 59, 60, 61, 64, 60, 71, y 80 días. Calcular la media,

mediana, moda.

25. El precio de un interruptor magentotérmico en 10 comercios de

electricidad de una ciudad son: 25, 25, 26, 24, 30, 25, 29, 28, 26, y

27 Euros. - Hallar la media, moda, mediana.

26. El número de días necesarios por 10 equipos de trabajadores

para terminar 10 instalaciones de iguales características han sido:

21, 32, 15, 59, 60, 61, 64, 60, 71, y 80 días. Calcular la media,

mediana, moda.

Page 162: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

27. Se pidió a un grupo de 18 sujetos (Grupo 1) que en 2 minutos

armaran la mayor cantidad de palabras posibles a partir de un

conjunto desordenado de letras. Se usó la cantidad de palabras

correctas armadas como indicador de la habilidad de cada sujeto.

Los resultados fueron:

6 2 4 4 7 3 6 7 7 5 6 5 6 5 6 1 7 3

Otro grupo de 18 sujetos (Grupo 2) realizó la misma tarea. Los

resultados fueron:

3 9 7 4 5 6 3 4 5 6 7 4 4 4 3 8 3 5

a) Para cada grupo:

- Construya la tabla de frecuencias. ¿Cuántos sujetos superan 6

palabras? ¿Cuántos no superan 4 palabras?

- Halle la moda, la mediana y la media.

28. Los niños, a diferencia de los adultos, tienden a recordar las

películas, cuentos e historias como una sucesión de acciones más

que el argumento en forma global y de conjunto. En el relato de

una película, por ejemplo, utilizan con frecuencia las palabras "y

entonces...". Una psicóloga con suprema paciencia pidió a 50 niños

que le contaran una determinada película que ellos habían visto.

Consideró la variable: cantidad de "y entonces..." utilizados en el

relato y registró los siguientes datos:

Page 163: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

15 22 19 15 17 18 20 17 12

16 16 17 21 23 18 20 21 20 20

15 18 17 19 20 23 22 10 17 19

19 21 20 18 18 24 11 19 31 16

17 18 19 20 18 18 40 18 19 16

Como parte del mismo estudio la experimentadora obtuvo de 50

adultos el mismo tipo de datos. Ellos fueron:

12 5 8 13 10 12 8 7 9 10

9 9 11 15 12 17 14 10 8 15

16 10 14 7 16 9 1 4 11 12 7

9 10 3 11 14 8 12 5 10 9

7 11 14 10 15 9

Para ambas variables:

- Construya la tabla de frecuencias.

- Calcule la media, la mediana y la moda.

- Grafique ambas distribuciones de manera que puedan ser

comparadas.

29. Un docente de Estadística tiene a su cargo las comisiones de

Trabajos Prácticos 1 y 2. El promedio de notas del primer parcial

en la comisión 1 fue de 6 puntos mientras que en la 2 el promedio

fue de 7 puntos. El docente está interesado en conocer cuál es el

promedio de notas de sus dos comisiones en conjunto. ¿Cuál es

este promedio si la comisión 1 tiene 20 alumnos y la comisión 2

tiene 30? Elija una de estas opciones:

Page 164: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

a) 6,20 b) 6,25 c) 6,50 d) 6,60

30 El sentido del humor de un grupo de jóvenes de la ciudad de

Córdoba fue medido mediante la Escala sobre el Sentido del

Humor. Se organizaron los datos del estilo del humor

Mejoramiento Personal en una tabla que contiene las frecuencias

correspondientes a los intervalos de clase indicados.

a) Considerando que no se tienen disponibles los datos

originales, y que sólo se cuenta con la información de la tabla,

calcule la media y la desviación estándar del sentido del

humor Mejoramiento Personal de los jóvenes de la ciudad de

Córdoba que participaron de la experiencia. ¿Qué puede decir

sobre la exactitud de los resúmenes obtenidos? b) ¿Cuál es el

intervalo modal? ¿En qué intervalo se encuentra la mediana?

.

Intervalos de clase Frecuencia

13,5 - 19,5 4

19,5 - 25,5 59

25,5 - 31,5 136

31,5 - 37,5 132

37,5 - 43,5 56

43,5 - 49,5 7

Page 165: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

3.7 MEDIDAS DE POSICIÓN

8.1 Introducción

Son particiones de la distribución de frecuencias en un determinado

número departes iguales.

Entre los cantiles más conocidos se tiene: mediana (dos partes

iguales), cuartiles (cuatro partes iguales), quintiles (cinco partes

iguales), deciles (diez partes iguales), ventiles (veinte partes iguales)

y percentiles (cien partes iguales).

Desarrollaremos los de mayor uso viendo su forma de cálculo e

interpretación. Se calculan de modo similar a la mediana.

4.2 Cuartiles(𝑸𝒌)

Son particiones de la distribución de frecuencias en cuatro partes

iguales de modo que cada una de ellas acumula un cuarto de las

observaciones (25% de los datos).

Page 166: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Para dividir la distribución de frecuencias en cuatro partes iguales

necesitamos 3 puntos, por ello los cuartiles son tres y se denotan de la

siguiente manera :

Cuartil 1= (𝑸𝟏) acumula la cuarta parte de las observaciones (25%)

Cuartil 2= (𝑸𝟐) acumula las dos cuartas partes de las observaciones

(50%)

Cuartil 3= (𝑸𝟑) acumula las tres cuartas partes de las observaciones

(75%)

El cuartil dos es igual a la media(acumula el 50% de los valores

observados).

• Cuartil(𝑸𝟏)

Ubicar su posición calculando 𝒏+𝟏

𝟒, si es entero 𝑸𝟏 = 𝑿

(𝒏−𝟏

𝟒). Si no

es entero, el resultado es de la forma E.F, donde E es la parte entera y

F la fracción decimal, entonces hacer una interpolación lineal entre

las observaciones ordenadas E y (E + 1) entre las cuales está la

fracción F.

Dicha interpolación lineal es similar para cualquier cuantil que vamos

a estudiar, se efectúa así:

Cuantil = 𝑿𝑬 + F[𝑿𝑬+𝟏 - 𝑿𝑬]

Aquí el cuartil 1 es: 𝑸𝟏 = 𝑿𝑬 + F [𝑿𝑬+𝟏 - 𝑿𝑬]

Page 167: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

• Cuartil(𝑸𝟑)

Ubicar su posición calculando 𝟑(𝒏+𝟏)

𝟒, si es entero 𝑸𝟑 = 𝑿

[𝟑(𝒏−𝟏)

𝟒]. Si

no es entero, el resultado es de la forma E.F, donde E es la parte

entera y F la fracción decimal, entonces hacer una interpolación

lineal entre las observaciones ordenadas E y (E + 1) entre las cuales

está la fracción F.

Entonces el cuartil 3 es:

𝑸𝟑 = 𝑿𝑬 + F [𝑿𝑬+𝟏 - 𝑿𝑬]

Ejemplo :

Con el cuadro se muestran los pesos en Kg de los 20 alumnos de

Estadística Básica, cuyos pesos ordenados son:

44 45 46 46.5 47 48 48 49 49 50

50 50 50 50.5 51 51 52 52 52.6 53

Calcular el Cuartil 1, Cuartil 2 y Cuartil 3

Solución:

Observamos que el percentil 50 es la mediana, que el percentil 25 es

el cuartel 1, que el percentil 75 es el cuartil 3

Page 168: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

- Digitar el siguiente código en el Console de r-projet (oprima

enter), y le mostrará la siguiente ventana.

- Con la función “quantile”, podrá calcular el cuartil 1

> quantile(peso,0.1)

10%

45.9

#Calculando el cuartil 3

Page 169: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

> quantile(peso,c(0.1,0.75))

10% 75%

45.9 51.0

4.3 Deciles(𝑫𝑲)

Son particiones de la distribución de frecuencia en diez partes iguales

de modo que cada una de ellas acumula un décimo de las

observaciones (10% de los datos).

Decil 1= 𝐷1 acumula la décima parte de las observaciones (10%)

Decil 2= 𝐷2 acumula la dos décimas partes de las observaciones

(20%)

Decil 3= 𝐷3 acumula la tres décimas partes de las observaciones

(30%)

Decil 4= 𝐷4 acumula la cuatro décimas partes de las observaciones

(40%)

Page 170: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Decil 5= 𝐷5 acumula la cinco décimas partes de las observaciones

(50%)

Decil 6= 𝐷6 acumula la seis décimas partes de las observaciones

(60%)

Decil 7= 𝐷7 acumula la siete décimas partes de las observaciones

(70%)

Decil 8= 𝐷8 acumula la ocho décimas partes de las observaciones

(80%)

Decil 9= 𝐷9 acumula la nueve décimas partes de las observaciones

(90%)

El decil cinco es igual a la mediana (acumula el 50% de los valores

observados). Es decir, 𝐷5 = 𝑀𝑒

El cálculo de los deciles y otros cuantiles se pueden efectuar

mediante el cálculo del percentil correspondiente, que pasamos a

desarrollar.

4.4 Percentiles(𝑃𝐾)

Son particiones de la distribución de frecuencias en cien partes

iguales de modo que cada una de ellas acumula un centésimo de las

observaciones (1% de los datos).

Para dividir la distribución de frecuencia en cien partes iguales

necesitamos 99 puntos, por ello los percentiles son noventa y nueve y

se denotan de la siguiente manera:

Percentil 1= 𝑃1 acumula una centésima parte de las observaciones

(1%)

Percentil 2= 𝑃2 acumula dos centésima parte de las observaciones

(2%)

Page 171: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Percentil 3= 𝑃3 acumula tres centésima parte de las observaciones

(3%)

………….

Percentil k= 𝑃𝑘 acumula k centésima parte de las observaciones

(k%)

………….

Percentil 99 = 𝑃99 acumula 99 centésima parte de las observaciones

(99%)

Nota:

Todas los cuantiles anteriormente son también percentiles (según él

% de observaciones que acumule cada uno de ellos).

Así tenemos que: la mediana (acumula el 50% de los valores

observados) es igual al percentil 50. Es decir, 𝑀𝑒 = 𝑃50

También: 𝑄1 = 𝑃25, 𝑄2 = 𝑃50 = 𝑀𝑒 𝑄3 = 𝑃75,

También: 𝐷10 = 𝑃10, 𝐷5 = 𝑃50 = 𝑀𝑒 𝐷9 = 𝑃90.

Cálculo para datos sin agrupar

a) Ordenar las observaciones en forma ascendente: 𝑥1 , 𝑥2 ,…. , 𝑥𝑛

b) Obtención del k-ésimo percentil (𝑃𝑘), k = 1, 2, 3,…., 99

Ubicar su posición calculando 𝒌(𝒏+𝟏)

𝟏𝟎𝟎, si es entero 𝑷𝑲 = 𝑿

[𝑲(𝒏−𝟏)

𝟏𝟎𝟎]

Si no es entero, el resultado es de la forma E.F, donde E es la parte

entera y F

Page 172: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

la fracción decimal, entonces hacer la interpolación lineal antes

indicada entre las observaciones ordenadas E y (E + 1) entre las

cuales está la fracción F.

Entonces el percentil k es:

𝑃𝐾 = F[𝑋𝐸−1 − 𝑋𝐸 ] , k = 1, 2,3,…, 99

Del Ejemplo 4.1 calcular los percentiles 10 y 80 con los datos.

Solución:

Para encontrar los valores que separan en grupos de 1 en 1% o de 10

en 10: Es decir percentil 1 al percentil 100 o décil 1 al décil 10.

El decil 1 se obtiene quantile(x,.1)

#Calculando el decil 10

> quantile (peso,0.1)

10%

45.9

Page 173: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

#Calculando el decil 80

> quantile (peso,0.8)

80%

51.2

Page 174: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

1) ASIMETRÍA

Es una medida de forma de una distribución que permite identificar y

describir la manera como los datos tiende a reunirse de acuerdo con la

frecuencia con que se hallen dentro de la distribución. Permite identificar

las características de la distribución de datos sin necesidad de generar el

gráfico.

1.1) TIPOS DE ASIMETRÍA

La asimetría presenta las siguientes formas:

Asimetría Negativa o a la Izquierda.- Se da cuando en una distribución la

minoría de los datos está en la parte izquierda de la media. Este tipo de

distribución presenta un alargamiento o sesgo hacia la izquierda, es decir,

la distribución de los datos tiene a la izquierda una cola más larga que a la

Page 175: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

derecha. También se dice que una distribución es simétrica a la izquierda

o tiene sesgo negativo cuando el valor de la media aritmética es menor

que la mediana y éste valor de la mediana a su vez es menor que la moda,

en símbolos

Nota: Sesgo es el grado de asimetría de una distribución, es decir, cuánto

se aparta de la simetría.

Simétrica.- Se da cuando en una distribución se distribuyen

aproximadamente la misma cantidad de los datos a ambos lados de la

media aritmética. No tiene alargamiento o sesgo. Se representa por una

curva normal en forma de campana llamada campana de Gauss

(matemático Alemán 1777-1855) o también conocida como

de Laplace (1749-1827).También se dice que una distribución es

simétrica cuando su media aritmética, su mediana y su moda son iguales,

en símbolos Md=Mo

Asimetría Positiva o a la Derecha.- Se da cuando en una distribución la

minoría de los datos está en la parte derecha de la media aritmética. Este

tipo de distribución presenta un alargamiento o sesgo hacia la derecha, es

decir, la distribución de los datos tiene a la derecha una cola más larga

que a la izquierda.

También se dice que una distribución es simétrica a la derecha o tiene

sesgo positivo cuando el valor de la media aritmética es mayor que la

mediana y éste a valor de la mediana a su vez es mayor que la moda, en

símbolos

Page 176: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

MEDIDAS DE ASIMETRÍA

Coeficiente de Karl Pearson

1.1 Curtosis

La curtosis mide el grado de agudeza o achatamiento de una distribución

con relación a la distribución normal, es decir, mide cuán puntiaguda es

una distribución.

2.1) TIPOS DE CURTOSIS

La curtosis determina el grado de concentración que presentan

los valores en la región central de la distribución. Así puede ser:

Leptocúrtica.- Existe una gran concentración.

Mesocúrtica.- Existe una concentración normal.

Platicúrtica.- Existe una baja concentración.

Page 177: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Ejercicios

#base de datos

ejemplo1<-

read.table(‘‘http://www.mat.ucm.es/~palomam/aed/datos/datos1.d

at’’)

#función media aritmética

ej1.m<-mean(ejemplo1)

#cálculo de la media aritmética

sum(ejemplo1)/dim(ejemplo1)

#vector de datos

ejemplo1.s<-

scan(‘‘http://www.mat.ucm.es/~palomam/aed/

datos/datos1.dat’’)

#función media aritmética

ej1.m.s<-mean(ejemplo1.s)

#cálculo de la media aritmética

sum(ejemplo1.s)/length(ejemplo1.s)

#cálculo de la media geométrica

ej1.g<-exp(mean(log(abs(ejemplo1))))

ej1.g.2<-(prod(ejemplo1))^(1/15)

28.81678

#cálculo de la media armónica

ej1.h<-1/(mean(1/ejemplo1))

ej1.2.2<-15/sum(1/ejemplo1)

23.51709

Page 178: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

#cuartiles

quantile(ejemplo1.s)

0% 25% 50% 75% 100%

-67 11 24 45 75

#mediana

median(ejemplo1.s)

24

#deciles

quantile(ejemplo1.s,probs=seq(0,1,by=1/10))

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

-67.0 -26.4 7.6 14.4 20.2 24.0 28.4 38.6 50.4 58.4 75.0

Page 179: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

CAPÍTULO V

MEDIDAS DE VARIABILIDAD

1.1 Introducción

Las medidas de tendencia central no son suficientes para describir un

conjunto de valores de alguna variable estadística. Los promedios

determinan el centro, pero nada indican acerca de cómo están situados los

datos respecto al centro.

En primer lugar se necesita una medida del grado de dispersión o

variabilidad con respecto al centro con la finalidad de ampliar la

descripción de los datos o de comparar dos o más series de datos.

En segundo lugar se necesita una medida del grado de asimetría o

deformación en ambos lados del centro de una serie de datos, con el fin de

describir la forma de la distribución de los datos. Esta medida se

denomina índice de asimetría.

En tercer lugar se necesita una medida que nos permita comparar el

apuntamiento o curtosis de distribuciones simétricas con respecto a la

distribución simétrica normal. Esta medida se denomina índice de

apuntamiento o curtosis.

Las estadísticas de asimetría y apuntamiento se incluyen en este capítulo

dado su poca importancia.

Observaciones se distribuyen (o se separan).

Page 180: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

E existen otras dos características de los conjuntos de datos que

proporcionan información útil: el sesgo y la curtosis.

Sesgo (skewness) : Las curvas que representan un conjunto de datos pueden

ser simétricas o sesgadas. Las curvas simétricas tienen una forma tal que

una línea vertical que pase por el punto más alto de la curva, divide al área

de ésta en dos partes iguales. Si los valores se concentran en un extremo se

dice sesgada.

Una curva tiene sesgo positivo cuando los valores van disminuyendo

lentamente hacia el extremo derecho de la escala y sesgo negativo en caso

contrario.

El sesgo es una medida de la asimetría de la curvo. E n general es un valor

que va de -3 a 3.

Una curva a simétrica toma el valor 0.

1.2 Varianza

La varianza, es una medida que cuantifica el grado de dispersión o de

variación de los valores de una variable cuantitativa con respecto a su

media aritmética. Si los valores tienden a concentrarse alrededor de su

Page 181: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

media, la varianza será pequeña. Si los valores tienden a distribuirse lejos

de la media, la varianza será grande.

La varianza calculada a partir de una muestra será denotada por 2s y

referida a una población se denotará por 2 .

Definición. La varianza se define como la media aritmética de los

cuadrados de las diferencias de los datos con respecto a su media aritmética.

La varianza es una medida de dispersión con unidades de medición al

cuadrado,

por ejemplo, $2, Km2, etc.

1.3 Desviación estándar

Definición. La desviación estándar es la raíz cuadrada positiva de la

varianza.

La desviación estándar calculada a partir de una muestra se denotará por

s y referida a la población por .

Esto es, 2s s ,

2 .

1.4 Coeficiente de variación

Cuando se desea hacer referencia a la relación entre el tamaño de la media

y la variabilidad de la variable, se utiliza el coeficiente de variación.

Su fórmula expresa la desviación estándar como porcentaje de la media

aritmética, mostrando una mejor interpretación porcentual del grado de

variabilidad que la desviación típica o estándar. Por otro lado presenta

problemas ya que a diferencia de la desviación típica este coeficiente es

variable ante cambios de origen. Por ello es importante que todos los

Page 182: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

valores sean positivos y su media dé, por tanto, un valor positivo. A mayor

valor del coeficiente de variación mayor heterogeneidad de los valores de

la variable; y a menor C.V., mayor homogeneidad en los valores de la

variable. Suele representarse por medio de las siglas C.V.

xCV

s

1. Hallar la desviación media, la varianza y la desviación típica de

la series de números siguientes:

2, 3, 6, 8, 11.

12, 6, 7, 3, 15, 10, 18, 5.

2, 3, 6, 8, 11.

En R la ejecución de los comendados nos daría los siguientes resultados.

2. Un pediatra obtuvo la siguiente tabla sobre los meses de edad

de 50 niños de su consulta en el momento de andar por primera

vez:

Page 183: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Meses Niños

9 1

10 2

11 4

12 8

13 9

14 13

15 16

En R, como en el caos anterior, el ingreso de datos seria el

siguiente.

Adicionalmente, en variables donde se evidencia una relación

del tipo causal, es conveniente determinar o realizar una

correlación a través de la covarianza.

Page 184: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Calcular la varianza.

3. El resultado de lanzar dos dados 120 veces viene dado por

la tabla:

Sumas 2 3 4 5 6 7 8 9 10 11 12

Veces 3 8 9 11 20 19 16 13 11 6 4

Calcular la desviación estándar delos datos.

4. Calcular la varianza de una distribución estadística que

viene dada por la siguiente tabla:

i [10,

15)

[15,

20)

[20,

25)

[25,

30)

[30,

35)

fi 3 5 7 4 2

Page 185: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Entregados :

17 25 28 27 16 21 20 22 18 23

a) Hallar el rango, la varianza y la desviación estándar e

interpretar.

b) Hallar el porcentaje de observaciones que están alrededor de

la media a una distancia de 2 desviaciones estándar. Comparar

con el teorema de Chebyshev y con la regla empírica

a) Para hallar el rango ordenamos el conjunto de mayor a menor

16 17 18 20 21 22 23 25 27 28

R = ( 10 ) ( 1 ) x - x = 28 - 16 = 12 La diferencia entre el mayor

y el menor valor observado es 12

Para el cálculo de la varianza conviene realizar un cuadro:

Page 186: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

a) ( x - 2s; x + 2s ) = ( 21,7 - 8,22;21,7 + 8,22 ) = (13,48;28,92)

Todos los valores de la variable caen en este intervalo o sea el 100

Según Chebyshev: al menos el 75% de los valores caen en ese

intervalo, por lo tanto se verifica según la regla empírica:

aproximadamente el 95% de las observaciones caen en dicho

intervalo, (el 100% es un valor bastante cercano)

Page 187: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

COEFICIENTE DE VARIACIÓN:

La desviación estándar es una medida absoluta de la dispersión

que expresa la variación en las mismas unidades que los datos

originales. Pero no puede ser la única base para la comparación de

dos distribuciones. Por ejemplo si tenemos una desviación

estándar de 10 y una media de 5, los valores varían en una cantidad

que es el doble de la media. Si por otro lado tenemos una

desviación estándar de 10 con una media de 5000, la variación

respecto a la media es insignificante.

Lo que necesitamos es una medida relativa que nos proporcione

una estimación de la magnitud de la desviación respecto de la

magnitud de la media.

El coeficiente de variación es una medida relativa de dispersión

que expresa a la desviación estándar como un porcentaje de la

media

Page 188: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

En el cuadro anterior se observa las principales operaciones de r,

tanto en estadísticas descriptivas como meda y varianza hasta

correlación.

Ejemplo: la dirección Regional Salud de Ancash tiene 6

subregiones, de las cuales se les asigno un monto de dinero (en

miles de nuevos soles) para el presupuesto 2015, que se detallan a

continuación:

Sub-región Montos

Pacifico Sur 1.5 3 2.6 4 5 6.2 9.4

Pacifico Norte 2.6 3.4 1.6 7 6 4 3.4

Huaylas sur

Huaylas Norte

Conchucos Sur

Conchucos Norte

Ejercicios:

1. Los datos que se dan a continuación corresponden a los pesos

en Kg. de ochenta personas:

(a) Obténgase una distribución de datos en intervalos de

amplitud 5, siendo el primer intervalo [50; 55].

(b) Calcúlese el porcentaje de personas de peso menor que 65

Kg.

Page 189: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

(c) ¿Cuántas personas tienen peso mayor o igual que 70 Kg. pero

menor que 85?

SOLUCIÓN:

(a) Como se trata de efectuar una distribución de datos

agrupados, debemos obtener primero los intervalos

correspondientes, situando los datos en sus lugares respectivos:

Li-1 – Li ni Ni

[50;55) 2 2

[55; 60) 7 9

[60; 65) 17 26

[65;70) 30 56

[70; 75) 14 70

[75; 80) 7 77

[80; 85] 3 80

(b) Observando la columna de frecuencias acumuladas se deduce

que existen N3 = 26 individuos cuyo peso es menor que 65 Kg.,

que en términos de porcentaje corresponden a:

100 32,5%

(c) El número de individuos con peso comprendido entre 70 y 85

Kg. es:

n5 + n6 + n7 = 14 + 7 + 3 = 24

lo que es equivalente a: N7 – N4 = 80 – 56 = 24

Page 190: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

6 0 ; 6 6 ; 7 7 ; 7 0 ; 6 6 ; 6 8 ; 5 7 ; 7 0 ; 6 6 ; 5 2 ; 7 5 ; 6 5 ; 6 9 ;

7 1 ; 5 8 ; 6 6 ; 6 7 ; 7 4 ; 6 1 ;

6 3 ; 6 9 ; 8 0 ; 5 9 ; 6 6 ; 7 0 ; 6 7 ; 7 8 ; 7 5 ; 6 4 ; 7 1 ; 8 1 ; 6 2 ;

6 4 ; 6 9 ; 6 8 ; 7 2 ; 8 3 ; 5 6 ;

6 5 ; 7 4 ; 6 7 ; 5 4 ; 6 5 ; 6 5 ; 6 9 ; 6 1 ; 6 7 ; 7 3 ; 5 7 ; 6 2 ; 6 7 ;

6 8 ; 6 3 ; 6 7 ; 7 1 ; 6 8 ; 7 6 ;

6 1 ; 6 2 ; 6 3 ; 7 6 ; 6 1 ; 6 7 ; 6 7 ; 6 4 ; 7 2 ; 6 4 ; 7 3 ; 7 9 ; 5 8 ;

6 7 ; 7 1 ; 6 8 ; 5 9 ; 6 9 ; 7 0 ;

6 6 ; 6 2 ; 6 3 ; 6 6 ;

Page 191: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

Ejercicios propuestos.

1. En una clase hay 15 alumnos y 20 alumnas. El peso medio

de los alumnos es 58.2 kg y el de las alumnas y 52.4 kg. Las

desviaciones típicas de los dos grupos son, respectivamente,

3.1 kg y 5.1 kg. El peso de José es de 70 kg y el de Ana es 65

kg. ¿Cuál de ellos puede, dentro del grupo de alumnos de su

sexo, considerarse más grueso?

2) En un partido de baloncesto, se tiene la siguiente anotación

en los jugadores de un equipo: 0,2,4,5,8,10,10,15,38. Calcular

la varianza de las puntuaciones de los jugadores del equipo.

3) La altura en cm de los jugadores de un equipo de baloncesto

está en la siguiente tabla. Calcular la varianza.

intervalos xi fi

[160,170) 165 1

[170,180) 175 2

[180,190) 185 4

[190,200) 195 3

Page 192: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

[200,210) 205 2

4) Un pediatra obtuvo la siguiente tabla sobre los meses de

edad de 50 niños de su consulta en el momento de andar por

primera vez:

Meses Niños

9 1

10 4

11 9

12 16

13 11

14 8

15 1

Calcular la varianza.

5) El resultado de lanzar dos dados 120 veces viene dado por

la tabla:

Sumas Veces

2 3

3 8

4 9

5 11

6 20

Page 193: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

7 19

8 16

9 13

10 11

11 6

12 4

Calcular desviación típica.

6) Dada la distribución estadística:

fi

[0, 5) 3

[5, 10) 5

[10, 15) 7

[15, 20) 8

[20, 25) 2

[25, ∞) 6

Calcular la varianza.

7) Considérense los siguientes datos: 3, 8, 4, 10, 6, 2. Se pide:

a) Calcular su media y su varianza.

Page 194: ESTADÍSTICA - investiga.unasam.edu.peinvestiga.unasam.edu.pe/Investigadores/archivo/Estadisticas-con-R-Libro.pdf · R es un lenguaje de alto nivel y un entorno para el análisis

b) Si los todos los datos anteriores los multiplicamos por 3,

¿cuál será la nueva media y varianza?