Introducción al uso y programación del sistema … · Extensiones específicas a áreas nuevas...

7
Introducción al uso y programación del sistema estadístico R t ••••••••••••••••••• •••••••••••••••••••• Gerardo Ardila Duarre I * lngmieda Industrial. Maestría f!I C' sladirtiCt1 UNA f F'speria/ización etI AntJ!sú de Datos Unif' (j r.fidad de ItI Salle l3.spec/a/ zit](i ón en Doc enci a UllinmimÚl UII/rasidad SaN PJlle ntJl'enl/fra. Prqesor int 'esl! .gador medio lie!llpo U"it 'ersidad libre * gmmloardila@, hoüJ/müom Fecba de recepción del artícu lo: 31/03/2010 Fecha de aceptación del artículo 30/04/2010 Resumen R es un software libre creado por investigadores de varias universidades en el mundo, para reducir al mínimo los costos de sof tware comcrcia.l como SAS y SPSS entre otros, y con el fin de que .lo s estudiosos y científicos puedan desarrollar sus investigaciones y dar el sentido riguroso que le merecen. R es igual o más poderoso que el software comercial. Este artículo ha sjdo escrito para presentar un a intro du cción, auxiliar a los profesores de estadística en el desarrollo de sus clases, y mejorar la calidad de las investigaciones y estudios de profesores y estudiantes de la universidad. Abstract R is a free sof tware created by researchers at severa! universities in the world, to minimize [he costs of commercia l software such as SAS and SPSS, in arder to develop their enquiries and give the rigorous sen se that deserve it. R is equal to or more powerful than the software business. This article have been written to present an introduction and improving the investigarions qualir)' and studies of students at the university Palabras clave R, paquetes adicionales, GLP, resumen de datos. Key Words R, additiona! packages, LPG, fas t facts. Introducción Estas notas sobre R están escritas para que un estudiante y/o investigador pueda aplicar las herramientas estadísticas necesarias para la justificación cienófica de su trabajo, se ha buscado explicar en una forma senci ll a y práctica para llegar al estudiante, el usuario y/o investigador, de esta manera crear un ambiente de trabajo tranquilo pero seguro y riguroso. El R está desplazando paquete s estadí sticos de alto costo y con igualo superior potencia y uso de paqu etes com erciales como SAS y SPSS entre otros, pr ecisamente fue creado para competir en forma libre y/ o gratuita contra el sofrware comercial, ya investigadores y universidades prestigiosas de todo el mundo han estado implementándolo, reduciendo coStos y mejorando la calidad de sus investigaciones. ¿Qué es R? R es software estadistico, creado por investigadores de todo el mundo, y que sigue desarrollándose actualmente para suplir las necesidades de educación, investigación y aplicación en industría y tecnología, (quien quiera aportar sus desarrollos puede hacerlo vistando la página: http://www.r-project.org). En pocas palabras, los grandes atractivos de R son: La capacidad de combinar, sin problema alguno, análisis "preempaquetados" (ej ., una regresión logística) con análisis ad-hoc, específicos para una situación: capacidad de manipu.lar y modificar datos y funciones. Los gráficos de alta calidad (revelaciones de la visualización de datos y producción de gráficas para aróculos científicos). La comunidad de R es muy dinámica (ej ., crecimiento en número de paquetes), integrada por estadistico s de gran renomb re (Chambers, Terney, Ripley, Bates, etc).

Transcript of Introducción al uso y programación del sistema … · Extensiones específicas a áreas nuevas...

Introducción al uso y programación del sistema estadístico R

t ••••••••••••••••••• •••••••••••••••••••• Gerardo Ardila Duarre I *

lngmieda Industrial. Maestría f!I C'sladirtiCt1 UNA f ~ F'speria/ización etI AntJ!sú de Datos Unif'(jr.fidad de ItI Salle l3.spec/a/zit](ión en Docencia UllinmimÚl UII/rasidad SaN PJllentJl'enl/fra. Prqesor int'esl!.gador medio lie!llpo U"it'ersidad libre

* gmmloardila@,hoüJ/müom

Fecba de recepción del artículo: 31/03/2010 Fecha de aceptación del artículo 30/04/2010

Resumen

R es un software libre creado por investigadores de varias universidades en el mundo, para reducir al mínimo los costos de software comcrcia.l como SAS y SPSS entre otros, y con el fin de que .los estudiosos y científicos puedan desarrollar sus investigaciones y dar el sentido riguroso que le merecen. R es igual o más poderoso que el software comercial. Este artículo ha sjdo escrito para presentar una introducción, auxiliar a los profesores de estadística en el desarrollo de sus clases, y mejorar la calidad de las investigaciones y estudios de profesores y estudiantes de la universidad.

Abstract

R is a free software created by researchers at severa! universities in the world, to minimize [he costs of commercial software such as SAS and SPSS, in arder to develop their enquiries and give the rigorous sen se that deserve it. R is equal to or more powerful than the software business. This article have been written to present an introduction and improving the investigarions qualir)' and studies of students at the university

Palabras clave

R, paquetes adicionales, GLP, resumen de datos.

Key Words

R, additiona! packages, LPG, fas t facts.

Introducción

Estas notas sobre R están escritas para que un estudiante y/o investigador pueda aplicar las herramientas

estadísticas necesarias para la justificación cienófica de su trabajo, se ha buscado explicar en una forma sencilla y práctica para llegar al estudiante, el usuario y/o investigador, de esta manera crear un ambiente de trabajo tranquilo pero seguro y riguroso.

El R está desplazando paquetes estadísticos de alto costo y con igualo superior potencia y uso de paquetes comerciales como SAS y SPSS entre otros, precisamente fue creado para competir en forma libre y/ o gratuita contra el sofrware comercial, ya investigadores y universidades prestigiosas de todo el mundo han estado implementándolo, reduciendo coStos y mejorando la calidad de sus investigaciones.

¿Qué es R?

R es software estadistico, creado por investigadores de todo el mundo, y que sigue desarrollándose actualmente para suplir las necesidades de educación, investigación y aplicación en industría y tecnología, (quien quiera aportar sus desarrollos puede hacerlo vistando la página: http://www.r-project.org).

En pocas palabras, los grandes atractivos de R son: La capacidad de combinar, sin problema alguno, análisis "preempaquetados" (ej ., una regresión logística) con análisis ad-hoc, específicos para una situación: capacidad de manipu.lar y modificar datos y funciones. Los gráficos de alta calidad (revelaciones de la visualización de datos y producción de gráficas para aróculos científicos) .

La comunidad de R es muy dinámica (ej ., crecimiento en número de paquetes), integrada por estadistico s de gran renombre (Chambers, Terney, Ripley, Bates, etc).

Podemos citar entre otras universidades y/e institutos de investigación:

Argentina:

Australia:

Austria:

Bélgica:

Brasil:

Canadá:

Chile:

Croacia:

CONICCT, Mendo"a.

University of Melbourne.

\X'irtscha frsu ruversitaet \X1icn.

K.U. Leuven Association .

Universidad Federal de Parana, O swaldo Cruz Foundation, Rí o de Janeiro, Universidad de Sao Paulo.

Simon Fraser University, Burnaby, Univcrsity of Toronto.

Pontificia Universidad Catolica de Chile, Santiago.

Rud jer Boskovic Institute.

República Checa: Biokonrakt, Broo.

Dinamarca:

Francia:

Alemania:

India:

Irlanda:

Italia:

Japón:

Korea:

México:

Holanda:

Neva Zelanda:

Noruega:

Polonia:

Portugal:

Sudáfrica:

España:

Escocia:

Suiza:

Taiwán:

Tailandia:

Inglaterra:

Estados Unidos:

dotsrc.org, Aalborg.

CTCT, Toulouse, D ept. of Biometry & Evol. Biology, Universiry of Lyon, Miroir-Francais, París.

Ccnter Venus, Universiry of i\1ainz, Rakanu.com, Nluenchen.

\Vest Bengal University of Technology, University of Pune.

HEAnet, Dublin.

Universita di Ferrara, Carr Mirror, Milano, Univers ity of Papua y Universita degli Studi di Palermo.

Univcrsity of Aizu, Un ivcrsity of Tokio y University of Tsukuba.

Seoul National University.

Universidad Autonoma del Estado de Morelos.

Nedmirror, Ámsterdam, D smirro r, Ámsterdam y Utrecht U niversity.

University of Auckland.

University o f Bergen

Skubiszewski Medical University, Lublin y Universiry of \Vroclaw.

Universidade do Porto.

Rhocles University.

Instituto Nacional de inves tigaciones, 'J\I[adrid.

Swerlish Universitl' Computer Nerwork, Upp sala.

ETH Zuerich, Universitaet Bern.

Provid ence Univcrsity, Taichung y National Taiwan University, Taipei.

Kapook.com, Bangkok.

University of Brisroll' Sourcekeg, Londres.

University of California, Berkeley, CA, Universitl' of California, Los Angeles, CA, University of California, Davis, CA, l owa State University, Ames, lA, Stathy, lnc., Ch icago, IL, Michigan Technological Universi ty, Houghton, lvIl, Washington University, Sto Louis, 1\·10, Universitl' of North Carolina, Chapel Hil!, NC , Hoobll' Classilieds, Statlib, Carnegie ~i(ellon University, Pittsburgh , PA, Ilasting Zeta, Dallas, TX y Fred H utchinson Cancer Research Center, Seattle, \Y/A.

Extensiones específicas a áreas nuevas (bioinformática, geoestadística, modelos gráficos, bioestadística). Un lenguaje orientado a objetos. Muy parecido a Matlab y Octave, y con sintaxis que recuerda a C/C++.

¿Cuánto cuesta R?

La filosofía r objetivos altruistas del proyecto GNU de R pueden leerse en: www.gnu.org. El objetivo principal es desarro llar un sistema completo y "libre" (donde "free is free as in freedom, not frce as in beer"). Algunos "GNU s famosos": Emacs, gcc, GNU /Linux, ete. R se distribuye con licencia GNU GPL o General Public License (ver http:/ / ww\V.gnu.org/licenses/gpl.html.) La GPL no pone ninguna restricción al uso de R. Restringe su distribución (ha de ser GPL). R se obtiene por O pesos en http://cran.r-project.org

Obtención e instalación de R

Depende del sistema operativo, pero todo se puede encontrar en http://cran.r-project.org/bin. Para ba­jar bajo Windows, siga los pasos: bajar ("download") el ejecutable desde http://cran.r-project.org/bin/ windows/base. (por ejemplo, http:/ / cran.r-project. org/bin/ windows/base/ r\V1 070.exe).

Ejecutar el archivo. Instalará el sis tema base y los paquetes recomendados.

Paquetes adicionales

R consta de un "sistema base" y de paquetes adicionales que extienden la funcionalidad. Distintos "tipos" de paquetes: Los clue forman parte del sistema base (ej . ctest).

Los que no son parte del sistema base, pero son recomendados (ej., survival, nlme). En GNU/ Linux)' \,(!indows ya forman parte de la distribución estándar.

Otros paquetes; ej., car, gregmisc, Jos paquetes de Bioconeluctor (como multtest, etc). Estos necesi­tamos seleccionarlos e in stalarlos individualmente. Más adelante veremOS como.

Documentación sobre R (1)

Los "manuales" ele R, incluidos en todas las insta­laciones. Son:

AII illtrodllction to R. De lectura recomendada.

[f:7riting 11. extemio1lS.

I\. data illlpO/1/ exporto

Toe R /angllage dejinitioll.

R instal/ation and administra/ion.

Documentación sobre R (11)

Documentación general

A gl/ide Jor Ihe tllZlvi//ing S IIser, de P. Burns.

En: http://cran.r-project.org/ doe / contrib/ Burns-unwillin~S.pdf o http://www.burns­stat.com/ pages/ tutorials.htm!. Muy corto y sencillo.

R para principiantes, de E. Paradis. En: htlp:/ / cran.r-project.org/other-docs.html o

h ttp: // cran.r-project.org / doc / con trib / rdebuts_es.pdf.

E4Q. S Prograllll/Jing, de W Venables )' B. Ripley. (ver también http://\Vww.stats.ox.ae.uk/pub/ MASS3/Sprog.)

Documentación general:

Spoetry de P Burns.

En http://w\Vw.burns-stat.com/pages/spoet.ry. html.

Otros documentos en la página de J. Fox (http://cran.r-project.org/ doc/ contrib/Fox­Companion/ appendix.html), ej. sobre Frames, etc).

El site de Paul Johnson (http://lark.cc.ukans. edu/ ~pauJjohn/R/ statsRus. hlml).

Estadística:

introductor y .rtatistics mith R de P. Dalgaard.

An 11. and S-PLUS cOJllpanion to app/ied regresslon, de J. POx.

Modem app/ied slalú/ics /vilh S, 4th ed. de W Venables y B. RipIe)' (ver también http://w\V\V. stats.ox.ae.uk/pub/MASS4) .

810. / -----~

• • • • peA 5 vars

Princom (x=dala, cor=cor)

• ~ .. , • • •

e e. e

eatholiC; ---. Educalion

• .'. • • • •• +5 • D _ c=J=

Agricultura ,

(1-3) 60%

Clustering 4 groups Factor 1 (41 %) Factor 3 (19%)

28

80 60 40 20 O 2

Gráfico 1. Algunas salidas descriptivas de R.

Practica/ regressioll alld ANOT 'lI. Jlsing R de J. Faraway, en bttp:/ / cran .r-project.org/ other-docs.btml o http://www.stat.lsa.umicb. edu/ -farawa)' /book/.

Otros documentos en:

http:// cran.r-project.org/ other-docs.html.

S-PLUS 6.0 for Unix. Cllide /0 sla/ir/irs. Vo!. 1 &

11. En: http: //www.insigbtfu!.com/ suppon/ documentation .asp?DID=3.

Mixed-efferls models ill S "lid S-PLUS, de J. Pinheiro )' D. Bates. Regressioll 1II0del/illg stralegie.r, de F Harrel!.

Site con documentación sobre análisis para datos categóricos (site para libro de A Agresti Calegorica! dala analysir.).

http://ww\v.stat.ufl.edu/-aa/cda/cda.htm!.

Mode/illg sllnú'a/ dala: exlellding Ibe Cox 1II0del, de T. M. Therenau y P. M. Grambscb.

Documentos misceláneos en página de J. Fox.

(bttp: / / cran.r-project.org/ doc / contrib / Fox­Companion/ appendix. html) .

Obteniendo ayuda sobre R

Ayuda incluida con el programa (veremos más adelao te).

FAQ.

Site de Paul Johnson

http: // lark .cc.ukans.edu / - pauljohn / R/ statsRus. html.

R-help ver http://cran.r-project.org/search.html; y http://finzi.psych.upenn.edu/search.html permite hacer las búsquedas no sólo sobre las listas de email sino también sobre la documentación (incluyendo paquetes).

Instalación de paquetes adicionales

Depende del sistema operativo

Windows:

Desde la "GUr" o desde la interfaz de XEmacs.

D esde R, con " install .packagesO", como en GNU/ Linux (ver siguiente). GNU/Linux:

"R CMD TNSTALL paquete-x.y.z.tar.gz". Permite instalar aunque uno no sea root (especificando el directorio).

Más cómodo, desde R, "instaU.packagesO", "update. packagesO", etc. También permiten instalar no siendo root (especificar lib.Joc).

Inicio de una sesión de R

1. Instalación en Windows - Puede actualizarse con los mismos pasos.

Ingrese a un buscador: Google por ejemplo

Digitc R

Clik sobre The R Project for Statistical Computing

C1ick sobre: Download - eRAN

Para la versión en español: Chile -http:! / dirichlet. mat.puc.cl/ - Pontificia Universidad Católica de Chile, Santiago.

Click sobre: Windows

Click sobre: base

Click sobre: R-2.6 .1-win32 exe

Esperar el tiempo prudente, y seguir las instrucciones.

Hacer click sobre el icono Jlt, en su escritorio

2. Instalación de paquetes adicioanles en R

Dado el paso 1.9, click en packages

Click en illstall pack'{ges

Buscar Chile (dic)

Para tener todas las herramientas estadísticas disponibles, (instalar todos los paquetes) seleccione Packages, IlIsla/! packageJ, Chle o Spain (lIIadnd) todas y click en aceptar (este proceso puede durar una hora o más)

3. Uso de ventanas, para facilitar la aplicación de herramientas estadísticas y así mismo los análisis respectivos.

Click en Packages Load Package (Select one) Busque rCJllrd o RCJlJrd

Con los pasos anteriores se ha instalado el R en forma completa y tiene a su vez las ventanas que facilitaran su uso y aplicación.

Importación de archivos de cuaquier base de datos, en particular de Excel

1. Inicie R (Hacer dick sobre el icono ,!lII., en su escritorio) .

a. Clic en Packages. b. LDad Package (Select one). c. Busque rcmrd o Rc/llrd.

2. Datos.

2.1 Importar datos

2.2 [rom Exel.

2.3 Click correcto

2.4 Direccionarlo y abrirlo.

2.5 Seleccione la hoja donde se haUa su base de datos.

2.6 Click en editar clatos (puede supervisar la información y/o manipularla).

Una sesión elemental con estadística descriptiva

Partimos de la hipótesis de que usted ya creó su base de datos. En este caso, se creó una base de datos que llamé base R.xls.

Siguiendo los pasos de importación, la edición es la siguiente:

Gráfico 2. Base R.xls.

1. Resumen de datos

Click en Estadísticos

Click en Datos activos

_.,_t_,. ________________ ~~

Resultados obtenidos

Datos <- sqlQuery(ehanncl = 1, selcet * from [HojalS]) > summary(Datos)

111es ventas datos genero

abr :l Min. :1000 Min.: 2.00 Min. :1.000

ago:l 1st Qu.: l056 1st Qu.: 9.75 1st Qu.:l.000 die:l Median:l11:; Median:13.00 Median:1.000 ene:1 Mean :1 118 Mean :14.42 Mean :1.417

feb:l 3rd Qu. :11 78 3rd Qu.:20.75 3rd Qu.:2.000 ¡ul:l l\Iax. :1243 Max. :27.00 Max. :2.000 (Other):6

2. Resumen de datos

Cliek en Estadirtico.'

Click en ReslíllJelleJ JltllJléricos

Resultados obtenidos

> numSulllI11ary(Datosf,c("datos", "genero", "ventas")!, statistics=c("nlcan", "sd", "quantiles"))

mean sd 0% 25% 50% 75% 100% n

c1atos 14.4166677.9253143 2 9.750 13.000 20.750 27.00012

generó 1.4166670.5149287 1 1.000 1.000 2.000 2.000 12

ventas 1117.6741 4479.76217551000 1056.006 1115.1221177.5181243.37412

3. Resumen de datos

Ctiek en Frtodísticos

Cl iek en hC/l!leC)' dútli/mtiollS

Resultados obtenidos

> .Table <- table(DatosSmes)

> .Table # eounts for mes

abr ago die ene feb ¡ul ¡un mar may nov oct sep

1 11111111111

> 100*Table/sum(.Table) # pereentages for 111es

abr ago die ene feb ¡ul ¡un mar

8.333333 8.333333 8.333333 8.333333 8.333333 8.333333 8.333333 8.333333

m ay nov oct sep

8.333333 8.333333 8.333333 8.333333

> remove (.Table)

4. Resumen de datos

Cliek en Ertadístico.r

Cliek en '1 "abla de estadísticas

Resultados obtenidos

# Table for ventas:

> tapply(Datos$ventas, tist(mes=Datos$mes), mean, na.rm=TRUE)

mes

abr ago die ene feb ¡ul ¡un mar

1061.208 1148.6861243.3741000.0001020.000 1126.162 1104.081 1040.400

lnay nov oct sep

1082.432 1218.9941195.0931171.659

5. Resumen de datos

Cliek en J:'.stad¡,ticoJ

Cliek en ¡vlatriz de correlaciones

Resultados obtenidos

cor(Da tos [,c (" da tos " ,"gene ro" ,"ven tas ")], llse= " complete.obs")

datos genero ventas

datos 1.0000000 -0.1800671 0.2328515

genero -0.1800671 1.0000000 0.1625472

ventas 0.2328515 0.1625472 1.0000000

6. Resumen de datos

Cliek en Estadísticos

Cliek en Pmeba de hipótesis de corerlació!I

Resultados obtenidos

cor.test (Datos$datos, DatosSgenero, alternative = "two.sided", rnethod ="pearson")

Pearson's product-moment correlation

data: Datos$datos and Datos$genero

t = -0.5789, df = 10, p-value = 0.5755

alternative hypotl1esis: ttue corrclation is not equal ro O

95 percent confidence interval :

-0.6833507 0.4392243

sample estimates:

cor

-0.1 800671

7. Tablas de contingencia

Click en Estadísticos

Click en Tablas de contingencia

Resultados obtenidos

.Table <- xtabs(-mes+genero+nivel, data=Daros)

> .Table

, , nivel = alto

Referencias bibliográficas

género

mes h m

abr O O

ago O O

dic 1 O

ene O O feb O O

julO O

jun O O

marO O

mayO O

nov 01

oct 01

sep 1 O

Gráficas secuenciales

C1ick en C1'Iifica.r

Click en Gráficas secllenciales

.fe/ecciolle /a va/iable contilma

1. Arriaza Gómez y Col, (2008), Estadística básica con R y R-commander, UCA.

Infografia

2. http: //www.r-project.org/

3. http://dirichlet.mat.puc.c1/

4. ftp:/ / cran.r-project.org/ incoming

5. http://uce.uniovi.es/CURSOlCE/CURSOlCE.html#CURSO ICElil.html

6. http:/ / soludelibros.blogspot.com/ 2007 / 09 / lista-de-los-solucionarios.html