Introducción al uso y programación del sistema estadístico R
t ••••••••••••••••••• •••••••••••••••••••• Gerardo Ardila Duarre I *
lngmieda Industrial. Maestría f!I C'sladirtiCt1 UNA f ~ F'speria/ización etI AntJ!sú de Datos Unif'(jr.fidad de ItI Salle l3.spec/a/zit](ión en Docencia UllinmimÚl UII/rasidad SaN PJllentJl'enl/fra. Prqesor int'esl!.gador medio lie!llpo U"it'ersidad libre
* gmmloardila@,hoüJ/müom
Fecba de recepción del artículo: 31/03/2010 Fecha de aceptación del artículo 30/04/2010
Resumen
R es un software libre creado por investigadores de varias universidades en el mundo, para reducir al mínimo los costos de software comcrcia.l como SAS y SPSS entre otros, y con el fin de que .los estudiosos y científicos puedan desarrollar sus investigaciones y dar el sentido riguroso que le merecen. R es igual o más poderoso que el software comercial. Este artículo ha sjdo escrito para presentar una introducción, auxiliar a los profesores de estadística en el desarrollo de sus clases, y mejorar la calidad de las investigaciones y estudios de profesores y estudiantes de la universidad.
Abstract
R is a free software created by researchers at severa! universities in the world, to minimize [he costs of commercial software such as SAS and SPSS, in arder to develop their enquiries and give the rigorous sen se that deserve it. R is equal to or more powerful than the software business. This article have been written to present an introduction and improving the investigarions qualir)' and studies of students at the university
Palabras clave
R, paquetes adicionales, GLP, resumen de datos.
Key Words
R, additiona! packages, LPG, fas t facts.
Introducción
Estas notas sobre R están escritas para que un estudiante y/o investigador pueda aplicar las herramientas
estadísticas necesarias para la justificación cienófica de su trabajo, se ha buscado explicar en una forma sencilla y práctica para llegar al estudiante, el usuario y/o investigador, de esta manera crear un ambiente de trabajo tranquilo pero seguro y riguroso.
El R está desplazando paquetes estadísticos de alto costo y con igualo superior potencia y uso de paquetes comerciales como SAS y SPSS entre otros, precisamente fue creado para competir en forma libre y/ o gratuita contra el sofrware comercial, ya investigadores y universidades prestigiosas de todo el mundo han estado implementándolo, reduciendo coStos y mejorando la calidad de sus investigaciones.
¿Qué es R?
R es software estadistico, creado por investigadores de todo el mundo, y que sigue desarrollándose actualmente para suplir las necesidades de educación, investigación y aplicación en industría y tecnología, (quien quiera aportar sus desarrollos puede hacerlo vistando la página: http://www.r-project.org).
En pocas palabras, los grandes atractivos de R son: La capacidad de combinar, sin problema alguno, análisis "preempaquetados" (ej ., una regresión logística) con análisis ad-hoc, específicos para una situación: capacidad de manipu.lar y modificar datos y funciones. Los gráficos de alta calidad (revelaciones de la visualización de datos y producción de gráficas para aróculos científicos) .
La comunidad de R es muy dinámica (ej ., crecimiento en número de paquetes), integrada por estadistico s de gran renombre (Chambers, Terney, Ripley, Bates, etc).
Podemos citar entre otras universidades y/e institutos de investigación:
Argentina:
Australia:
Austria:
Bélgica:
Brasil:
Canadá:
Chile:
Croacia:
CONICCT, Mendo"a.
University of Melbourne.
\X'irtscha frsu ruversitaet \X1icn.
K.U. Leuven Association .
Universidad Federal de Parana, O swaldo Cruz Foundation, Rí o de Janeiro, Universidad de Sao Paulo.
Simon Fraser University, Burnaby, Univcrsity of Toronto.
Pontificia Universidad Catolica de Chile, Santiago.
Rud jer Boskovic Institute.
República Checa: Biokonrakt, Broo.
Dinamarca:
Francia:
Alemania:
India:
Irlanda:
Italia:
Japón:
Korea:
México:
Holanda:
Neva Zelanda:
Noruega:
Polonia:
Portugal:
Sudáfrica:
España:
Escocia:
Suiza:
Taiwán:
Tailandia:
Inglaterra:
Estados Unidos:
dotsrc.org, Aalborg.
CTCT, Toulouse, D ept. of Biometry & Evol. Biology, Universiry of Lyon, Miroir-Francais, París.
Ccnter Venus, Universiry of i\1ainz, Rakanu.com, Nluenchen.
\Vest Bengal University of Technology, University of Pune.
HEAnet, Dublin.
Universita di Ferrara, Carr Mirror, Milano, Univers ity of Papua y Universita degli Studi di Palermo.
Univcrsity of Aizu, Un ivcrsity of Tokio y University of Tsukuba.
Seoul National University.
Universidad Autonoma del Estado de Morelos.
Nedmirror, Ámsterdam, D smirro r, Ámsterdam y Utrecht U niversity.
University of Auckland.
University o f Bergen
Skubiszewski Medical University, Lublin y Universiry of \Vroclaw.
Universidade do Porto.
Rhocles University.
Instituto Nacional de inves tigaciones, 'J\I[adrid.
Swerlish Universitl' Computer Nerwork, Upp sala.
ETH Zuerich, Universitaet Bern.
Provid ence Univcrsity, Taichung y National Taiwan University, Taipei.
Kapook.com, Bangkok.
University of Brisroll' Sourcekeg, Londres.
University of California, Berkeley, CA, Universitl' of California, Los Angeles, CA, University of California, Davis, CA, l owa State University, Ames, lA, Stathy, lnc., Ch icago, IL, Michigan Technological Universi ty, Houghton, lvIl, Washington University, Sto Louis, 1\·10, Universitl' of North Carolina, Chapel Hil!, NC , Hoobll' Classilieds, Statlib, Carnegie ~i(ellon University, Pittsburgh , PA, Ilasting Zeta, Dallas, TX y Fred H utchinson Cancer Research Center, Seattle, \Y/A.
Extensiones específicas a áreas nuevas (bioinformática, geoestadística, modelos gráficos, bioestadística). Un lenguaje orientado a objetos. Muy parecido a Matlab y Octave, y con sintaxis que recuerda a C/C++.
¿Cuánto cuesta R?
La filosofía r objetivos altruistas del proyecto GNU de R pueden leerse en: www.gnu.org. El objetivo principal es desarro llar un sistema completo y "libre" (donde "free is free as in freedom, not frce as in beer"). Algunos "GNU s famosos": Emacs, gcc, GNU /Linux, ete. R se distribuye con licencia GNU GPL o General Public License (ver http:/ / ww\V.gnu.org/licenses/gpl.html.) La GPL no pone ninguna restricción al uso de R. Restringe su distribución (ha de ser GPL). R se obtiene por O pesos en http://cran.r-project.org
Obtención e instalación de R
Depende del sistema operativo, pero todo se puede encontrar en http://cran.r-project.org/bin. Para bajar bajo Windows, siga los pasos: bajar ("download") el ejecutable desde http://cran.r-project.org/bin/ windows/base. (por ejemplo, http:/ / cran.r-project. org/bin/ windows/base/ r\V1 070.exe).
Ejecutar el archivo. Instalará el sis tema base y los paquetes recomendados.
Paquetes adicionales
R consta de un "sistema base" y de paquetes adicionales que extienden la funcionalidad. Distintos "tipos" de paquetes: Los clue forman parte del sistema base (ej . ctest).
Los que no son parte del sistema base, pero son recomendados (ej., survival, nlme). En GNU/ Linux)' \,(!indows ya forman parte de la distribución estándar.
Otros paquetes; ej., car, gregmisc, Jos paquetes de Bioconeluctor (como multtest, etc). Estos necesitamos seleccionarlos e in stalarlos individualmente. Más adelante veremOS como.
Documentación sobre R (1)
Los "manuales" ele R, incluidos en todas las instalaciones. Son:
AII illtrodllction to R. De lectura recomendada.
[f:7riting 11. extemio1lS.
I\. data illlpO/1/ exporto
Toe R /angllage dejinitioll.
R instal/ation and administra/ion.
Documentación sobre R (11)
Documentación general
A gl/ide Jor Ihe tllZlvi//ing S IIser, de P. Burns.
En: http://cran.r-project.org/ doe / contrib/ Burns-unwillin~S.pdf o http://www.burnsstat.com/ pages/ tutorials.htm!. Muy corto y sencillo.
R para principiantes, de E. Paradis. En: htlp:/ / cran.r-project.org/other-docs.html o
h ttp: // cran.r-project.org / doc / con trib / rdebuts_es.pdf.
E4Q. S Prograllll/Jing, de W Venables )' B. Ripley. (ver también http://\Vww.stats.ox.ae.uk/pub/ MASS3/Sprog.)
Documentación general:
Spoetry de P Burns.
En http://w\Vw.burns-stat.com/pages/spoet.ry. html.
Otros documentos en la página de J. Fox (http://cran.r-project.org/ doc/ contrib/FoxCompanion/ appendix.html), ej. sobre Frames, etc).
El site de Paul Johnson (http://lark.cc.ukans. edu/ ~pauJjohn/R/ statsRus. hlml).
Estadística:
introductor y .rtatistics mith R de P. Dalgaard.
An 11. and S-PLUS cOJllpanion to app/ied regresslon, de J. POx.
Modem app/ied slalú/ics /vilh S, 4th ed. de W Venables y B. RipIe)' (ver también http://w\V\V. stats.ox.ae.uk/pub/MASS4) .
810. / -----~
• • • • peA 5 vars
Princom (x=dala, cor=cor)
• ~ .. , • • •
e e. e
eatholiC; ---. Educalion
• .'. • • • •• +5 • D _ c=J=
Agricultura ,
(1-3) 60%
Clustering 4 groups Factor 1 (41 %) Factor 3 (19%)
28
80 60 40 20 O 2
Gráfico 1. Algunas salidas descriptivas de R.
Practica/ regressioll alld ANOT 'lI. Jlsing R de J. Faraway, en bttp:/ / cran .r-project.org/ other-docs.btml o http://www.stat.lsa.umicb. edu/ -farawa)' /book/.
Otros documentos en:
http:// cran.r-project.org/ other-docs.html.
S-PLUS 6.0 for Unix. Cllide /0 sla/ir/irs. Vo!. 1 &
11. En: http: //www.insigbtfu!.com/ suppon/ documentation .asp?DID=3.
Mixed-efferls models ill S "lid S-PLUS, de J. Pinheiro )' D. Bates. Regressioll 1II0del/illg stralegie.r, de F Harrel!.
Site con documentación sobre análisis para datos categóricos (site para libro de A Agresti Calegorica! dala analysir.).
http://ww\v.stat.ufl.edu/-aa/cda/cda.htm!.
Mode/illg sllnú'a/ dala: exlellding Ibe Cox 1II0del, de T. M. Therenau y P. M. Grambscb.
Documentos misceláneos en página de J. Fox.
(bttp: / / cran.r-project.org/ doc / contrib / FoxCompanion/ appendix. html) .
Obteniendo ayuda sobre R
Ayuda incluida con el programa (veremos más adelao te).
FAQ.
Site de Paul Johnson
http: // lark .cc.ukans.edu / - pauljohn / R/ statsRus. html.
R-help ver http://cran.r-project.org/search.html; y http://finzi.psych.upenn.edu/search.html permite hacer las búsquedas no sólo sobre las listas de email sino también sobre la documentación (incluyendo paquetes).
Instalación de paquetes adicionales
Depende del sistema operativo
Windows:
Desde la "GUr" o desde la interfaz de XEmacs.
D esde R, con " install .packagesO", como en GNU/ Linux (ver siguiente). GNU/Linux:
"R CMD TNSTALL paquete-x.y.z.tar.gz". Permite instalar aunque uno no sea root (especificando el directorio).
Más cómodo, desde R, "instaU.packagesO", "update. packagesO", etc. También permiten instalar no siendo root (especificar lib.Joc).
Inicio de una sesión de R
1. Instalación en Windows - Puede actualizarse con los mismos pasos.
Ingrese a un buscador: Google por ejemplo
Digitc R
Clik sobre The R Project for Statistical Computing
C1ick sobre: Download - eRAN
Para la versión en español: Chile -http:! / dirichlet. mat.puc.cl/ - Pontificia Universidad Católica de Chile, Santiago.
Click sobre: Windows
Click sobre: base
Click sobre: R-2.6 .1-win32 exe
Esperar el tiempo prudente, y seguir las instrucciones.
Hacer click sobre el icono Jlt, en su escritorio
2. Instalación de paquetes adicioanles en R
Dado el paso 1.9, click en packages
Click en illstall pack'{ges
Buscar Chile (dic)
Para tener todas las herramientas estadísticas disponibles, (instalar todos los paquetes) seleccione Packages, IlIsla/! packageJ, Chle o Spain (lIIadnd) todas y click en aceptar (este proceso puede durar una hora o más)
3. Uso de ventanas, para facilitar la aplicación de herramientas estadísticas y así mismo los análisis respectivos.
Click en Packages Load Package (Select one) Busque rCJllrd o RCJlJrd
Con los pasos anteriores se ha instalado el R en forma completa y tiene a su vez las ventanas que facilitaran su uso y aplicación.
Importación de archivos de cuaquier base de datos, en particular de Excel
1. Inicie R (Hacer dick sobre el icono ,!lII., en su escritorio) .
a. Clic en Packages. b. LDad Package (Select one). c. Busque rcmrd o Rc/llrd.
2. Datos.
2.1 Importar datos
2.2 [rom Exel.
2.3 Click correcto
2.4 Direccionarlo y abrirlo.
2.5 Seleccione la hoja donde se haUa su base de datos.
2.6 Click en editar clatos (puede supervisar la información y/o manipularla).
Una sesión elemental con estadística descriptiva
Partimos de la hipótesis de que usted ya creó su base de datos. En este caso, se creó una base de datos que llamé base R.xls.
Siguiendo los pasos de importación, la edición es la siguiente:
Gráfico 2. Base R.xls.
1. Resumen de datos
Click en Estadísticos
Click en Datos activos
_.,_t_,. ________________ ~~
Resultados obtenidos
Datos <- sqlQuery(ehanncl = 1, selcet * from [HojalS]) > summary(Datos)
111es ventas datos genero
abr :l Min. :1000 Min.: 2.00 Min. :1.000
ago:l 1st Qu.: l056 1st Qu.: 9.75 1st Qu.:l.000 die:l Median:l11:; Median:13.00 Median:1.000 ene:1 Mean :1 118 Mean :14.42 Mean :1.417
feb:l 3rd Qu. :11 78 3rd Qu.:20.75 3rd Qu.:2.000 ¡ul:l l\Iax. :1243 Max. :27.00 Max. :2.000 (Other):6
2. Resumen de datos
Cliek en Estadirtico.'
Click en ReslíllJelleJ JltllJléricos
Resultados obtenidos
> numSulllI11ary(Datosf,c("datos", "genero", "ventas")!, statistics=c("nlcan", "sd", "quantiles"))
mean sd 0% 25% 50% 75% 100% n
c1atos 14.4166677.9253143 2 9.750 13.000 20.750 27.00012
generó 1.4166670.5149287 1 1.000 1.000 2.000 2.000 12
ventas 1117.6741 4479.76217551000 1056.006 1115.1221177.5181243.37412
3. Resumen de datos
Ctiek en Frtodísticos
Cl iek en hC/l!leC)' dútli/mtiollS
Resultados obtenidos
> .Table <- table(DatosSmes)
> .Table # eounts for mes
abr ago die ene feb ¡ul ¡un mar may nov oct sep
1 11111111111
> 100*Table/sum(.Table) # pereentages for 111es
abr ago die ene feb ¡ul ¡un mar
8.333333 8.333333 8.333333 8.333333 8.333333 8.333333 8.333333 8.333333
m ay nov oct sep
8.333333 8.333333 8.333333 8.333333
> remove (.Table)
4. Resumen de datos
Cliek en Ertadístico.r
Cliek en '1 "abla de estadísticas
Resultados obtenidos
# Table for ventas:
> tapply(Datos$ventas, tist(mes=Datos$mes), mean, na.rm=TRUE)
mes
abr ago die ene feb ¡ul ¡un mar
1061.208 1148.6861243.3741000.0001020.000 1126.162 1104.081 1040.400
lnay nov oct sep
1082.432 1218.9941195.0931171.659
5. Resumen de datos
Cliek en J:'.stad¡,ticoJ
Cliek en ¡vlatriz de correlaciones
Resultados obtenidos
cor(Da tos [,c (" da tos " ,"gene ro" ,"ven tas ")], llse= " complete.obs")
datos genero ventas
datos 1.0000000 -0.1800671 0.2328515
genero -0.1800671 1.0000000 0.1625472
ventas 0.2328515 0.1625472 1.0000000
6. Resumen de datos
Cliek en Estadísticos
Cliek en Pmeba de hipótesis de corerlació!I
Resultados obtenidos
cor.test (Datos$datos, DatosSgenero, alternative = "two.sided", rnethod ="pearson")
Pearson's product-moment correlation
data: Datos$datos and Datos$genero
t = -0.5789, df = 10, p-value = 0.5755
alternative hypotl1esis: ttue corrclation is not equal ro O
95 percent confidence interval :
-0.6833507 0.4392243
sample estimates:
cor
-0.1 800671
7. Tablas de contingencia
Click en Estadísticos
Click en Tablas de contingencia
Resultados obtenidos
.Table <- xtabs(-mes+genero+nivel, data=Daros)
> .Table
, , nivel = alto
Referencias bibliográficas
género
mes h m
abr O O
ago O O
dic 1 O
ene O O feb O O
julO O
jun O O
marO O
mayO O
nov 01
oct 01
sep 1 O
Gráficas secuenciales
C1ick en C1'Iifica.r
Click en Gráficas secllenciales
.fe/ecciolle /a va/iable contilma
1. Arriaza Gómez y Col, (2008), Estadística básica con R y R-commander, UCA.
Infografia
2. http: //www.r-project.org/
3. http://dirichlet.mat.puc.c1/
4. ftp:/ / cran.r-project.org/ incoming
5. http://uce.uniovi.es/CURSOlCE/CURSOlCE.html#CURSO ICElil.html
6. http:/ / soludelibros.blogspot.com/ 2007 / 09 / lista-de-los-solucionarios.html
Top Related