HERRAMIENTAS Y TÉCNICAS PARA LA APLICACIÓN Y EL ANÁLISIS ... · HERRAMIENTAS DE CAPTURA • Si...

57
HERRAMIENTAS Y TÉCNICAS PARA LA APLICACIÓN Y EL ANÁLISIS DE ENCUESTAS ELISA SCHAEFFER

Transcript of HERRAMIENTAS Y TÉCNICAS PARA LA APLICACIÓN Y EL ANÁLISIS ... · HERRAMIENTAS DE CAPTURA • Si...

HERRAMIENTAS Y TÉCNICAS PARA LA APLICACIÓN Y EL ANÁLISIS DE ENCUESTAS

ELISA SCHAEFFER

Soy computóloga. Mi doctorado es en la teoría de la computación (major) y matemáticas discretas (minor). En la maestría estudié algoritmos para problemas difíciles (major) y investigación de usabilidad (minor).

Sin embargo, no existe una facultad de ciencias computacionales y no se ve probable ni en realidad posible que llegue a formarse próximamente, por lo cual me ubico con los ingenieros.

CON QUÉ LES QUITO TIEMPO HOY

• Con qué se puede aplicar encuestas. • Cómo se puede analizar y representar

información obtenida de encuestas. • Categórica • Numérica. • Geográfica. • Textual.

HERRAMIENTAS DE CAPTURA

• Si tienen una compu a la mano, conviene utilizar Google Forms o alguna cosa similar

• Ustedes definen las preguntas (seleccionando el tipo y proporcionando los textos relacionados).

• La gente contesta en un navegador web (de manera presencial o a distancia)

• Descargan las respuestas y hasta análisis básica de las mismas en algo como Excel

• Hay múltiples opciones gratuitas en línea para esto; suelen ser más fáciles de usar que Word

https://docs.google.com/forms

ANÁLISIS DE RESULTADOS

Los pedazos en italiano son resultado de que mi cuenta de Google está configurado para utilizar el italiano en el interfaz (lo aprovecho para practicar).

• Aplicaciones para tablets (tipo iPad)

• Checar primero en AppStore si lo que quieren ya existe o gratis o barato

• Si no, es relativamente rápido desarrollar un App propio para responder a encuestas y/o capturar entrevistas (hasta pueden grabar sonido mientras toman notas)

• Es un tema de tesis maravilloso para un chavo de licenciatura en un área relacionado con software

HERRAMIENTAS DE CAPTURA

QuickTapSurvey para iPhone & iPad, TabbleDabble, Inc.

• Para seguir usando papelitos

• Se diseñan los formularios de tal manera que sean fáciles de escanear y procesar por automático

• Esto ya no es así de complicado como solía ser; hasta cámaras de smartphone sirven más o menos bien como escáners

• La interpretación del escaneo se logra con técnicas de OCR y otros trucos de visión computacional (hasta Google Drive hace esto hasta cierto grado si le suben documentos escaneados)

• Si no hallan un software gratis y no completan para uno comercial, encarguen el desarrollo como tema de tesis

HERRAMIENTAS DE CAPTURAhttp://sdaps.org/

The Author

The Title

This questionnaire is automatically read by a computer program. Please use a pen for filling in your answers.Check: You can check any number of boxes in selection questions.Uncheck to correct: For questions with a range (1–5) choose the answer the mark that fits best.

Some information here. Nothing special, just adds a line above/below.

1 Range Questions

1.1 How often do you use SDAPS?

never daily

1.2 What do you think about the following aspects of LATEX?

equation syntax bad goodrendered equations ugly beautifulease of use hard easy

2 Choice Questions

We can also give users a question with predefined choices. Such a list of choices is typesetted using a tabularxenvironment with equally sized columns. Items can span multiple columns.

2.1 Which of the following Open Source Optical Mark Recognition software packages have you heard about?

SDAPS Auto Multiple Choice

QueXF Other:

2.2 Which software do you prefere for the following tasks?

LATEX LibreOffice Microsoft Word otherwriting letterscreating tablestypesetting equations

3 Freeform text fields

SDAPS will extract freeform textfields such as below as images and put these into reports. SDAPS knowswhether there is writing in the box and how large it is.

3.1 Do you have any comments?

The Author

The Title

4 Tricks and Features

SDAPS can also use circular checkboxes if you prefere. Or you can use the multicol package to create multi-column layouts as is done below.

4.1 This is a range question

lower bound upper bound

As you can see, this is a multi-column layout. Themarkgroup and choicegroup environments may be abit tight in this mode.

Lets put some more questions here, just because wecan.

4.2 A choice question!

first choicesecond choicethird choice

other:

4.3 Another range question

lower bound upper boundThis text is closer to the question compared to ques-tion 4.1 because it is not starting a new paragraph.

4.4 And a freeform text field

That’s it for the multi-column part; it was fun while it lasted!

There are some more special commands. You can draw crossed checkboxes, filled or filled and crossedones. Finally there is also the plain checkbox using \checkbox*.

4.5 And textboxes with a fixed height. This one is exactly 2 cm high.

2829233940 0002

Libera a los encuestados de las escalas numéricas latosas

¿CÓMO ANALIZO ALGO ASÍ?

• Técnicas de visión computacional pueden calificar hojas de escaneadas de este tipo.

• O que de plano les prestes una tablet a los que encuestas para contestar, en cual caso por lo general la app lo hace por si sólo.

• U obligas a estudiantes que midan con una regla y capturen la posición para calcular la proporción.

• Been there, done that. No quejan mucho y sale rápido.

ANÁLISIS Y VISUALIZACIÓN

• Yo en primer lugar hago gráficas para mi misma para interpretar los resultados.

• Como un efecto secundario salen gráficas para mostrar a los demás y meter en las publicaciones.

• Mi herramienta favorita para jugar con datos se llama R (es como SPSS pero legalmente gratis), aunque también uso mucho Gnuplot y Python.

• Hay muchos totorales buenos en línea.

LIDIANDO CON CATEGORIAS

< 26

26−30

31−35

36−40

41−45

46−50

51−5556−6061−65

Pay (cuando no hay orden)

0

50

100

150

200

250

300

350

400

450

0 20 40 60 80 100

Nunca

A diario

¿Con qué frecuencia haces cosa X?

HISTOGRAMASCuando sí existe un orden,

LIDIANDO CON NÚMEROS

GRÁFICAS DE DISPERSIÓNaxis represents the age of the husband and the y-axis the age of the wife.

30

35

40

45

50

55

60

65

70

75

80

85

30 35 40 45 50 55 60 65 70 75 80

Wife

's'Ag

e

Husband's'Age

Figure 2. Scatter plot showing wife’s age as a function of husband’s age.Figura 2, Capítulo 4.

David M. Lane, editor. Introduction to Statistics. Edición electrónica, 695 páginas, Rice University, Houston, TX, EE.UU., 2007.

GRÁFICAS DE DISPERSIÓN DE 2+ FACTORES

12

Me gustaría seguir trabajando en mi área de trabajo

0 20 40 60 80 100

Me gusta mi trabajo

0

20

40

60

80

100

Teng

o la

s co

mpe

tenc

ias

que

el p

uest

o re

quie

re

0

20

40

60

80

100

Dadas m

is funciones es justa la remuneración económ

ica que recibo

Figura 0.11: Cuatro preguntas con algunas dependencias evidentes entre ellos; los puntos se concentran mayormente a la derecha, con tendencia hacia arriba,siendo los a la derecha por lo general los más grandes. Los amarillos y rojos están por lo general más arriba que los negros y los morados, con algunas excepciones.

HISTOGRAMAS

0

1

2

3

4

1 2 3 4 5 6VALORES MEDIDOS

FREC

UEN

CIA

S

BIGOTE

Eje que indica crecimiento de valores

Mín

imo M

áximo

CAJACuar

til d

e 25

%Cuartil de 75 %

MED

IAN

A

PROM

EDIO

Ano

mal

ía Anom

alía

Anom

alía

AGRUPANDO RESPUESTAS

4

0

100

200

300

400

500

Menor o igual a 50 Mayor a 50

Cant

idad

de

resp

uest

as

Porcentaje indicado en la respuesta

Dos niveles

0

100

200

300

400

0-25 26-50 51-75 76-100

Porcentaje indicado en la respuesta

Cuatro niveles

0 50

100 150 200 250 300 350

0-12.5 37.5-50 50-62.5 62.5-75 75-87.5 87.25-100

Cant

idad

de

resp

uest

as

Porcentaje indicado en la respuesta

Ocho niveles

Figura 0.2: Tres histogramas obtenidas para las respuestas a la primera pregunta, usando tres niveles de discretiza-ción.

0

0.2

0.4

0.6

0.8

1

1 2 3 4 5 6 7 8 9 10 11

Valo

res

de la

s re

spue

stas

Pregunta

Diagramas caja-bigote para preguntas 1-11 de la encuesta

Figura 0.3: Diagramas de caja-bigote que permiten ver la variabilidad en las respuestas de múltiples preguntas deforma simultánea. En esta �gura se observa que preguntas 5–7 y 10 recibieron respuestas más dispersas, mientrasla mayoría estuvo de acuerdo con las demás.

Casi nunca basta con reportar el promedio, y de nada ayuda incluir una desviación estándar si no hay certeza

que siguiera una distribución normal.

DISTRIBUCIONES MULTIMODALES

http://gnuplot.sourceforge.net/demo_cvs/violinplot.html

GRÁFICAS DE TELARAÑA CIRCULARES

P2P3

P5

P6

P7

P8

P9

P10

P11

Legibles desde cinco hasta aprox. una docena de ejes.

10

0 100 200 300 400

210

211

212

213

214

215

216

217

218

219

220

221

222

223

224

225

226

227

228

229

230

231

232

233

234

235

236

237

238

239

240

241

242

243

244

245

246

247

248

249

250

251

252

253

254

255

256

257

258

259

260

261

262

263

264

265

266

267

268

> 0> 20> 40> 60> 80

Figura 0.9: El nivel de acuerdo para las preguntas 210–268, agrupado en cinco niveles (porcentajes de 0–20, 20–40, 40–60, 60–80 y 80–100). Cuando la zonacoloreada baja, la cantidad total de respuestas bajó. Cuando la zona azul disminuye su proporción, la pregunta obtuvo menos respuestas de alto nivel deacuerdo que las preguntas que le preceden y siguen.El nivel de acuerdo (de cero a cien) para más de 50 preguntas.

> 0> 20> 40> 60> 80

247 248 249 250 251 252

GRÁFICAS DE TELARAÑA LINEALES

LIDIANDO CON UBICACIONES

A colorear mapas, como en primaria…

GIMP - GNU Image Manipulation Program Software libre multiplataforma disponible en línea en http://www.gimp.org/

ASIGNACIÓN DE COLORES

• Elegir un rango fácil de interpretar

• Verde, azul o blanco suele indicar bueno / bajo

• Rojo o negro suele indicar malo /alto

• Recurrir a una escala logarítmica cuando una escala lineal no produce diferencias visibles

• Necesario cuando hay órdenes de magnitud de diferencias entre zonas

ANIMACIONES DE SERIES DE TIEMPO

http://www.imagemagick.org/

LIDIANDO CON TEXTOS

LIMPIEZA

• Corrección automatizada de ortografía

• Conversión a formas base de las palabras

• http://stemmer-es.sourceforge.net

• Posiblemente eliminación de sinónimos

• Cálculo de frecuencias / co-ocurrencias

• Visualización

ANÁLISIS DE FRECUENCIA

Versión entregada a Patricia Cerda para la edición del libro, elaborada el 23 de febrero del 2011

Espinosa & Schaeffer: Análisis y visualización computacional de textos de suicidas

Figura 1. Matriz de frecuencias de palabras; un extracto de las 50 palabras más frecuentes del conjunto de cartas analizadas.

NUBES DE CONCEPTOS

CIUDAD

“CAMPO”AGRUPADOS

http://tagcrowd.com/

https://tagul.com/

HERRAMIENTAS DE ANÁLISIS Y VISUALIZACIÓN

R PROJECT• Es como SPSS, pero gratis

• Muy útil y versátil, ampliamente documentado

• Funciona en Windows, Linux & Mac OS sin problemas

• Disponible en línea de forma gratuita

• http://www.r-project.org/

• Tengo un curso en línea de uso libre en español para aprender lo básico sobre probabilidad y estadística usando R

• Para ustedes, sus estudiantes, conocidos, etc.

• http://elisa.dyndns-web.com/teaching/prob/prob.html

GNUPLOT, MI FAVORITO

HTTP://WWW.GNUPLOT.INFO/

Las gráficas son de http://gnuplot.sourceforge.net/demo_5.0/

http

://gn

uplo

t.sou

rcef

orge

.net

/dem

o_5.

0/

PYTHON

• Si llegan al punto que R y Gnuplot ya no hacen todo lo que quieren hacer (a mí a veces me pasa, pero yo soy rara), echen un vistazo a Python.

• Es parecido a R, pero de propósito más general (R es una “megacalculadora programable”, mientras Python cuenta como “programación de verdad”).

https://www.python.org/

“Se ven lindos, pero no entendí nada ¿ahora qué?”

• Platiquen con colegas investigadores fuera de su área.

• Lo que creen que sería complicado y tardado les puede resultar rápido y sencillo.

• Si les incluyen como coautores, dudo que intenten cobrarles dinero por procesar, analizar o visualizar datos.

• Capaz que hasta les desarrollen herramientas específicas para que le muevan por su cuenta.

Todo esto les saldrá muy fácil con herramientas completamente gratuitas.

Si no hallan colegas de buena onda, por mínimo consíganse estudiantes de computación

✓ como becarios en proyectos financiados

✓ servicio social / prácticas profesionales

✓ trabajos de tesis de licenciatura y posgrado

LECTURA SUGERIDA PARA ARRANCAR

Las encuestas de los ejemplos utilizados en la ponencia son de los trabajos de mis colegas y amigas

Daniela Escobedo Belloc (la de seminaristas) & Patrica Liliana Cerda Pérez (la de policias).

Algunas de las gráficas en la presentación fueron producidas por Juan Carlos Espinosa Ceniceros,

Ingeniero en Tecnología de Software, como mi coautor cuando estaba realizando sus estudios de licenciatura.

AGRADECIMIENTOS

(para cuando todo falla y ya urge)

[email protected]

elisa.dyndns-web.com