Redes sociales

Post on 17-Jan-2017

1.372 views 0 download

Transcript of Redes sociales

MÓDULO 1.

Asignatura 3. Asignatura Técnicas de análisis de datos y explotación de datos

MASTER IN BIG DATA & BUSINESS INTELLIGENCE

TEMA. Análisis de Redes Sociales (Fernando Tricas García. Universidad de Zaragoza)

Analisis de redes sociales y analıtica web.

Fernando Tricas Garcıa

Departamento de Informatica e Ingenierıa de SistemasUniversidad de Zaragoza

http://webdiis.unizar.es/~ftricas/

http://campusvirtual.nextibs.com/

ftricas@unizar.es

Analisis de Redes Sociales

Fernando Tricas Garcıa

Departamento de Informatica e Ingenierıa de SistemasUniversidad de Zaragoza

http://webdiis.unizar.es/~ftricas/

http://campusvirtual.nextibs.com/

ftricas@unizar.es

Un ındice

I Redes sociales

I Comunidades

I Algunos ejemplos

I Procesos

I Resistencia y robustez

Grafos

Grafos

Entonces, ¿de que estamos hablando?

I Relaciones

I Consecuencias de estas relaciones

I Medidas

I ¿Que podemos aprender?

Grafos

Los arcos pueden tener direccion (una flecha →)

Grafos

0 1 0 1 1 1 11 0 0 1 0 0 01 0 0 1 1 0 10 1 0 1 1 0 00 0 1 1 1 0 01 0 0 1 0 0 10 0 0 1 0 0 0

Grafos

0 1 0 1 1 1 11 0 0 1 0 0 01 0 0 1 1 0 10 1 0 1 1 0 00 0 1 1 1 0 01 0 0 1 0 0 10 0 0 1 0 0 0

Con mas informacion

0 7 0 2 1 1 21 0 0 3 0 0 01 0 0 1 3 0 10 1 0 1 1 0 00 0 1 3 1 0 05 0 0 1 0 0 40 0 0 2 0 0 0

Con mas informacion

0 7 0 2 1 1 21 0 0 3 0 0 01 0 0 1 3 0 10 1 0 1 1 0 00 0 1 3 1 0 05 0 0 1 0 0 40 0 0 2 0 0 0

Algunas definiciones

I Grafo simple1. Como mucho un arco para cada par de nodos.2. No arcos de un vertice a sı mismo.

I Vertices adyacentes si estan unidos por un arco.

I Grado de un vertice Numero de arcos incidentes.

Tipos de grafos con ‘nombre’

I Grafos Eulerianos Se pueden dibujar sin levantar el lapiz delpapel y sin pasar dos veces por el mismo vertice.

I Grafos Hamiltonianos Se pueden dibujar sin levantar el lapizdel papel y sin pasar dos veces por el mismo arco.

Redes Sociales

I Investigar estructuras sociales mediante la teorıa de redes y degrafos.

I Estructuras en red caracterizadas mediante nodos (actores,personas, cosas,...) y arcos (relaciones o interacciones).

Ejemplos

Redes sociales en internet, amistad y/o relaciones, parentesco,propagacion de enfermedades, relaciones sexuales...

With a little help of my friends

http://www.flickr.com/photos/pietermorlion/2127296477/

http://www.flickr.com/photos/anaypacosancho/2357581936/

Relaciones en el ‘mundo real’. Con tecnologıa

http://arxiv.org/abs/physics/0610104

Structure and tie strengths in mobile communicationnetworks. Authors: J.-P. Onnela, J. Saramaki, J.Hyvonen, G. Szabo, D. Lazer, K. Kaski, J. Kertesz, A.-L.Barabasi

http://www.dailymotion.com/video/xm6vlq_

france-region-mobile_tech

http://www.paristechreview.com/2011/11/15/

voice-border-cellphones-redraw-maps/

¿Es Facebook el mundo real?

http://www.facebook.com/notes/facebook-engineering/

visualizing-friendships/469716398919

Blogs

2003. F. Tricas, JJ. Merelo, V.R. Ruız, “Do we live in a SmallWorld? Measuring the Spanish-speaking blogosphere”

Una red socialEn Twitter

Relaciones

http://www.journals.uchicago.edu/doi/abs/10.1086/386272

Peter S. Bearman, James Moody, Katherine Stovel,

“Chains of Affection: The Structure of Adolescent Romantic and Sexual Networks”

¿Como estudiarlas?

Modelos

Pero . . . ¿como se generan las redes?Modelos

I ‘Se pintan unos cuantos nodos, se anaden enlaces entre ellos y. . . ’(redes aleatorias)

1. Cada nodo puede enlazarse con cualquier otro con la mismaprobabilidad(el mundo no es ası casi nunca)

2. Enlazado preferencial (los ricos seran mas ricos)

Modelo Erdos-RenyI Todos los grafos con n vertices y M ejes tienen la misma

probabilidad G (n,M)I Cada arco se incluye con una cierta probabilidad G (n, p)

p=0.01Imagen: Wikipedia.

https://upload.wikimedia.org/wikipedia/commons/thumb/1/13/Erdos_generated_network-p0.01.jpg/

800px-Erdos_generated_network-p0.01.jpg

Modelo Erdos-RenyI Suele haber una componente grande que agrupa a la mayorıa

(cuando se alcanza un numero suficiente de enlaces)I Diametro pequeno (logN)

I Diametro: maxima distancia entre pares de nodos.I Relaciones adecuadas entre n y p definen ciertas propiedades

estructurales (existencia o no de componentes conexas,componentes especiales, fenomenos de aislamiento, conexion,...)

I Fenomenos de percolacion (componentes pequenos se vansumando a la mayor, como en el paso lento de fluidos a travesde materiales porosos).

I No muy adecuado para representar fenomenos sociales

Demohttps://www.cs.purdue.edu/homes/dgleich/demos/erdos_renyi/

Modelo Watts-StrogatzI Algunos lazos lejanos (Watts, Strogatz)

I Normalmente nos relacionamos con nuestros vecinos proximos(alto acoplamiento).

I Ademas, tenemos unos pocos lazos ‘lejanos’, que hacen reducirmucho el diametro de la red total.

Modelo Watts-StrogatzI Algunos lazos lejanos (Watts, Strogatz)

I Normalmente nos relacionamos con nuestros vecinos proximos(alto acoplamiento).

I Ademas, tenemos unos pocos lazos ‘lejanos’, que hacen reducirmucho el diametro de la red total.

Modelo Watts-Strogatz. Propiedades

Siempre que no haya demasiados arcos..

I Agrupamiento alto (disminuira despacio)

I El camino mas corto es, en media, pequeno (disminuirarapido)

Agrupamiento

Numero de arcos / Numero de posibles arcos

http://www.ladamic.com/netlearn/NetLogo4/SmallWorldWS.html

Modelo Barabasi-Albert

I Enlazado preferencial:I Se empieza con un conjunto de nodos conectados

aleatoriamenteI Los nuevos nodos se anaden de uno en uno. Cada nodo se

conecta a cierto numero de nodos con una probabilidadproporcional (preferencia) al numero de enlaces.

https://commons.wikimedia.org/wiki/File:Barabasi_Albert_model.gif

Palabras clave: notoriedad, antiguedad, ...

Modelo Barabasi-AlbertAlgunos defectos

I ‘Rich get Richer’I ¿Sin lımite?I ¿Siempre igual a lo largo del tiempo?

Modelo Barabasi-AlbertPropiedades

I Distribucion de gradosLibre de escala. Sigue la distribucion P(k) = k−α

Distribucion de grados en internet

Bitacoras

Suscriptores Yahoo! Amigos enLiveJournal

Clay Shirky. ‘Power Laws, Weblogs, and Inequality’. 2003http://www.shirky.com/writings/herecomeseverybody/powerlaw_weblog.html

¿Como?

I Hay unos pocos que tienen mucho

I Pero, a veces, si se juntan los que tienen menos, tienen mas

Pero estamos acostumbrados a ver el mundo ası . . .

¿Como?

I Hay unos pocos que tienen mucho

I Pero, a veces, si se juntan los que tienen menos, tienen mas

Pero estamos acostumbrados a ver el mundo ası . . .

¿Que indica la media aquı?

F. Tricas, Juan J. Merelo-Guervos. ‘The Spanish-speaking Blogosphere: towards

the powerlaw?’. Web Based Communities 2004

La cola larga

Aviso . . .A veces, muchos pocos valen mas que pocos muchos.¿De que depende?

I Exponente de la ley de potencias: y = C · x−α

I α < 1→: los primeros nodos acumulan solo un porcentajepequeno del valor

I En los demas casos, la cola larga existe, pero no tiene ‘peso’

Mas propiedades. Lobby index

I l-index: ‘The l -index or lobby index of a node x is the largestinteger k such that x has at least k neighbors with a degree ofat least k .’P(l(x) ≥ k) = k−α(α+1))

I Centralidad (el dilema del diplomatico, alguien tienecapacidad de influencia si tiene ‘buenos’ contactos)

I Buenos contactos → bien conectados.

h–index. Recordatorio

I The original Hirsch index is based on a richer model: author – paper andpaper – citing paper links. Let x be a randomly chosen author of thescientific community under scrutiny and n = n(x) is the number ofhis/her papers (either in general or within a defined perio d). Let y idenote the individual papers (where i = 1 , ...n ,) and c(yi ) their citationscore (in decreasing order), so that c(y1) ≥ c(y2) ≥ ... ≥ c(yn).h(x) = max{k : c(yk) ≥ k} .

P(h(x) ≥ k) = k−α(β+1))

Mas propiedades

I Longitud media de los caminoslnN/lnlnNCrece ‘aproximadamente’ de manera logarıtmica.

I Asortatividad (preferencia de los nodos por unirse a otros degrado similar). Correlaciones entre nodos de grado similar.

I Coeficiente de agrupamiento (clustering) alto. Tendencia aagruparse los nodos con sus vecinos (mayor que en redesaleatorias).

I Normalmente, mas alto de lo que se podrıa esperar(empaquetamiento, comunidades, . . . )

Medidas interesantes

Hemos hablado de la distancia y de coeficiente de agrupamiento(‘clustering’)Tambien son interesantes:

I Centralidad (‘betweenness’, inevitabilidad)Es la proporcion de geodesicas (caminos mas cortos) quepasan por un nodo

I En personas, a veces se asocia con popularidadI En transportes, con flujo e inevitabilidad

I Centralizacion Diferencia de centralidad entre el punto mascentral y el resto (ratio of the actual sum of differences to themaximum possible sum of differences).

I Centralidad de vector propio (‘eigenvector centrality’) de lamatriz de incidencia del grafo, relacionado con el PageRank

Pero . . . ¿Que necesito?

I Estar cerca de la ‘mayorıa’ de la red

I Cercanıa (‘closeness centrality’), distancia media de un nodoa todos los demas de la red.

Hay otras . . .

I ‘Degree centrality’ (el que tiene mas cercanos)

Pero . . . ¿Que necesito?

I Estar cerca de la ‘mayorıa’ de la red

I Cercanıa (‘closeness centrality’), distancia media de un nodoa todos los demas de la red.

Hay otras . . .

I ‘Degree centrality’ (el que tiene mas cercanos)

Hay otras formas de verlo

En grafos dirigidos:

I Hubs, de los que salen muchas conexiones‘todo lo que debes conocer’

I Autoridades, que reciben muchas conexiones‘¿Donde va Vicente . . . ?’

Naturalmente, pueden coincidir, y entonces hablamos deconectores (influyentes, influenciadores, . . . )

EjemplosTransporte

EjemplosTransporte

Mas ejemplos

Las enfermedades

No todas las redes se distribuyen siguiendo leyes depotencia

I Comunicacion recıproca y frecuente

I Red electrica

I Directores de empresas

Deteccion de comunidades

I Si dos nodos interactuan, probablemente es porque tienenalgun tipo de relacion

I Las relaciones no siempre son transitivas, pero ayudan aentender mejor lo que vemos (modas, tendencias, estados deopinion, . . . ).

I Tambien nos pueden dar pistas de por donde ir.

¿Que es una comunidad?

I Solo los recursos tecnicos no hacen una comunidad.I Presencia.I Organizacion de actividades.I Organizacion de los contenidos que se produzcan.I Organizacion interna.I Flexibilidad.

En todo caso . . . ¿que es una comunidad?

I Comunidad de vecinos

I Comunidad de hispanohablantes

I Comunidad de los miembros del curso

¿Y en internet?

Lo mismo, claro

Y ademas. . .

En todo caso . . . ¿que es una comunidad?

I Comunidad de vecinos

I Comunidad de hispanohablantes

I Comunidad de los miembros del curso

¿Y en internet?

Lo mismo, claro

Y ademas. . .

En todo caso . . . ¿que es una comunidad?

I Comunidad de vecinos

I Comunidad de hispanohablantes

I Comunidad de los miembros del curso

¿Y en internet?

Lo mismo, claro

Y ademas. . .

En todo caso . . . ¿que es una comunidad?

I Comunidad de vecinos

I Comunidad de hispanohablantes

I Comunidad de los miembros del curso

¿Y en internet?

Lo mismo, claro

Y ademas. . .

Comunidades. Algunas formas de verlo

I Relaciones mutuas (todos se conocen)

I Abundancia de relaciones (al menos hay relacion con un ciertonumero de miembros)

I Cercanıa o alcanzabilidad de un subgrupo (distancia de comomucho ...)

I Abundancia relativa de relaciones

I Redes de afiliacion (relacionados porque pertenecen a...)

Relaciones mutuas. Cliques

I cada miembro esta relacionado con todos los demasI Puede haber solapamiento

http://www.ladamic.com/netlearn/nw/Cliques.html

I No robustosI Poco interesantes

I ¿Todos conectados?I Centro–periferia

I Pueden ser mas interesantes los solapamientos que los cliquesen sı mismos

Relaciones mutuas. Cliques

I cada miembro esta relacionado con todos los demasI Puede haber solapamiento

http://www.ladamic.com/netlearn/nw/Cliques.html

I No robustosI Poco interesantes

I ¿Todos conectados?I Centro–periferia

I Pueden ser mas interesantes los solapamientos que los cliquesen sı mismos

Abundancia de relaciones. k-cores

I Cada nodo esta relacionado con al menos otros k

I Aun ası puede ser restrictivo

Cercanıa. n-cliques

I Maxima distancia entre nodos de nI Problemas

I Diametro mayor que nI el n-clique puede estar desconectado (enlaces externos)

I Remedio: n-club. subgrafo maximo de diametro n

Abundancia relativa. p-cliques

I Grupos donde al menos una proporcion p (0..1) de vecinosestan en el grupo.

Cohesion

I Componentes conexasI Mantener solo algunos enlaces antes de buscar componentes

conexasI Relaciones recıprocasI Peso de la relacion

Comunidades implıcitas

Principalmente basadas en enlaces

I Cliques grupos de nodos que se enlazan mas entre si que conel resto

I Comunidades de Newman–Girvan Definidas por lo que lassepara (nodos de centralidad alta).

I Co–citas Si tu citas a X y el cita a X, probablemente los dosquerais conoceros

Ejemplo. Comunidades de alimentos

Chun-Yuen Teng, Yu-Ru Lin, Lada A. Adamic.‘Recipe recommendation using ingredient networks’

Ejemplo. Comunidades de alimentos

I Dos comunidades grandes (dulce/salado)Y una tercera de combinados (mixed–drinks).

I Se pueden encontrar comunidades de ingredientes de‘sustitucion’

I Pueden predecir las calificaciones de las recetas

I Preferencias locales (en este caso de EEUU)

Ejemplo. Red en LinkedInLinkedIn inMap

http://socilab.com/

El experimento de Stanley Milgram

Podemos alcanzar a cualquier persona en el mundomediante contactos cercanos. En USA, en 1967, laseparacion era de seis.

El experimento de Milgram

Las cartasEnviadas por personas elegidas aleatoriamente, residentes enWichita y Omaha.La carta contenıa un resumen del estudio, una foto y el nombre yla direccion de la persona a la que iba destinada.

1. Anada su nombre a la lista de abajo

2. Separe una postal. Rellenela y enviela a la Universidad deHarvard

3. Si conoce a la persona (personalmente) envıele la postal.

4. Si no la conoce personalmente, envıesela a algun conocidopersonal suyo que ud. crea que puede hacer que le llegue.

Los resultados

Solo llegaron el 29 % de las cartas enviadas (42 de 169)

De las que llegaron: la mediana de personas intermedias era 5.5 (lamedia 6.5)

¿En internet?

En la web se hicieron estudios en el 1999, llegando a la conclusionde que entre cualquier par de documentos en la red habrıa undiametro de 18.59 (19 grados de separacion).

Albert, Barabasi.

Los resultados

Solo llegaron el 29 % de las cartas enviadas (42 de 169)

De las que llegaron: la mediana de personas intermedias era 5.5 (lamedia 6.5)

¿En internet?

En la web se hicieron estudios en el 1999, llegando a la conclusionde que entre cualquier par de documentos en la red habrıa undiametro de 18.59 (19 grados de separacion).

Albert, Barabasi.

Bastante popularidad

El numero de Bacon refleja distancia entreactores, basados en pelıculas en las que amboshan participado

Kevin Bacon Number # of People

0 11 19132 1628193 4601134 1104195 79946 7777 788 14

Mas estrellas que en el cielo

I Alfredo Landa, 3

I Antonio Banderas, 2

I Penelope Cruz, 2

1. Alfredo Landa was in Around the Worldin Eighty Days (1956) with Larry Duran

2. Larry Duran was in Kidnapping of thePresident, The (1980) with MauryChaykin

3. Maury Chaykin was in Where the TruthLies (2005) with Kevin Bacon

En todo caso . . . (April 2015)

I Hay 410 actores mejor conectados que Kevin BaconI La media del numero de Bacon es de 3.009 (2.946 en 2006)I El actor mejor conectado es Eric Roberts (2.83285), el

segundo Michael Madsen (2.85125), el tercero es HarveyKeitel (2.85789)

Mas estrellas que en el cielo

I Alfredo Landa, 3

I Antonio Banderas, 2

I Penelope Cruz, 2

1. Alfredo Landa was in Around the Worldin Eighty Days (1956) with Larry Duran

2. Larry Duran was in Kidnapping of thePresident, The (1980) with MauryChaykin

3. Maury Chaykin was in Where the TruthLies (2005) with Kevin Bacon

En todo caso . . . (April 2015)

I Hay 410 actores mejor conectados que Kevin BaconI La media del numero de Bacon es de 3.009 (2.946 en 2006)I El actor mejor conectado es Eric Roberts (2.83285), el

segundo Michael Madsen (2.85125), el tercero es HarveyKeitel (2.85789)

Mas estrellas que en el cielo

I Alfredo Landa, 3

I Antonio Banderas, 2

I Penelope Cruz, 2

1. Alfredo Landa was in Around the Worldin Eighty Days (1956) with Larry Duran

2. Larry Duran was in Kidnapping of thePresident, The (1980) with MauryChaykin

3. Maury Chaykin was in Where the TruthLies (2005) with Kevin Bacon

En todo caso . . . (April 2015)

I Hay 410 actores mejor conectados que Kevin BaconI La media del numero de Bacon es de 3.009 (2.946 en 2006)I El actor mejor conectado es Eric Roberts (2.83285), el

segundo Michael Madsen (2.85125), el tercero es HarveyKeitel (2.85789)

Mas estrellas que en el cielo

I Alfredo Landa, 3

I Antonio Banderas, 2

I Penelope Cruz, 2

1. Alfredo Landa was in Around the Worldin Eighty Days (1956) with Larry Duran

2. Larry Duran was in Kidnapping of thePresident, The (1980) with MauryChaykin

3. Maury Chaykin was in Where the TruthLies (2005) with Kevin Bacon

En todo caso . . . (April 2015)

I Hay 410 actores mejor conectados que Kevin BaconI La media del numero de Bacon es de 3.009 (2.946 en 2006)I El actor mejor conectado es Eric Roberts (2.83285), el

segundo Michael Madsen (2.85125), el tercero es HarveyKeitel (2.85789)

¿Que significan estas medidasen los tiempos de las redes

sociales?

El mundo es un panuelo (Small World)

I El experimento de MilgramI Estructura local

I Coeficiente de agrupamientoI Motifs (tamano k)

I ModelosI Watts-Strogatz (agrupamiento y caminos cortos)

http:

//www.ladamic.com/netlearn/NetLogo4/SmallWorldWS.html

I Kleinberg (basadas en proximidad geografica)I ...

Navegabilidad y encontrabilidad

Experimento Small World en Columbia.Cadenas exitosas utilizaban mucho mas:

I Lazos debiles (Granovetter)

I Relaciones profesionales (34 % vs 13 %)

I Relaciones originadas en el trabajo/estudios

I Trabajo del objetivo (65 % vs 40 %)

Y evitaban:

I Hubs (8 % vs 1 %)

I Familia/amistades (60 % vs 83 %)

Estrategia; geografıa → trabajo

Procesos en redes

I DifusionErdos-Renyi:http://www.ladamic.com/netlearn/NetLogo501/ERDiffusion.html

Watts-Strogatz:http://www.ladamic.com/netlearn/NetLogo4/

SmallWorldDiffusionSIS.html

Barabasi-Albert:http://www.ladamic.com/netlearn/NetLogo501/BADiffusion.html

Procesos en redes

I Contagio (umbrales?)Simple vs Complejo (difusion con umbrales, creacion degrupos resistentes, diferentes zonas tienen diferentesopininones)http://www.ladamic.com/netlearn/NetLogo4/

DiffusionCompetition.html

I Coordinacion

I Innovacion

I Resolucion de problemas

Resistencia y robustez

I Quitar nodos o arcos, ¿que sucede?

I Arcos no es un gran problemaI Nodos aleatorios, no es un problema (muchos humildes).I Puede ser un problema si quitamos nodos con alto grado

(eliminamos muchos arcos)

Ataques

I Problema cuando nos dirigimos a los hubs

I La asortatividad es importante (topologıa)

I ¿Que sucede con un nodo cuando falla? (red electrica vscriminales)

La vista es la que trabaja

I Existen programas para ayudarnos:

I Pajek (Windows) http://pajek.imfm.si/I Netdraw (Windows)

https://sites.google.com/site/netdrawsoftware/homeI Visone (Java) http://www.visone.info/I SocNetV (Linux) http://socnetv.sourceforge.net/

I Gephi http://gephi.github.io/

ReferencesI Laszlo Barabasi. ‘Linked’

http://barabasilab.com/LinkedBook/

I Lada Adamichttp://www.ladamic.com/