¿Cómo trabajar en el grafo web?

28
¿Cómo trabajar en el grafo web ¿Cómo trabajar en el grafo web José Luis Alonso Berroca José Luis Alonso Berroca http://reina.usal.es Dpto. de Informática y Automática.

description

http://reina.usal.es. REcuperación de la INformación Avanzada. ¿Cómo trabajar en el grafo web?. José Luis Alonso Berrocal. Dpto. de Informática y Automática. Estructura de enlaces en el web. Recorrido del grafo web. Básicamente lo podemos recorrer:. Recorrido en anchura (breadth-first). - PowerPoint PPT Presentation

Transcript of ¿Cómo trabajar en el grafo web?

Page 1: ¿Cómo trabajar en el grafo web?

¿Cómo trabajar en el grafo web?¿Cómo trabajar en el grafo web?

José Luis Alonso BerrocalJosé Luis Alonso Berrocal

http://reina.usal.es

Dpto. de Informática y Automática.

Page 2: ¿Cómo trabajar en el grafo web?

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

2 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Estructura de enlaces en el web

Page 3: ¿Cómo trabajar en el grafo web?

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

3 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Recorrido del grafo web.

Básicamente lo podemos recorrer:

Recorrido en anchura (breadth-first).

Recorrido en profundidad (depth-first).

El mejor posible (best-first).

Page 4: ¿Cómo trabajar en el grafo web?

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

4 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Recorrido del grafo (II)

Recorrido en anchura: 1-2-3-4-7-5-8-9-10-6

Recorrido en profundidad: 1-2-4-5-6-3-7-8-9-10

Page 5: ¿Cómo trabajar en el grafo web?

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

5 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Procedimiento básico

WEB

Urls a seguirUrls visitados

Base de datosFicheros ascii

URL inicialURL inicial

Se carga la páginaSe carga la página

Se extraen los URL

Se extraen los URL

Almacenar lainformación

Almacenar lainformación

Seguir el siguienteURL

Seguir el siguienteURLOperaciones de normalización:

- convertir URL a minúscula - Eliminar anclas - Emplear igual codificación - Heurística para pag. Defecto - Resolver URL relativo

Page 6: ¿Cómo trabajar en el grafo web?

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

6 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Recorrido avanzado

Page 7: ¿Cómo trabajar en el grafo web?

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

7 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Recorrido avanzado (II)

Page 8: ¿Cómo trabajar en el grafo web?

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

8 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

WebBotHarvest-NGWebvac SpiderSocSciBot 3 y SocSciBot_ToolsSacarinoBot y EloisaBot Tools

Web crawlers para captura de datos

Page 9: ¿Cómo trabajar en el grafo web?

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

9 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Sacarino (Sonda AutomatiCA para la Recuperación de INformaciÓn en el web)

Page 10: ¿Cómo trabajar en el grafo web?

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

10 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Sacarino (Clasificación)

Page 11: ¿Cómo trabajar en el grafo web?

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

11 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Sacarino (Clasificación II)

Page 12: ¿Cómo trabajar en el grafo web?

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

12 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Sacarino (Clasificación III)

Page 13: ¿Cómo trabajar en el grafo web?

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

13 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Creación de matrices

0100000000

0000010100

0000001000

1110001010

1010011000

0000100000

0001010000

0001000001

0000001100

0000000110

10

9

8

7

6

5

4

32

1

10987654321

Page 14: ¿Cómo trabajar en el grafo web?

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

14 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Operaciones con matrices

Page 15: ¿Cómo trabajar en el grafo web?

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

15 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Matriz de distancia.

Page 16: ¿Cómo trabajar en el grafo web?

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

16 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Se pueden resumir los datos de la siguiente forma:

Resumen de los datos

Page 17: ¿Cómo trabajar en el grafo web?

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

17 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Tratamiento de los datos

Page 18: ¿Cómo trabajar en el grafo web?

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

18 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Herramienta de cálculo

Page 19: ¿Cómo trabajar en el grafo web?

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

19 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Matriz sparse

0100000000

0000010100

0000001000

1110001010

1010011000

0000100000

0001010000

0001000001

0000001100

0000000110

10

9

8

7

6

5

4

32

1

10987654321

Page 20: ¿Cómo trabajar en el grafo web?

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

20 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

PageRank

jBj j

i xN

xi

1

importancia pagina i

paginas j que enlazan a pagina i

Nº enlaces salientes desde página j

importancia pagina j

Page 21: ¿Cómo trabajar en el grafo web?

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

21 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Estructura de enlaces en el web

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

0 1/20 0 0 0 00 0 0

1/2 00 0 0 0 01/5 0 0

1/2 01/2 0 0 0 00 1/2 0

0 01/2 0 0 1/4 11/5 0 0

1 32 4 5 6 87 9 10

0 00 1/2 0 1/4 00 1/2 0

0 00 0 1 0 00 0 0

0 1/20 1/2 0 0 00 0 0

0 00 0 0 1/4 01/5 0 0

0 00 0 0 0 01/5 0 1

0 00 0 0 1/4 01/5 0 0

1

2

3

4

5

6

7

8

9

10

Page 22: ¿Cómo trabajar en el grafo web?

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

22 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Resultado final

---- Iteración 1 ----

0.0500.0700.1500.1950.1250.1000.1000.0450.1200.045

NORM es 1.000000

Residual es 0.380000

---- Iteratión 3 ----

0.0600.0720.0930.1330.1260.1830.1230.0660.0800.066

NORM es 1.000000

Residual es 0.297500

---- Iteración 10 ----

0.0460.0480.0920.1530.1610.1600.1210.0660.0880.066

NORM es 1.000000

Residual es 0.017855

---- Iteración 20 ----

0.0450.0470.0910.1530.1620.1610.1220.0650.0890.065

NORM es 1.000000

Residual es 0.000896

El “eigen vector” principal (contiene los valores del PageRank)

Page 23: ¿Cómo trabajar en el grafo web?

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

23 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Pajek

Page 24: ¿Cómo trabajar en el grafo web?

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

24 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Conversión a formato Pajek

Page 25: ¿Cómo trabajar en el grafo web?

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

25 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Representación del grafo

Page 26: ¿Cómo trabajar en el grafo web?

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

26 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Representación del grafo (II)

Page 27: ¿Cómo trabajar en el grafo web?

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

27 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Representación del grafo (III)

Page 28: ¿Cómo trabajar en el grafo web?

http://reina.usal.es

José Luis Alonso [email protected]